AWS Summit Tokyoに参加しました (データシステム観点編)

データシステムとバックエンドを担当している黒瀬です。

4/20(木)と4/21(金)に開催されたAWS Summit Tokyoに参加してきましたので、取材した内容をレポートいたします!

Welcome to AWS Summit Tokyo

AWS Summit Tokyoについて

AWS Japanが開催する年次のカンファレンスで、今年は4年ぶりにリアル開催となりました。

事前登録者数は35,000超えとかなりの盛り上がりっぷりで、会場の幕張メッセも各ホールが来場者でとても賑わっていました。

参加目的

今回私はAWSのデータ系サービス・ソリューション・事例を中心とした情報、および今後の弊社のデータ管理のヒントを見つけるために参加しました。

見聞録

当日はいろんなセッションやブースを見て回ったのですが、ここではその中でも特に印象に残ったものをピックアップしてご紹介いたします。

セッション

ここでは以下3つについてご紹介します。

AWSでのデータ活用を加速するデータ連携のパターンとベストプラクティス

AWSで提供されているサービスを利用してシームレスにデータ取り込みや他のサービスと連携する方法についておさえることができるセッションでした。

特に印象的だったのはAmazon AppFlowでした。SaaSやアプリケーションからS3やRedshiftなどにデータを取り込めるサービスとのことですが、幅広いSaaSに対応しているという点が魅力的だと感じました。

実際SaaSからデータを取り込む際に自前で処理を組むとなるとAPIの仕様理解など地味に手間がかかるため、ここを削減できると本当にやりたいことに集中できそうです。

AWSではじめるデータクオリティ管理

AWSを利用して収集・集約するデータのクオリティ管理に使うサービスの紹介です。

誤ったデータや古いデータに基づく誤ったビジネスの判断を防ぐため、データシステムにデータクオリティをチェックする仕組みがあるのが理想的です。

これを実現するため、AWSではAWS Glue Data Qualityというサービスを提供しています。これはDQDLと呼ばれるデータクオリティ記述言語によってデータの一貫性・精度・完全性・整合性のクオリティを定義できて、それに沿ったチェックができるサービスです。

その他、組織内のデータ権限の一元管理にはLake Formationが、ガバナンスやデータカタログにはDatazoneが利用できることも紹介されていました。

データクオリティはデータシステムがエラーなく動いていることだけではチェックできないため、弊社では集計値のトレンドなどから判断するようにしていますが、そのチェックも(半)自動化できると運用負荷が下げられそうです。

マルチBI情シスとユーザのための、データマート・ベストプラクティス

様々なBIツールを利用している組織においてデータマートを利用してデータの中央管理と集計作業の個別最適を両立した事例紹介です。

部門ごとに異なるBIツールやデータ基盤を利用する組織では、IT部門の運用コストが高いする一方で、BIツールを含めたデータ基盤を統合するとなると、それまで使い慣れていた集計作業から新しいものへの移行を強制することになるため、受け入れられにくいという課題があります。

そこで、DWHまでのデータ基盤はIT部門で管理し、データのユースケースごとのデータマートやBIツールは各部門にお任せすることで、全体最適と個別最適を実現しました。

BIツールを部門ごとに好きなものを利用できるのはデータ利活用の促進になりそうです。

ブース出展

データシステム系の出展を見てまわりました。集計・集約するだけでなく、蓄積したデータのガバナンスやプライバシー保護のためのプロダクトやソリューションが多数ありました。

denodoさんブースでは、データを加工したりするたびにコピーしたりせずに、大元のデータストアに置いたまま、そのデータストアが何であるかを利用者が意識しないで済むような抽象化レイヤーを提供するプロダクトが紹介されていました。

www.denodo.com

またdatabricksさんブースでは、データレイクハウスも基づいたデータ利活用ソリューションについて紹介されていました。

www.databricks.com

Gunosyさんブースでは、社内に散在するデータを集約してアクセス権も管理しつつ、集計方法や集計する人のロールや用途に合わせてBIツールを使い分けるデータ基盤を構築した事例が紹介されていました。

まとめ

今回初めてAWS Summitに参加しましたが、他にもここでは記載できないくらいの多くの情報が盛りだくさんで、本当に参加してよかったと思っています。

今後のTVerでのデータ管理に役立つ情報もたくさんあったので、早速活かせるところから活かしていきます。