背景

TVerは今後のサービス改善のために、提供中の機能などの利用状況をBigQueryで集計・分析するための環境を持っていました。

そこでは、収集したいログごとに異なるサービス・プロダクトを契約し、それらを突合するなどして集計・分析していました。

課題

この従来の分析環境は次の3つの課題がありました。

そこで、上記の課題を解決することを目的として、弊社での分析に必要なログを統合的に収集・集約するためのログ基盤であるTVerTagを開発することにしました。

収集部分・集約部分それぞれを次の方法で実装することにしました。

収集部分: Cloud CDNとLoad Balancerで構成したEndpointに対するtracking用pixel dataをHTTP GETするアクセスログをCloud Loggingで収集します。
集約部分: アクセスログをCloud Pub/Subへ転送し、それをCloud RunでPullして加工し、Cloud Storageに格納します。集計・分析時はそのCloud StorageをBigQueryのExternal Table経由で参照するようにします。

当初この構成で運用していたのですが、問題が出てきたため、それぞれ次のように解決しました。

External Tableへクエリを実行するためにはExternal TableだけでなくCloud Storageの読み取り権限も必要となり、権限を2重管理する手間が発生しました。そこで当時GAになったBigLakeを利用することで、Cloud Storageへの読み取り権限をBigQueryに移譲させ、結果External Tableへの読み取り権限のみケアすればよくなりました。
Cloud Storageに格納されているオブジェクトの数が増えてくるとExternal Tableへのクエリのレスポンスが悪化しました。そこで、定期的にNative Tableへ取り込むバッチを後段に追加し、集計・分析時はそのNative Tableを参照することで、データ量に対してクエリのレスポンスがスケールするようにしました。