google big query

GCPエンジニアが語るBigQueryを使うメリット

目的

今まで説明してきたGA4のデータ解析では
BigQueryをデータウェアハウスとしたアーキテクチャを構成しています。

感度の高い皆様の中には機械学習やAIのジャンルでも
BigQueryの名前が散見されていることにお気づきかも知れませんね。

AIやIOTデバイスなどは日々膨大な量のデータを発信し続けています。

今までは取得できなかった様々な有益な情報を得られる可能性があるデータ群として、
最先端のビジネスではビッグデータが活用されています。

ご存知の通り、webアクセスデータも日々膨大なデータが集約されていて、
その結果を元に近未来の予測や新規事業の創出のためにデータ活用されているでしょう。

そのような意味合いでもwebアクセス解析は
企業の有益な資産としてのビッグデータとして扱われるケースが増えています。

有効に活用していくためにもBigQureyのような
高速で高性能な分析が可能であるデータウェアハウスで扱うことが
非常に効果的になるのではないでしょうか。

今回は私が過去にデータ分析環境を旧来のRDB中心の環境から、
BigQueryをはじめとしたフルマネージドのビッグデータ解析基盤へと刷新した際のケースとともに、
BigQueryの効果について改めてご説明します。

RDBでの分析の問題点

前回お伝えしたようにRDBは複数のデータテーブルを関連付けして管理できることから、
オンラインショッピングの会員情報や社員情報に紐付く様々な情報を管理する社内システムでは
必要不可欠なデータベースになります。

しかし、ビッグデータの様にひっきりなしに膨大なデータが登録され続け、
大量のデータを抱え続けるにつれて大幅な処理速度の低下やデータストレージの逼迫が起こり
システムの最適化に要する管理コストが大幅に増えてしまいます。

また、データ分析では膨大なデータに対してSQLによる問い合わせをすることになることから、
SQLの実行から要求データの返却まで膨大な時間がかかる事があります。

ビッグデータを活用して高速な分析とともに最適な結果を求め出すことが、
変化の多い現代においてスピーディーな効果を出し、
ビジネスを実現するために要求されるため、
RDBでデータ分析環境を構築するのは限界が訪れるケースが多々あります。

そのような中でも最近ではRDBソフトウェアのアップデートによって
分析に耐えられる高性能な機能が提供されることも増えてきましたので、
RDBをアップデートしてデータ分析環境を最適化する選択肢もあるようです。

BigQueryによるビッグデータ分析基盤の効果

RDBで発生したデータ登録や参照に対するパフォーマンスや管理コストを解決する必要があります。

日々膨大なデータが登録され、蓄積されるデータは増え続ける中で下記の3点を中心として
システムアーキテクチャの再検討が必要になりました。

  • 大量データの登録処理
  • データの保存、高速なデータ抽出処理
  • 管理コストの低減

問題の解決のためにはクラウド環境でのフルマネージドシステムでのシステム設計が必要となり、
Google社のクラウドサービスプラットフォームであるGCP(Google Cloud Platform)に含まれる
BigQueryを中心としたシステム構成にすることによって、
超高速なデータ分析環境の構築が実現できました。

大量データの登録処理についての説明は割愛しますが、
GA4のデータ取り込みの際に利用したFIirebaseのような
簡単に大量のデータをBigQueryに連携できる仕組みが
GCPに含まれているサービスを活用することによって実現可能になります。

AWSについて

また、Amazon社のクラウドサービスプラットフォームであるAWS(Amazon Web Service)を利用して
データ分析環境を構築することも可能です。

こちらは元々Amazonのオンラインストアを支える堅牢で各種セール開催時の高負荷アクセスに対して、
柔軟にシステムの拡張ができる仕組みで利用されていた仕組みを一般に公開したサービスになります。

物理的なサーバーやネットワーク機器をそのまま仮想化したような構成で、
昔ながらエンジニアには非常にわかりやすく扱えるようになってる事が特徴です。

GCPについて

GCPは超高速なGoogle検索の仕組みや、Google Mapなどの膨大なデータを瞬時に捌くような
機能を中心としてシステムを構成することに特化している傾向があります。

最小構成でのシステム構成ができることから、
工夫次第ではAWSに対してより低コストでのシステム構築ができる傾向になります。

クラウドサービスの発展

最近のクラウドサービスの円熟によって、データ分析のみならずAIや機械学習、
さらには3D CADなどのデザイン分野で高性能な処理をする事が可能となり、
AWS、GCPどちらでも高性能なシステムが運用されていて、様々なビジネスや社会基盤を支えています。

もちろんMicrosoft社のAzureも様々なケースで利用されています。

それ以外でもGCPやAWS上で動作できるデータウェアハウスの
Snowflakeや、
GUI上でのノンコーディングによるデータサイエンスプロセスの自動化が可能であるAlteryxなど
高性能かつ効果的なデータマネジメントサービスが利用されています。

個人的に興味あるのはAWSが提供しているAWS Ground Stationというサービスで、
衛星通信のコントロールやデータ処理を可能としているサービスです。

宇宙開発へどのように活用されていくかが非常に興味深いですね。

まとめ

AIや機械学習を中心に発展し続けるビッグデータの活用が、
web解析シーンでも当たり前になりつつある世の中になりつつあります。

文明の夜明けから2003年までに作られた情報が
現代では2日ごとに作られている世の中になっており、
その速度は日々加速し続けています。(※)

膨大な情報を効率よく、適切に扱う事が必須になっている時代の中で、
web解析で得た情報を活用して新たなビジネスやソリューションに結び付けていくことが
非常に重要なのではないでしょうか。

私としてはAIや機械学習など比較的最近登場したテーマと同じレベルで
昔からあるWeb解析が重要視されていることは非常に喜ばしく思います。

機械学習的なアプローチでのweb解析が主流になる日も近いのではないでしょうか。

※参考
LIMITLESS-超加速学習―人生を変える「学び方」の授業

概要

  • 屋号 : 株式会社菊原web解析事務所
  • 代表 : 菊原 晋作
  • 設立 : 2019年10月
  • 住所 : 東京都世田谷区太子堂1-12-27
  • URL : http://www.kikuhara.site
  • mail : kikuhara@kikuhara.site

お問い合わせ

月曜〜金曜 am11〜pm18