先日、Professional Cloud Data Engineer認定試験を受験しました。結果は、不合格でした。原因は、自身の知識がまだ十分ではなかったことだと考えています。また、AIに関する内容はProfessional Machine Learning Engineerで扱われるため、本試験では出題されませんでした。
今回の不合格を糧に、引き続き学習を重ね、次回の合格を目指して取り組んでいきます。
今回は、Analytics Hub、Analytics Hubのリスティング、Analytics Hubのデータエクスチェンジについて説明します!
ぜひ、最後までご覧いただけると嬉しいです!
Analytics Hub
Analytics Hubは、異なる組織間でデータを安全かつ効率的に共有するためのGoogle Cloudのプラットフォームです。データプロバイダは、自組織が保有するデータを「リスティング」として公開し、他の組織(サブスクライバー)に提供できます。これにより、組織の壁を越えたデータ活用が可能になり、データの価値を最大限に引き出すことができます。
Analytics Hubの主要な構成要素
Analytics Hubは、主に以下の4つの要素で構成されています。
- リスティング:共有されるデータセットへの参照です。
- データエクスチェンジ:リスティングをまとめたもので、プライベートとパブリックの2種類があります。
- パブリッシャー:リスティングを作成し、管理する役割を担います。使用状況のメトリクスを追跡することも可能です。
- サブスクライバー:リスティングを閲覧・サブスクライブし、リンクされたデータセットに対してクエリを実行することで、リアルタイムで分析結果を得ることができます。
共有データセット
Analytics Hubにおいて、共有データセットはデータ共有の基本単位であり、BigQuery上のデータセットを複製することなく、複数のサブスクライバーと共有できる仕組みです。ストレージとコンピューティングが分離されたBigQueryの設計により、データパブリッシャーは効率的かつ安全に共有が可能です。また、列レベル・行レベルのセキュリティにも対応しています。
以下は、共有データセットでサポートされている主なリソース群です。
- 承認済みビュー:基となるテーブルへの直接アクセス権を与えずに、特定のビュー経由でのみデータへのアクセスを許可することで、セキュアな共有を実現します。
- 承認済みデータセット:事前承認されたデータセット全体を共有対象とし、細かなアクセス制御の適用を容易にします。
- BigQuery ML モデル:機械学習モデルを含むデータセットを共有することで、他組織でもそのモデルを活用して予測や分析が実行可能になります。
- 外部テーブル:Cloud Storageなどの外部ストレージ上のデータをBigQueryに直接クエリ可能な形で共有できます。
- マテリアライズドビュー:クエリ済みの結果をキャッシュして高速応答を提供するビューを共有し、効率よくデータを活用できます。
- ルーティン:ユーザー定義関数やストアドプロシージャの共有により、共通の処理ロジックも他組織と再利用可能です。
さらに、共有データセットにはテーブルやテーブルスナップショット、ビューも含まれ、柔軟な活用が可能です。
料金体系
料金体系は、共有するデータセットの種類によって異なります。
- BigQueryデータセット:パブリッシャーはデータストレージ料金を、サブスクライバーはクエリ料金をそれぞれ負担します。
- Pub/Sub:パブリッシャーはパブリッシュスループット、サブスクライバーはサブスクライブスループットに対して料金が発生します。
制限事項
Analytics Hub の共有機能を活用する際には、いくつかの留意点があります。以下に主要な制限事項を挙げます。
- リンク済みデータセットの上限:個々の共有データセットに対して生成可能なリンク済みデータセットは最大1,000件までです。大規模展開には設計上の工夫が必要になります。
- Pub/Sub サブスクリプションの上限:共有トピックに関して、設定可能なPub/Subサブスクリプションの数は最大10,000件です。組み合わせた制御が必要な場合は注意が求められます。
- サポートされないリソース:データセット内にAnalytics Hubがサポートしていないリソースが含まれている場合、そのデータセットは共有対象として選択できません。対象となるリソースを事前に確認しましょう。
- リンク済みデータセットへのIAM設定制限:
- 個別のテーブル単位でIAMロールまたはポリシーを設定できず、リンク済みデータセット全体でのみ適用可能です。
- 同様に、IAMタグの付与もリンク済みデータセットレベルに限定されます。
- 古いサブスクリプションの扱い:2023年7月25日以前に作成されたリンク済みデータセットは、API上のサブスクリプションリソースにバックフィルされず、API管理が制限されます。
- 承認済みビューによるアクセス設計推奨:リンク済みデータセット内のビューをサブスクライバーがクエリできるようにするには、基となるテーブルへのアクセス権を持つ必要があります。そのため、承認済みビューを利用して直接アクセスを避ける設計が推奨されます。
- カタログ更新の遅延:共有データセットに多数のサブスクライバーやテーブルが存在する場合、Data CatalogやDataplex Catalogへの更新反映に最大18時間かかることがあります。結果として、更新内容がコンソールからすぐに検索できない場合があります。
Analytics Hubのまとめ
Analytics Hubは、組織の壁を越えてデータを安全かつ効率的に共有するための強力なプラットフォームです。データ発行者はリスティングを通じてデータセットやMLモデルなどを公開し、利用者はデータを複製することなくリアルタイムで分析できます。料金はデータの保存側とクエリ実行側で分担されるシンプルな体系です。一方で、共有できるリソース数には上限があるなどの制限事項も存在するため、設計段階での考慮が必要です。これらの特徴を理解し活用することで、データ連携を加速させ、その価値を最大限に引き出すことが可能になります。
Analytics Hubのリスティング
Google CloudのAnalytics Hubは、組織内外でのデータ共有を促進するプラットフォームです。その中核となるのが「リスティング」の管理と活用です。リスティングは、共有したいデータセットへの参照情報であり、データプロバイダーはこれを介して自社のデータを安全に公開できます。一方、データ利用者はリスティングを閲覧・サブスクライブすることで、必要なデータにアクセスし、分析に活用できます。
リスティングの作成と管理
データプロバイダーは、Analytics Hubでリスティングを作成し、管理します。リスティングには、データセットに関する詳細な説明や、サブスクライバー向けのドキュメントなどを含めることができ、データ利用者が内容を理解しやすくなります。
リスティングには、パブリックとプライベートの2種類があります。
- パブリックリスティング:Google Cloudプロジェクトを持つすべてのユーザーが閲覧・サブスクライブできます。
- プライベートリスティング:特定の組織やユーザーグループにのみ共有されます。
不要になったリスティングは削除できますが、削除するとサブスクライバーのプロジェクトからリンクされたデータセットも削除されるため、注意が必要です。
リスティングの閲覧とサブスクライブ
データ利用者は、Analytics Hubで公開されているリスティングを閲覧し、必要なデータセットをサブスクライブ(利用登録)できます。サブスクライブすると、自身のプロジェクトにそのデータセットへのリンクが作成され、BigQueryを使ってクエリを実行したり、他のデータと組み合わせて分析したりすることが可能になります。
商用利用と注目のリスティング
Analytics Hubのリスティングは、Cloud Marketplaceと統合されており、商用データとして提供することも可能です。この場合、サブスクリプションが有効な間はリスティングを削除できません。
また、一定の要件を満たしたリスティングは、Analytics Hubカタログの「注目」セクションに掲載され、より多くのユーザーの目に触れる機会を得られます。掲載を希望する場合は、所定のフォームからリクエストを送信する必要があります。
このように、Analytics Hubのリスティング機能は、データの提供者と利用者の双方にとって、安全で効率的なデータ共有を実現するための強力なツールとなります。
Analytics Hubのリスティングのまとめ
Analytics Hubのリスティングは、データ共有の中心的な仕組みであり、データプロバイダーは自社データを安全に公開し、利用者は必要なデータをサブスクライブして分析に活用できます。リスティングはパブリックとプライベートの形態があり、Cloud Marketplaceとの統合によって商用利用も可能です。さらに「注目」リスティングとしてカタログに掲載されることで、多くのユーザーに発見されやすくなります。
Analytics Hubでのデータエクスチェンジ
Google CloudのBigQueryにおけるAnalytics Hubは、組織内外での安全なデータ共有を可能にするプラットフォームです。その中心的な機能の一つが「データエクスチェンジ」の管理です。データエクスチェンジを利用することで、データプロバイダーは自社のデータをカタログ化し、他のユーザー(サブスクライバー)に発見・利用してもらうことができます。
データエクスチェンジの作成と管理
データエクスチェンジを作成するには、まずIAM(Identity and Access Management)で必要な権限が付与されていることを確認する必要があります。具体的には、「Analytics Hub Exchange 管理者」ロールが必要です。
作成後、エクスチェンジの説明やドキュメント、連絡先情報などを編集して、サブスクライバーがエクスチェンジの内容を理解しやすくすることができます。また、IAMポリシーを設定することで、エクスチェンジへのアクセス権をきめ細かく管理することが可能です。例えば、特定のユーザーやグループに閲覧、更新、削除などの権限を付与できます。
エクスチェンジの共有と削除
作成したエクスチェンジは、URLを共有することで他のユーザーに知らせることができます。不要になったエクスチェンジは削除することも可能ですが、削除するとそのエクスチェンジ内のすべてのリスティングも削除されるため、注意が必要です。
このように、Analytics Hubのデータエクスチェンジ機能は、組織のデータを安全かつ効率的に共有するための強力なツールとなります。
Analytics Hubでのデータエクスチェンジのまとめ
Analytics Hubのデータエクスチェンジは、組織内外での安全なデータ共有を実現する仕組みです。プロバイダーはエクスチェンジを作成し、IAMを活用してアクセス権を柔軟に管理できます。その中で作成されるリスティングは、プライベートまたはパブリックとして公開でき、利用者が容易にデータを発見・活用可能です。これにより、効率的かつセキュアなデータ共有環境を構築できます。
まとめ
今回は、下記3点について説明しました。
- Analytics Hub
- Analytics Hubのリスティング
- Analytics Hubでのデータエクスチェンジ
Analytics Hubは、Google Cloudが提供する安全で効率的なデータ共有基盤であり、組織間のデータ活用を大きく促進します。データエクスチェンジを通じて、プロバイダーはIAMを活用した柔軟なアクセス管理を行いながら、利用者に向けてデータをカタログ化できます。中心となるリスティングは、パブリック/プライベートの形式で公開でき、サブスクライブすることで利用者は容易に分析に活用可能です。さらにCloud Marketplaceとの統合や「注目」掲載によって、商用利用や広範な発見性も実現されます。これらにより、Analytics Hubはセキュリティと利便性を兼ね備えた強力なデータ共有プラットフォームとなっています。
これからも、Macのシステムエンジニアとして、日々、習得した知識や経験を発信していきますので、是非、ブックマーク登録してくれると嬉しいです!
それでは、次回のブログで!