今回も、Professional Cloud Data Engineer認定取得するために、私が勉強した内容をアウトプットしていきます。
今回は、Dataplex Universal Catalogの概要、Dataplex Universal Catalogのデータカタログ、Data CatalogとDataplex Universal Catalogの比較について説明します!
ぜひ、最後までご覧いただけると嬉しいです!
Dataplex Universal Catalogの概要
Dataplex Universal Catalog は、Google Cloud 上のデータ資産を横断的に管理するための統合メタデータ&ガバナンス基盤です。
データを物理的にコピーすることなく、Cloud Storage の非構造化データ、BigQuery の構造化データ、Spanner や Pub/Sub、Vertex AI など、複数のデータストアにまたがるメタデータを検出・管理・統制・監視できます。
そのため、データがどこに存在していても、単一の管理レイヤーでカタログ化やデータ品質チェック、アクセス制御を適用可能です。
例えると、Dataplex Universal Catalog は、巨大な図書館の「スーパー司書」のような存在です。
- データの発見
図書館のあらゆる棚(Cloud Storage、BigQuery、Spanner など)にある本(データ)をクロールし、目録(メタデータ)を作成します。 - データの整理
本を「小説」「科学」「歴史」といったゾーンに論理的に分類し、必要な本をすぐに探せるようにします。 - 品質管理
本の状態(NULL 率、範囲、形式などの品質ルール)をスキャンし、問題を検出します。必要に応じてクレンジングなどの修正は、外部パイプラインやユーザー設計の処理で行います。 - セキュリティ
「この本は貸出禁止」「このエリアは特定の職員のみ」などのルールを、図書館全体で一貫して適用します。IAM ロールやポリシー、VPC Service Controls、Cloud KMS といった仕組みを組み合わせてセキュアに管理できます。
Dataplex Universal Catalogの主要な構成要素
Dataplex Universal Catalog は、データをレイク→ゾーン→ アセットの階層で論理的に整理します。
- レイク(Lake)
特定のドメインやビジネスユニット(例:販売、マーケティングなど)のデータをまとめる最上位コンテナです。メタデータやポリシー適用の単位になります。 - ゾーン(Zone)
レイク内のサブ分類。データの状態や用途に応じて「Raw(未加工)」「Curated(整形済み)」「Trusted(認定済み)」といったタイプを設計可能です。これらの分類はベストプラクティスの例であり、Dataplex Universal Catalog が自動で割り当てるものではありません。 - アセット(Asset)
ゾーンにマッピングされる Cloud Storage バケット/プレフィックス、BigQuery データセットやテーブル、Spanner データベースなどのデータ保管領域です。Dataplex Universal Catalog はこれらをメタデータとして管理し、検出・監視・アクセス制御を適用します。
Dataplex Universal Catalogの主なメリット
- 一元的なデータ管理
組織内に散在するデータを、最小限の物理的移動で一元管理できます。ロケーションやストレージクラスの設計は事前に検討しましょう。 - 統合されたデータガバナンス
IAM/ポリシー、メタデータ分類、タグ付け、ビジネス用語集、データラインエージュ(系譜追跡)などを通じて、組織全体にわたる一貫したガバナンスを実現できます。 - データ品質の自動化
データ品質ルールを定義し、スキャンを実行して異常を検知し、アラートを発報できます。品質問題の修正は別途パイプラインや ETL 処理で対応します。 - 分析対応の高速化
カタログ検索やスキーマ情報が統合されているため、アナリストやデータサイエンティストが必要なデータを素早く発見し、前処理時間を短縮できます。 - データラインエージュ/監視の強化
データがどこから来て、どのような変換を経ているかを可視化できるため、信頼性の向上やコンプライアンス対応に役立ちます。
Dataplex Universal Catalogの概要のまとめ
Dataplex Universal Catalog は、データそのものの加工や「Single Source of Truth」を自動保証するものではありません。しかし、分散したデータを統合的に管理・可視化し、ガバナンスと品質の基盤を提供することで、データドリブンな組織運営を支える強力なサービスです。
Dataplex Universal Catalogのデータカタログ
組織のデータは BigQuery、Cloud Storage、Pub/Sub、Cloud SQL、Spanner、Vertex AI など、様々な場所に散らばっており、その結果、「どんなデータがどこに存在するのか?」「このデータは信頼できるのか?」「誰が管理しているのか?」といった問いに答えるのが難しくなり、データ活用が進まないことがあります。
こうした課題を解決するのが、Dataplex Universal Catalogのデータカタログ機能です。
Dataplex Universal Catalog データカタログとは?
Dataplex Universal Catalog は、組織内のあらゆるデータ資産の メタデータを集中管理し、検索・発見・ガバナンス活用を容易にする完全マネージド型サービスです。過去にGoogle Cloudが提供していた Data Catalog の機能を多く取り込んでおり、現在は機能拡張されたメタモデルが採用されていますが、完全にすべてが同じというわけではなく、未対応・移行中の機能や制限もあります。
Dataplex Universal Catalog データカタログは、巨大な図書館の「蔵書検索システム」のようなものです。
- 自動で蔵書登録(自動メタデータ検出)
管理者が指定した Google Cloud のプロジェクト・リソース(BigQuery のテーブル/モデル/ビュー、Cloud Storage バケット/ファイルセット、Pub/Sub トピック、Cloud SQL/Spanner/Vertex AI のアセットなど)から、リソース名、型、スキーマ(列構造があれば)、更新日時等の技術メタデータを自動取得します。標準的な形式であればスキーマ情報なども比較的完全に取得できますが、非構造的/複雑な形式や特殊設定のソースでは、必要に応じて人手での定義や追加設定が必要になることがあります。 - ビジネスコンテキストの付与
タグ、説明文/概要 、データオーナー・スチュワードなどのビジネスメタデータを追加可能です。カスタムのアスペクトを定義して、「機密性」「個人情報」「用途」「リスクレベル」など、組織固有のビジネス指標をメタデータに取り込むことができます。 - 強力な検索・発見機能
名前、タグ、説明文、スキーマ/列名などをキーに、組織全体や複数プロジェクトをまたいでデータ資産を検索可能です。ただし、検索結果が必ずしも完全で返ってくるとは限らず、IAM権限や VPC Service Controls、ロケーションなどの設定・制約によって結果が制限される場合があります。
主な機能と仕組み
1. メタデータの自動検出
- サポートされている Google Cloud リソースから技術メタデータを自動的に収集します。サポートされているサービス/リソースは、BigQuery(データセット、テーブル、モデル、ビュー、ルーチンなど)、Cloud Storage(バケット/ファイルセット)、Cloud SQL、Spanner、Pub/Sub、Vertex AI(モデル・データセット等)などです。
- スキーマ(列/フィールド)情報の取得はソースやフォーマットに依存します。標準形式(Parquet, Avro, JSON, CSVなど)であれば比較的容易ですが、非定型/ネスト構造が深い/分割されたファイルなどでは、列の取得や内容の把握に追加設定・手動作業が必要なことがあります。
2. ビジネスメタデータの付与
- Aspect/Aspect Types を使って、技術メタデータ以外(ビジネス的な分類/機密性/用途等)を定義・付与可能。
- 説明文/概要、オーナー/スチュワードなどを登録する機能。
- 既存の Data Catalog の 用語集 やタグテンプレートからの移行が可能な場合があり、その付与内容の一貫性に注意が必要。
3. 検索/発見
- 名前、タグ、説明文、スキーマ/列名などのメタデータを使って資産を検索可能。組織的・プロジェクトをまたいだ検索も可能。ただし、IAM 権限、VPC Service Controls、ロケーション設定、検索の再現率(recall)の制限などが影響します。
- フィルター機能により、リソースタイプ(テーブル・データセット・モデルなど)、プロジェクト、タグ/アスペクト値といった条件で絞り込みできます。
なぜデータカタログが重要なのか?
- 生産性の向上
データアナリスト/データサイエンティストは、どこにどんなデータがあるかを探す時間が減り、分析・モデリング等の本来の仕事に集中できるようになります。ただし、タグ設計・説明文やオーナー登録など、メタデータ整備運用がしっかりしていないと検索精度・発見性が低くなることがあります。 - データガバナンスの強化
機密データや個人情報の分類、政策タグ・アクセス制御などを一元的に把握し適用できる基盤を持てます。ただし、Dataplex Universal Catalog 自体が直接アクセス制御をすべて管理するわけではなく、IAM ポリシー、BigQuery のポリシータグやその他 Google Cloud のセキュリティ機能と併用する必要があります。 - データ民主化(セルフサービス化)
技術者以外のユーザーもデータ資産を見つけて理解しやすくなることで、組織としてのデータ活用の広がりが期待できます。ただし、メタデータが整備されていなければ、見つけられない・理解できないという壁が残ります。 - 品質・信頼性の向上
自動プロファイリング、自動データ品質チェック、データラインエージェンスなどにより、データがどれくらい信頼できるかを可視化でき、問題発生時に原因をさかのぼることが可能です。ただし、これらの機能のうち、一部はプレビュー版または限定的なソース/リージョンでの提供であることがあるため、導入前に提供状況を確認することが重要です。
Dataplex Universal Catalogのデータカタログのまとめ
Dataplex Universal Catalog は、組織全体のデータ資産を横断的に把握し、メタデータを集中管理できるデータカタログ機能です。BigQuery や Cloud Storage、Pub/Sub など複数のサービスに散在する情報を統合し、検索やガバナンス、品質向上を支援します。適切にメタデータを整備すれば、データ探索の効率化や信頼性の向上、セルフサービス型の活用促進が可能になります。
Data Catalog と Dataplex Universal Catalog の比較
Google Cloud でデータガバナンスを考えるとき、「Data Catalog」と「Dataplex Universal Catalog」は似た目的を持ちますが、その役割や機能範囲には大きな違いがあります。
現在、Google Cloud のガバナンス戦略では、Data Catalog の機能を Dataplex Universal Catalog に移行する取り組みが進行中です。Data Catalog は 2026年1月30日 をもって「非推奨」かつ「廃止」の予定です。
これから、両者の違いを明確にし、2つのサービスの比較について説明します。
Data Catalogの概要
Data Catalog は、Google Cloud が提供するフルマネージド型の メタデータ管理サービス です。
BigQuery、Cloud Storage、Pub/Sub などに格納されたデータ資産の情報を収集し、カタログ化して検索や管理を容易にします。タグやカスタムメタデータを付与してビジネス文脈を加えることで、データの分類やガバナンスを強化できます。
また、ポリシータグや IAM と組み合わせることで、セキュリティやアクセス制御の基盤としても活用可能です。
データ探索の効率を高め、組織全体のデータ活用を促進するための中核的なサービスです。
2つのサービスの違い:書店とショッピングモールの関係
サービス | 例えるなら | 主な機能 |
---|---|---|
Data Catalog(従来) | 専門書店 | 技術メタデータ + ビジネスメタデータ(タグ、説明文、スチュワードなど)の管理と検索が中心。BigQuery、Cloud Storage 等の資産に対するメタデータの登録・検索機能が主要な用途。 |
Dataplex Universal Catalog | 巨大なショッピングモール(専門店群を含む) | Data Catalog の機能を包含しつつ、より広いガバナンス機能を持つ。例えば、より強力なメタモデル、多様なソースサポート、検索・発見機能の拡張、データ品質チェック・自動プロファイリング、統合されたアクセス制御、データ系譜 、データレイク構造 (レイク/ゾーン/アセット) などが含まれる。 |
機能比較
機能 | Data Catalog(従来) | Dataplex Universal Catalog |
---|---|---|
データ検出と検索 | ⭕️ 技術メタデータ + ビジネスメタデータの検索可能 | ⭕️ すべてのサポート済みソースのメタデータを含む検索可能(Data Catalog から移行したものも含む) |
ビジネスメタデータ管理(タグ・説明文・ステュワード等) | ⭕️ | ⭕️ |
データレイク構造の管理(Lake/Zone/Asset 等) | ❌️ | ⭕️ (ただし、レイク/ゾーン/アセット構造は Dataplex の他の機能との組み合わせで管理) |
データ品質監視・自動チェック | ❌ | ⭕️ (プロファイリングや Auto Data Quality 機能等。ただし、提供状況・対応ソースは限定的な場合あり) |
データライフサイクル管理(アセットのライフサイクル、古いデータのアーカイブ等) | ❌または限定的 | 🔺 一部可能。ただし Dataplex Universal Catalog 単独ではなく、レイク/ゾーン/アセット の管理機能やストレージ/保持ポリシーなど他サービス/運用設計と組み合わせる必要あり |
統合的なセキュリティ/アクセス制御 | 限定的(主にタグ・IAM) | ⭕️ IAM+ポリシー、タグ・分類、データ属性等、より細かい制御が可能。ただし、移行時にはプライベートタグ/タグテンプレートの可視性・権限設定など注意が必要。 |
Data Catalog と Dataplex Universal Catalog の比較のまとめ
Data Catalog は、Google Cloud における従来型のメタデータ管理基盤として、データ探索やタグ付けによるガバナンスを支えてきました。
一方、Dataplex Universal Catalog は Data Catalog の機能を包含しつつ、より広い範囲のデータ資産を統合管理し、品質チェックやデータ系譜など高度なガバナンスを可能にします。
Google は Data Catalog を 2026 年 1 月に廃止予定としており、今後は Dataplex Universal Catalog への移行が推奨されます。
両者の違いを理解することで、組織に最適なデータガバナンス基盤を設計しやすくなります。
特に新規導入や将来的な拡張を見据える場合は、Dataplex Universal Catalog を前提に検討するのが重要です。
まとめ
今回は、下記3点について説明しました。
- Dataplex Universal Catalogの概要
- Dataplex Universal Catalogのデータカタログ
- Data Catalog と Dataplex Universal Catalog の比較
Dataplex Universal Catalog は、分散したデータ資産を統合し、メタデータ管理や検索、ガバナンスを強化するための Google Cloud の中核サービスです。
従来の Data Catalog の機能を包含しつつ、データ品質管理や系譜、レイク構造の管理など、より高度な機能を提供します。Data Catalog は 2026 年に廃止予定であり、今後は Dataplex Universal Catalog への移行が推奨されます。適切なメタデータ整備と運用を組み合わせることで、データ探索の効率化や信頼性向上、データ活用の民主化を推進できます。データドリブンな組織を目指すなら、Dataplex Universal Catalog を基盤としたガバナンス設計が重要です。
これからも、Macのシステムエンジニアとして、日々、習得した知識や経験を発信していきますので、是非、ブックマーク登録してくれると嬉しいです!
それでは、次回のブログで!