<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=445779107733115&amp;ev=PageView&amp;noscript=1">

【Googleユーザー必見】Data Catalogとは?
特徴や機能、活用例、料金について徹底解説!

 2025.12.04  株式会社電算システム

社内にある膨大なデータを活用する際、必要なデータがどこに存在するかがわからなかったり、データを取得するのに時間がかかったりすることも多いのではないでしょうか。このような状態を放置すると、現場でのデータ活用が進まず、DXやデータドリブンな意思決定の実現に支障をきたす可能性も考えられます。

今回紹介するData Catalogは、このような問題をスムーズに解消できる便利なソリューションです。データベースやDWH(データウェアハウス)などに散在したさまざまなデータにメタデータを付与し、それをカタログ状で可視化できるのが特徴です。メタデータによって各データの特徴や関連性が一目で把握できるようになるため、誰でもすぐに必要な情報にアクセスできます。

本記事では、Data Catalogの特徴や仕組み、機能などについて詳しく解説します。また、Data Catalogの具体的な活用例も紹介しているので、ぜひ参考にしてください。

Data CatalogとはGoogleが提供するメタデータ管理サービス

Data Catalogとは、Googleが提供するメタデータ管理サービスで、メタデータをカタログ状で可視化してデータの検索性を向上させます。ここでは、まずメタデータの基礎知識やData Catalogの役割・重要性について詳しく解説します。

そもそもメタデータとは

そもそもメタデータとは、タグなどによって定義付けされたデータのことです。

ファイルを例にあげると、そのなかに記載されたテキストや画像などの純粋なデータに対し、ファイル名やファイルサイズ、作成日時、アクセス権限といったメタデータを付与できます。また、データベースでも、レコードという純粋なデータに対し、テーブル名やカラム名、テーブルに関する概要といったメタデータの設定が可能です。

このようにメタデータを付与することで、ユーザーはファイル名や作成日時などの多様な要素から、特定のファイルをスムーズに検索できるようになります。また、各データの特徴や関連性が一目でわかるようになるため、より効率的なデータ活用につなげられるのもポイントです。

Data Catalogの役割

データカタログという言葉は一般的に広く用いられており、メタデータを管理するための仕組みや技術として認識されています。そのなかで、Googleが提供している専用のメタデータ管理サービスは、「Data Catalog」という名称で呼ばれています。

Google以外にMicrosoftやAmazonなども同系サービスを提供していますが、Data Catalogには、豊富な機能や強固なセキュリティ、幅広い種類のコネクタと接続できる利便性といった強みがあります。Data Catalogを利用すれば、タグを使ってメタデータを付与できるほか、複数のメタデータをカタログ状で可視化し一元管理することが可能です。

データ検出にData Catalogが必要な理由

必要なデータに必要なタイミングでアクセスするには、Data Catalogのような仕組みが欠かせません。

例えば、膨大な量のデータを生の状態(ローデータ)で管理している場合、各データの特徴や関連性を把握できず、効率良くデータを活用することはできません。その点、Data Catalogによってメタデータを付与することで、ファイルの本文以外にも、ファイル名や作成日時といった情報から目的のデータを探し出せるため、検索性の向上につながります。同一データが複数の場所で管理され、整合性が取れなくなるような事態も回避できます。

また、メタデータの量が増えすぎた場合でも、手作業での管理には限界があります。例えば、入力ミスや更新漏れといったヒューマンエラーのほか、メタデータの増加にシステムが対応しきれないスケーラビリティの問題も発生しかねません。一方、Data Catalogであれば、幅広い種類のメタデータを一元管理でき、さらにクラウドサービスなので、使用状況に応じて柔軟にスケーリングが可能です。

Data Catalogに搭載されている3つの機能

Data Catalogには、メタデータの付与やカタログ化、データ検出の3つの機能が搭載されています。それぞれの機能や仕組みについて詳しく解説します。

メタデータの付与

Data Catalogを利用すると、ファイルやデータベースなどにメタデータを付与できます。

ファイル名やファイルサイズ、作成日時といったメタデータ(タグ)を付与することで、各データの特徴や関連性が明らかになり、目的のファイルやデータベースなどにより素早くアクセスできるようになります。タグは各データと紐付いているので、メタデータを別のドキュメントで管理する必要がなく、運用面における手間やコストを抑えられるのも利点です。

また、タグテンプレートの機能が備わっているのもData Catalogの特徴です。テンプレートには、データソースごとに必要な設定項目が設けられているため、初心者の方でも迷うことなく効率的にタグを付与できます。

メタデータのカタログ化

本来、メタデータを付与すると、膨大なタグがシステム上に散在することとなります。この状態では、せっかくタグを付与して各データを整理しても、メタデータの管理に手間取って業務効率が悪化してしまいます。

Data Catalogには、このような問題を解消できるカタログ化の機能が備わっています。さまざまな種類のタグを一元的に記録し、カタログのように「何が・どこにあるか」が一目でわかるように設計されているため、管理業務の煩雑化や属人化を避けられるのが利点です。

また、このカタログ化の機能は、Google Cloudに搭載された各種サービスにも対応しています。例えば、BigQuery(SQLによるクエリ実行や分析を行えるサービス)のデータセットやテーブル、Pub/Sub(メッセージの送信・受信を分離するサービス)のトピックなど、さまざまなメタデータをカタログ状で可視化できます。

データ検出

せっかくメタ―データを付与しても、必要な情報に必要なタイミングでアクセスできなければ意味がありません。その点、Data Catalogには強力な検索機能とフィルタリング機能が搭載されており、スピーディーかつ的確なデータ検出を実現します。

検索時の条件は、「tag」や「type(アセットタイプ)」、「column(列)」といった演算子を使用できます。また、「:」や「=」を使って、部分一致検索や完全一致検索を行えるのも特徴です。

さらに、フィルタリング機能を使用すると検索結果を絞り込めます。例えば、タグ付けされたアセットのみを抽出したり、スター付きのアイテムのみに検索を制限したりと、柔軟な設定が可能です。

このような検索機能は、GmailやGoogleドライブと同じ仕様のUIが採用されています。そのため、使い慣れているGmailやGoogleドライブと同じ感覚で、必要なデータを素早く検索できるのがメリットです。

Data Catalogの4つの特徴

Data Catalogには、メタデータの付与やカタログ化といった機能が備わっているほか、次のような特徴を持っています。

  • フルマネージドサービス
  • 柔軟なスケーリング
  • 幅広い種類のコネクタ
  • 堅牢なセキュリティ

それぞれの特徴を理解することで、Data Catalogの強みや他社製品との違いが見えてきます。

フルマネージドサービス

Data Catalogはフルマネージドサービスとして提供されています。フルマネージドサービスとは、サーバーの構築や保守、セキュリティ対策、障害対応など、ITインフラの運用に必要なほとんどの作業を、サービス提供事業者側で担ってくれるサービスです。

そのため、Data Catalogを運用するにあたっては、自社でサーバーやネットワーク機器を用意する必要もなければ、物理的な機器の定期メンテナンスを行う必要もありません。その分、ユーザーは、タグの作成や付与、データ管理といった作業に注力でき、ITインフラの運用に要するコストや手間を抑えられます。

柔軟なスケーリング

Data Catalogは、完全なクラウドサービスとして提供されているため、柔軟にスケーリングを行えるメリットがあります。

そもそもスケーリングとは、データの使用量やトラフィック量に合わせてシステムの処理能力を調整することです。スケーリングを行うには本来、サーバー台数の増減やシステムのリプレイスなど物理的な調整が求められ、大規模なシステムになるほど膨大なコストや手間が発生します。

一方、クラウドサービスのData Catalogでは、需要の変化に合わせてリソースを割り当てるだけで済みます。その作業はすべてクラウド上で完結するため、物理的なサーバーの台数や性能を変更する必要がありません。これにより、スケーリングのコストや手間を削減できるだけでなく、データの使用量やトラフィック量に応じた柔軟なスケーリングを可能にします。

幅広い種類のコネクタ

Data Catalogは、Google Cloudの膨大なプロダクト群に含まれる一サービスとして提供されています。そのため、Google Cloudのほかのサービスと親和性が高く、それぞれと組み合わせて幅広いデータ統合が可能です。

Google Cloudには、データベース構築やクラウドコンピューティング、アプリケーション・AIモデル開発などに関する100種類以上のサービスが内包されています。例えば、SQL言語でクエリの実行や分析を行えるBigQueryや、メッセージを生成する際に送信側と受信側を分離できるPub/Sub、非構造化データの一元管理が可能なCloud Storageなどが代表的です。

Data Catalogには、それらのサービスと連携できるコネクタが用意されています。幅広い種類のコネクタを活用することで、複数のデータソースから必要なデータを読み込み、Data Catalogのなかでメタデータの付与や一元管理などを行えるようになります。

堅牢なセキュリティ

Data Catalogには、Cloud DLPやCloud IAMなど、メタデータ管理を安全に行えるセキュリティ機能が搭載されています。

Cloud DLPとは、Google Cloudに登録されている機密情報を自動検出し、マスキング処理によって安全に保護できる機能です。Cloud IAMは、「誰が・どのリソースに・どのような操作ができるか」という定義を明確にしたうえで、各アカウントのアクセス制御を一元的に実行できる機能を指します。

Google CloudのなかでもData Catalogでは、ファイルやデータベースを扱う機会が多く、そのなかに機密情報が含まれているケースも珍しくありません。Cloud DLPやCloud IAMといった高度なセキュリティ機能を活用することで、情報漏洩や不正アクセスといった脅威を未然に防げます。

Data Catalogの活用例

Data Catalogは、データ活用基盤の構築やオンプレミスデータベースとの統合など、さまざまな形で活用が可能です。ここでは、Data Catalogのユースケースについて詳しく解説します。

データ活用基盤の構築

データ活用基盤を構築する際は、データの収集から保管、加工、分析まで、一連のプロセスを完結するためのプラットフォームを構築しなければなりません。一般的にこのようなプラットフォームは、個々のシステムやアプリケーションを組み合わせて構築するケースが多く、各製品間でのデータの統合や整理が不可欠です。

しかし、それぞれの製品には異なる形式や種類のデータが散在しているため、「必要なデータがどのテーブルに記載されているかがわからない」「検索範囲が広すぎてデータを見つけるまでに時間がかかる」といった問題が発生しやすいといえます。このような問題を解消できるのがData Catalogです。

Data Catalogであれば、複数のデータソースから必要なデータを抽出し、メタデータを付与したうえで一元管理できます。さらに、キーワードや演算子を使って詳細にデータを検索できるため、スムーズに必要な情報を探せます。結果として異なる製品同士でもデータ統合を行いやすくなり、ストレスなくデータ活用基盤の構築が可能です。

オンプレミスデータベースとの統合

Data Catalogは、クラウドだけでなくオンプレミス上のデータベースとの統合にも対応しています。オンプレミスデータベースと統合する際は、Googleのコミュニティで提供されているPython対応コネクタを使用でき、公式サイトからカテゴリやデータソース名をもとに検索が可能です。そのなかには、RDBMS(リレーショナルデータベース管理システム)やBIツールなど、さまざまなカテゴリが用意されています。

オンプレミスのデータベースでメタデータを管理する際は、データやアカウントの一元管理を行うのが困難だったり、システムの拡張に手間がかかったりと、管理が煩雑になりがちです。一方、クラウド型のData Catalogであれば、オンプレミス・クラウドを問わず、あらゆる場所からメタデータを1ヶ所に集約し、誰でも必要なデータにアクセスできるようになります。

セルフサービスBIの促進

Data Catalogの仕組みを活用することで、専門家や専任担当者が分析業務を担っていた、これまでのエンタープライズBIから、現場担当者自身で必要な情報を調べて自ら分析業務を行える、セルフサービスBIへの転換が図れます。

そもそも、社内でセルフサービスBIが促進されないのは、現場担当者が自ら情報を取得しようと思っても、「どのようにデータを収集・取得すればよいかわからない」「取得しようとするデータがとの業務・資料と紐付いているのか不明」といった課題が発生しているためです。

その点、Data Catalogであれば、カタログ状で羅列しているデータ群のなかから、メタデータやタグといった補足説明を見ながらスムーズに必要な情報にアクセスできます。また、簡単なキーワードだけで必要な情報を探せることから、専門家や専任担当者に頼ることなく、自らデータの取得や整理、分析、レポート化といった作業を進められます。結果として、現場担当者主体のセルフサービスBIを促進できるのが利点です。

【必見】Data CatalogのユーザーはDataplex Universal Catalogへの移行が必要

Data Catalogは、2026年1月30日にサービスが終了する予定です。そのため、いままでData Catalogを利用していた方は、それまでにDataplex Universal Catalogに移行する必要があります。

Dataplex Universal CatalogもData Catalogと同様、メタデータを一元管理するためのGoogle Cloud上のサービスだが、細かい仕様や料金などに違いがあります。そのため、これから利用する方についても、Dataplex Universal Catalogの特徴や使い方を押さえておくことが重要です。

Dataplex Universal Catalogの特徴

Dataplex Universal Catalogは、Google Cloudに搭載されたメタデータ管理サービスです。Google Cloud上のさまざまなデータソースからデータを抽出できる点や、メタデータを付与・検索・一元管理できる機能などは、Data Catalogとほとんど変わりません。また、フルマネージドサービスで、ユーザー自身でサーバーをはじめとするIT資産を管理せずに済むのも同様です。

一方で、Google Cloudの関連サービスからメタデータを自動的に取り込めるのは、Dataplex Universal Catalogの大きな強みだといえるでしょう。BigQueryのデータセットやテーブル、Pub/Subのトピック、Cloud SQLのインスタンスやスキーマなど、さまざまなサービスが対象となります。

また、技術的な情報であるテクニカルメタデータを自動取得できるのも特徴です。例えば、BigQueryのテーブル名やカラム名、ディスクリプションといったテクニカルメタデータを自動的に取得したうえで、Dataplex Universal Catalogのシステムから即座に検索できるようになります。

そのほか、カスタムエントリを作成することで、Google Cloud外のデータソースからメタデータ(サードパーティデータ)を取得できます。マネージド接続(Managed connectivity)の機能を活用すれば、サードパーティデータを継続的・自動的に取得することも可能です。

Data CatalogからDataplex Universal Catalogへの移行方法

Data CatalogからDataplex Universal Catalogへ移行するには、Google Cloudの管理コンソールから手続きを行います。

まず、Data Catalogで非公開状態となっているタグテンプレートを、Dataplex Universal Catalogでも使用できるように公開状態にする必要があります。そのためには、Dataplex Universal Catalogの[カタログ]ページから、[Dataplexへの移行の管理 > 非公開タグテンプレート]の順に移動し、Data Catalogで非公開になっているタグテンプレートを公開状態に変更します。

次に、公開状態にしたタグテンプレートとタグをオプトインし、Dataplex Universal Catalogでメタデータを共同利用できる状態にします。[Dataplexへの移行の管理]から[オプトイン]のタブに切り替え、[オプトインする]をクリックしてメタデータの同時利用を有効にすることで設定が可能です。

続いて、Dataplex Universal Catalog専用のIAM構成を設定しましょう。[Dataplexへの移行の管理]から[DataplexのIAM権限]のタブに切り替え、[アスペクトタイプとタグテンプレート]の項目から設定を行います。

また、デフォルトのカタログUIエクスペリエンスをDataplex Universal Catalogに反映させるには、[Dataplexへの移行の管理]から[デフォルトのカタログUIエクスペリエンス]のタブに切り替え、[デフォルトのカタログUIをDataplex Catalogに設定する]をクリックする必要があります。そして、今度は[Dataplexにアップグレード]のタブに移動すると、Data CatalogのカスタムメタデータをDataplex Universal Catalogにアップグレードできます。

Dataplex Universal Catalogの料金

Dataplex Universal Catalogでは、複数のメタデータをカタログとして保管するためのメタデータストレージ料金が発生します。その料金は、1時間あたり$0.002739726/GiB(1ヶ月あたり$2/GiB)です。

また、データを処理する際の料金は、スタンダード処理とプレミアム処理に分かれており、いずれもDCU(データコンピューティングユニット)によって計測されます。Dataplex Universal Catalogには、1ヶ月あたり100DCU時間分の無料枠が設けられており、この枠を超過するとデータ処理料金が発生する仕組みです。東京リージョンの場合、スタンダード処理はDCU時間あたり$0.076976、プレミアム処理はDCU時間あたり0.114181の料金が発生します。

※上記はすべて2025年9月6日時点の価格

メタデータを一元管理してスムーズなデータ活用を

Data Catalogは、社内に蓄積された膨大なデータを活用する際に欠かせないツールだといえます。各データにメタデータを付与することで、その特徴やデータ同士の関連性が明確になり、よりスムーズに必要な情報にアクセスできるようになります。その結果、データ活用基盤の構築やセルフサービスBIの促進など、さまざまな形で発展が可能です。

ただし、Data Catalogは2026年1月30日にサービスが終了する予定なので、今後は同系サービスであるDataplex Universal Catalogを利用する必要があります。Dataplex Universal CatalogもData Catalogと同様、Google Cloudから導入することができます。

電算システムでは、Google Cloudのスターターパックサービスや技術コンサルティングサービスなどを提供しています。Google Cloudを活用したデータ分析基盤の構築方法や、データの活用方法などに関して、プロの観点からアドバイスを行っています。「Google Cloudを活用したいが具体的なイメージが湧かない」といったお悩みを抱える方は、ぜひ電算システムへと気軽にお問い合わせください。