昨今のビジネスシーンでは、オンプレミスの業務システムやクラウドサービス、Webサイト・ECサイトなどから、ビッグデータと呼ばれる膨大なデータを取得でき、それをいかに活用できるかに注目が集まっています。そして、ビッグデータを活用するには、データの保管場所や加工方法、分析手段などを検討する必要があります。
今回紹介するCloud Data Fusionは、そのなかでもデータの加工に特化したツールです。専用のコネクタによって、さまざまなシステムやアプリケーションと接続できるため、「データソースからデータを抽出する・加工する・別の場所に格納する」といった作業がワンストップで完結します。本記事では、Cloud Data Fusionの特徴や機能、活用シーン、料金などを詳しく解説します。関連サービスを組み合わせることで、単なるデータ加工だけでなく、データ活用基盤の構築も可能なので、ぜひ参考にしてください。
Cloud Data FusionとはGoogleが提供するETLツール
Cloud Data Fusionとは、Googleが提供するETLツールです。ここでは、まずETLツールの基本知識やCloud Data Fusionの役割・重要性について解説します。
そもそもETLツールとは
そもそもETLツールとは、「Extract(抽出)・Transform(変換)・Load(格納)」というデータ加工に必要な一連のプロセスを、一つのシステムだけで完結できるツールです。さまざまなデータソースから分析に必要なデータのみを取り出し、分析用データに加工したうえで別の格納庫へとデータを書き出せます。
例えば、ローデータ(取得したばかりで未加工の生のデータ)を保管しているデータレイクからETLツールへとデータを抽出し、加工した分析用データをDWH(データウェアハウス)に格納するといった使い方が一般的です。基本的にETLツールには幅広い種類のコネクタが用意されているため、外部データソースからでもスムーズにデータを抽出できます。
Cloud Data Fusionの役割
数あるETLツールのなかでも、Googleが提供している製品は「Cloud Data Fusion」と呼ばれています。Cloud Data Fusionは、Google Cloudに登録することで利用できます。
Google Cloudは、データベース構築やクラウドコンピューティング、アプリケーション開発などに関する150種類以上のサービスが搭載されているプラットフォームで、各種サービスとCloud Data Fusionを自由に組み合わせて活用できるのが特徴です。Google Cloudには、データレイクやDWH、BIツールなどのサービスも存在するため、Cloud Data Fusionと併用することで、ワンストップでデータ活用基盤を構築できます。
また、完全なクラウドサービスであり、フルマネージドサービスとして提供されていることから、自社でITインフラ(サーバーやネットワーク機器など)を構築・運用する必要がありません。その結果、ユーザーは、データの加工や分析、基盤の構築といったコア業務に注力できます。
データを活用するうえでCloud Data Fusionが必要な理由
社内に散在するさまざまなデータを活用するには、Cloud Data Fusionのような仕組みが不可欠です。
その理由は、まずデータの統一性を確保できる点があげられます。多様なデータソースからデータを取得した場合、それぞれのデータは形式や構造が異なるため、そのままの状態で分析を行うのは困難です。一方、Cloud Data Fusionでは、形式や構造が異なるデータ群を統一されたフォーマットに変換できるため、組織全体で共通の観点を持ちつつ一貫性のあるデータ活用が可能です。
また、データソースから取得したばかりで無加工のローデータには、表記揺れや欠損値などが含まれていることもあります。Cloud Data Fusionを利用すると、データを変換する過程でこのようなエラーを排除(クレンジング)できます。その結果、データの品質が向上し、信頼性の高い分析結果を得られるようになります。
Cloud Data Fusionに搭載されている4つの機能
Cloud Data Fusionには、次のような機能が搭載されています。
- Extract(抽出)
- Transform(変換)
- Load(格納)
- Google Cloudの各種サービスや外部システムとの連携
それぞれの機能の仕組みについて詳しく解説します。
Extract(抽出)
データを分析・活用するには、まず社内の業務システムやWebサイト、広告などからローデータを取得する必要がありますが、そのなかには不要なデータも含まれています。そのため、分析用に必要なデータのみを抽出する必要があります。この作業を担うのが、Cloud Data FusionのExtract(抽出)の機能です。
例えば、売上分析を行うには、販売管理システムやECサイトから商品単価や販売数量を、経理システムから人件費や販促費を、Web上から市場動向データをといった形で、さまざまなデータソースから必要なデータを抽出しなければなりません。Cloud Data Fusionであれば、データソースを指定するだけで外部システムとのデータが紐付けられ、必要なデータのみをスムーズにシステム上へと反映できます。
Transform(変換)
必要なデータを抽出した後は、そのデータを加工する作業が求められます。しかし、未加工状態のローデータは、そのままでは形式が統一されておらず、情報も整理されていないため、分析を行うのは困難です。そこで、Transform(変換)の機能を使って、抽出したデータを一定の規則に従って変換します。
具体的には、誤ったデータや古くなったデータを訂正・更新するクレンジング、表記揺れを統一化するためのマッピング、異なるデータソースに含まれた重複したデータの統合などの作業を実施します。これにより、抽出したデータに無駄やエラーがなくなり、分析結果の精度向上につながります。
Load(格納)
Load(格納)の機能では、抽出・変換したデータを別のシステムへと書き出すことが可能です。一般的には、Cloud Data FusionからDWHやデータマートへとデータを移行し、そこからBIツールで分析・レポート化を行うという流れになります。
Google Cloudの各種サービスや外部システムとの連携
Cloud Data FusionのようなETLツールを利用する際は、プラグインの充実度が重要なポイントとなります。プラグインが増えるほど連携可能な外部システムが豊富になり、さまざまなデータソースからデータを抽出できたり、幅広い種類のシステムへとデータを書き出せたりと、柔軟性が向上します。
Cloud Data FusionはGoogle Cloudに搭載されたサービスなので、データレイクの「Cloud Storage」や、DWH・データマートの役割を果たす「BigQuery」など、関連サービスとのスムーズな連携が可能です。そのほか、JDBCドライバーを用いることで、ExadataやNetezzaなど、Google Cloud外のサービスとも連携できるようになります。
Cloud Data Fusionの3つの特徴
Cloud Data Fusionは、フルマネージドサービスであったりGUIで感覚的な操作ができたりと、さまざまな特徴があります。それぞれの特徴について詳しく解説します。
フルマネージドサービスとして提供されている
Cloud Data Fusionは、フルマネージドサービスとして提供されています。フルマネージドサービスでは、サービス提供事業者であるGoogle側が、ITインフラの保守や監視、アップデートなどを担ってくれるため、ユーザーがサーバーやネットワーク機器を導入・運用する必要がありません。
また、サーバー障害をはじめとするトラブルが起きた際でも、Googleの優秀なエンジニアチームが即座に対応してくれます。そのため、ITインフラの導入・運用コストの削減や負担の軽減といったメリットが生まれ、トラブルに対しても迅速な対処が可能です。これにより、ユーザーはデータの抽出や変換、出力といった業務に集中できます。
感覚的な操作が可能なGUIを搭載している
Cloud Data Fusionには、感覚的な操作が可能なGUI(Graphical User Interface)が搭載されています。

「Extract(抽出)・Transform(変換)・Load(格納)」という一連のプロセスを、一つのUI上にマウス操作のみで表現できるのが特徴です。例えば、BigQueryからデータを抽出する場合、左側のメニューバーから[Source > BigQuery]の順にクリックするだけで済みます。また、ドラッグ&ドロップでフローの順序を変更することも可能です。
このような特徴からCloud Data Fusionでは、プログラミングの知識がなくてもスムーズにデータパイプラインを構築できます。初心者の方でも容易に扱えるのは大きなメリットだといえるでしょう。
充実したセキュリティ機能を利用できる
Cloud Data Fusionにはさまざまなセキュリティ機能が搭載されており、安全にETLの機能を利用できます。
例えば、Cloud Data Fusion内で利用するデータやログイン情報などは、「Cloud Key Management Service」と呼ばれるサービスによって暗号化されます。外部からこれらのデータや情報を使用するには、同サービスにアクセスし、秘密鍵を取得して復号しなければならないため、より安全なデータ管理が実現します。
そのほか、Sensitive Data Protectionを使った機密データの保護や、IAM(Identity and Access Management)を用いたアクセス制御などの機能を利用できるのも特徴です。このような機能は、外部からの攻撃や不正アクセスだけでなく、内部での不正行為を起点とした情報漏洩を防ぐ役割も持ちあわせています。
Cloud Data Fusionの活用シーン
Cloud Data Fusionは、使い方次第でさまざまな活用が可能です。ここでは、Cloud Data Fusionの具体的な活用シーンを、3つの観点に分けて解説します。
ビッグデータのクレンジング
現代のビジネス環境では、日々膨大かつ多様なデータが生み出されています。そのようなビッグデータの整備において、Cloud Data Fusionは非常に有効な手段です。
Cloud Data Fusionを利用することで、企業が保有する複数のデータソースからデータを効率的に取り込み、誤った情報や重複データを除去したうえで分析可能な形に整えることができます。ビッグデータ活用においては、データの正確性が意思決定の精度に大きく影響するため、Cloud Data Fusionはデータ利活用の強力なツールとして機能するでしょう。
分析レポートの作成
Cloud Data Fusionは、レポート作成業務の効率を高める場面でも広く活用されています。従来のように手作業でデータを収集・加工する方法では、多くの時間と労力を必要としますが、Cloud Data Fusionを導入すれば、必要なデータを自動的に抽出・変換し、所定の形式に整えることが可能です。これにより、レポート作成にかかる工数を大幅に削減でき、担当者はより付加価値の高い業務に集中できます。
Google Cloudには、LookerやLooker Studioといった分析レポート作成用のサービス(BIツール)が搭載されています。いずれもCloud Data Fusionとは親和性が高く、スムーズに連携できるのが魅力です。Cloud Data Fusionによって加工したデータをBIツールに落とし込み、シームレスに分析やレポート作成につなげられます。
データ活用基盤の構築
Cloud Data Fusionは、データ加工のプロセスを効率化するうえで欠かせないツールです。異なるフォーマットやシステムから取得したデータを統一された形式に変換し、自社の業務ルールに従って整理することで、後続の分析や活用がスムーズに進みます。その結果、複雑なデータ処理の負担を軽減し、業務全体の生産性向上につながる環境を構築できます。
さらに、Google Cloudには、データ加工プロセスの前後に必要なデータ保管用のサービスも多数備わっています。例えば、業務システムやWeb上など、さまざまなデータソースから取得したローデータを保管できるCloud Storageや、加工済みのデータを整理・保存できるBigQueryなどが代表的です。いずれも、コネクタ接続によって高度な知識不要で連携できるため、初心者の方でも安心して扱えます。
Cloud Data Fusionの導入事例
米国サンフランシスコに本社を構えるLiveRampは、ID情報をもとに顧客ビューやインサイトといった分析用データを取得できるソリューションを展開しています。同社では、IDを用いた顧客データの活性化を支援するデータ接続プラットフォームにおいて、毎日PB(ペタバイト)単位のデータを処理しており、データパイプライン構築の複雑化が課題となっていました。
そこで、Google Cloudに搭載されているCloud Data Fusionを導入しました。ETLの標準パイプラインを再利用可能なコンポーネントへと変容させることで、「方法」ではなく「価値創出」に集中できる環境を構築しています。さらに、データパイプライン構築における運用モデルを簡素化した結果、価値提供までの時間短縮や、よりスムーズなエコシステムの共同運用が可能になったのもポイントです。
同社では現在、10チームが1日に数百のワークロードを処理しており、将来的には数千に拡大する予定です。今後は、より複雑なワークロードやAPI連携を拡大し、BigQueryやAirflowとの親和性も高めながら、データ運用プラットフォームを中心に据えたエコシステム強化を進めていこうとしています。
出典:導入事例(LiveRamp)|Google Cloud
Cloud Data Fusionの料金
Cloud Data Fusionの料金は、データパイプラインの開発コストと実行コストの2種類に分かれています。それぞれの仕組みに触れながら、Cloud Data Fusionの料金体系を解説します。
※すべて2025年9月7日時点の価格
データパイプラインの開発コスト
Cloud Data Fusionには3種類のエディションがあり、それぞれ開発コストが異なります。
| エディション | 1インスタンスあたりの料金 | 1ヶ月の料金目安 |
| Developer | $0.35/時間 | 約$250 |
| Basic(※) | $1.80/時間 | 約$1,100 |
| Enterprise | $4.20/時間 | 約$3,000 |
※Basicエディションのみ、毎月最初の120時間/アカウントは無料
なお、3種類のエディションには次のような違いがあります。
| Developer | Basic | Enterprise | |
| ユーザー数 | 2名 | 25~50名 | 25~50名 |
| ビジュアルデザイナー | ○ | ○ | ○ |
| ストリーミング処理 | ○ | ○ | ○ |
| データパイプラインの自動処理 | × | ○ | ○ |
| トリガー設定 | ○ | ○ | ○ |
| 内部IPサポート | ○ | ○ | ○ |
| ロールベースアクセス制御 | × | × | ○ |
Developerエディションはプロダクトの調査や開発、Basicエディションは概念実証やステージング環境での検証などに向いています。Enterpriseエディションは、Cloud Data Fusionのすべての機能を利用できるため、調査やテストに加え本番環境にも対応が可能です。
データパイプラインの実行コスト
Cloud Data Fusionを使ってデータパイプラインを実行する際は、開発コストとは別に実行コストが発生します。実際にデータパイプラインを実行するには、Google Cloud上のDataprocというサービスを利用するため、Dataprocの料金が反映される仕組みです。このDataprocの基本料金は$0.01に設定されています。
ただし、Dataprocは基本的にGoogle Cloud上のほかのサービスと組み合わせて利用するため、サービスの組み合わせによって計算方法や最終的なコストが異なります。例えば、Compute Engine(Google Cloud上で稼働する仮想マシン)上でDataprocを動かす場合、次の計算式が適用されます。
- 実行コスト = 仮想CPUの数(標準24個)× 実行時間 × Dataprocの基本料金($0.01)
仮に、データパイプラインの実行時間が3時間だった場合、「24 × 3 × $0.01 = $0.72」の実行コストが発生する仕組みです。
Cloud Data Fusionを使って効率良くデータを加工しよう
データ分析を行うには、まずローデータを分析用データに加工する必要がありますが、その際はCloud Data Fusionが大きな効果を発揮します。Cloud Data Fusionでは、業務システムやデータベース、Webサイトなど、さまざまなデータソースから必要なデータを抽出し、適切な加工を施したうえで外部システムへと出力できます。専用のGUIを備えているため、直感的なマウス操作だけで扱えるのも特徴です。
また、データレイクのCloud StorageやDWHのBigQuery、BIツールのLookerなど、Google Cloudに搭載されているさまざまなサービスとスムーズに連携できます。そのため、複数のサービスを組み合わせることで、単なるデータ加工だけでなく、データ収集から保管、加工、分析に至るまでのプロセスを一つのプラットフォームで構築できます。
電算システムでは、Google Cloudのスターターパックサービスや技術コンサルティングサービスなどを提供しています。Google Cloudを活用したデータ分析基盤の構築方法や、データの活用方法などに関して、プロの観点からアドバイスを行っています。「Google Cloudを活用したいが具体的なイメージが湧かない」といったお悩みを抱える方は、ぜひ電算システムへと気軽にお問い合わせください。
- カテゴリ:
- Google Workspace
- キーワード:
- data fusion

