BigQuery(ビッグクエリ)とは、Google Cloud上で稼働するクラウド型DWH(データウェアハウス)です。データの格納だけでなく、クエリを駆使した高速なデータ処理が可能なので、ビッグデータ解析やリアルタイム分析に活用できます。
ユーザーインターフェースがシンプルで扱いやすいBigQueryではあるものの、利用するにはSQL言語やデータベース構築に関するある程度の知識が必要です。
そこで本記事では、初心者の方でも簡単に理解できるよう、BigQueryの入門ガイドをまとめました。ツールの導入方法や初期設定方法、クエリの実行方法などを解説していますので、ぜひ参考にしてください。
BigQuery入門その1. 導入方法
BigQueryを利用するためには、Google Cloudに登録しなければなりません。ただし、2024年1月時点で$300分のクレジットが用意されているため、まずは試用感覚でツールを導入するのも方法の一つです。
ツールを導入する際は、次のような流れで手続きを進めましょう。
- Google Cloudへの登録
- BigQueryの管理画面にアクセス
1. Google Cloudへの登録
Googleの公式サイトからBigQueryの専用ページにアクセスします。[BigQueryの無料トライアル]をクリックし、登録手続きを行いましょう。
Google Cloudのアカウントを作成するため、必要な情報を登録します。
企業名やクレジットカードの情報を入力します。
2. BigQueryの管理画面にアクセス
Google Cloudへの登録が済むと、管理コンソールに自動で遷移します。
画面の左側にメニューがあるため、そのなかから[BigQuery]をクリックします。
すると、BigQuery Studioと呼ばれる管理画面に移行します。
BigQuery入門その2. 初期設定方法
BigQueryが利用できる状態になれば、先に初期設定を済ませておくのがおすすめです。必須ではありませんが、設定するとツールの利便性が高まります。
- ショートカットの設定
- データ利用制限の設定
ここでは、上記の流れで初期設定の方法を紹介します。
1. ショートカットの設定
Google Cloudの管理コンソールからBigQueryにアクセスするには、ナビゲーションを大幅にスクロールしなければなりません。また、ナビゲーションには数多くのプロダクトが表示されているため、[BigQuery]の項目を探すのは困難です。
そこで、[BigQuery]の隣にあるピンのアイコンにチェックを入れましょう。
これでナビゲーション上部の[固定されたプロダクト]内に、ピンが付いたプロダクトが表示されるようになります。また、普段使用しないプロダクトのピンを外すのも良いでしょう。
すると、画面上部が整理され、よりスムーズにBigQueryへとアクセスが可能です。
2. データ利用制限の設定
BigQueryでは従量課金制が採用されていますが、初期状態では利用量に制限が設けられていません。そのため、想定以上にデータを利用し、高額な請求が発生する可能性があります。
このような事態を避けるためにも、データの利用制限を設定しましょう。
Google Cloudの管理コンソールから、[IAMと管理]をクリックします。
左側のメニューから[割り当てとシステム上限]を選択します。
フィルタの隣にあるスペースに「BigQuery」と「Query usage」と入力し、検索対象を絞り込みましょう。
名称[Query usage per day」項目にチェックを入れ、画面右上の[割り当てを編集]をクリックします。
[Unlimited]のチェックを外し、[新しい値]の項目に数値を入力します。ここでは、1日あたりのデータの利用上限を入力しましょう。
名称[Query usage per day per user]も同じように設定を行います。データの利用上限は、自社の予算に合わせて任意で設定してください。これで上限を超えて費用が発生する心配はありません。
BigQuery入門その3. 階層構造に対する理解
BigQueryではSQLを駆使してクエリを実行します。よりスムーズにクエリを実行するには、データベースの階層構造を理解することが重要です。
データベースの階層は以下の通り、「プロジェクト」が最も上層に位置し、そのなかに中層の「データセット」、さらに下層の「テーブル」と分かれています。
- プロジェクト:最も上層に位置する要素で、課金時の基準単位
- データセット:テーブルへのアクセスを制御するためのコンテナ
- テーブル:行形式で個別のレコードが整理されたもの
そのため、クエリを実行する前にまずは、大枠となるプロジェクトを作成し、そこへ個別のデータセットやテーブルを格納します。
このデータベース階層構造を理解しておくことで、各データを綺麗に整理できるため、よりスムーズなクエリの実行が可能です。
BigQuery入門その4. クエリの実行方法
BigQueryを利用してクエリを実行するには、次のような手順で作業を行います。
- プロジェクト作成
- データセット作成
- テーブル作成
- SQL構文の書き込み
ここでは、各手順における具体的な操作方法を紹介します。
1. プロジェクト作成
BigQuery Studioにアクセスし、画面上部のプロジェクト名をクリックします。
[新しいプロジェクト]をクリックしましょう。
プロジェクト名と利用する組織を設定してください。
画面下部の[作成]をクリックすると作業は完了です。その後は、作成したプロジェクト名のBigQuery Studioに自動で切り替わります。
2. データセット作成
作成したプロジェクトのなかにデータセットを格納しましょう。
エクスプローラの枠内には、作成済みのプロジェクトIDが記載されています。このIDの右側にある三点リーダーをクリックし、[データセットを作成]をクリックします。
データセットIDやロケーションなどの項目を設定しましょう。
- データセットID:
英数字とアンダースコアを組み合わせた任意のIDを設定。 - ロケーションタイプ:
データを保存する際のリージョンを選択。 - デフォルトのテーブルの有効期限:
チェックを入れると期限切れのデータが自動的に削除される。
データセットが生成されると、エクスプローラ内のプロジェクトIDの下位にデータセットIDが表示されます。
3. テーブル作成
テーブルを作成するには、まずデータセットIDをクリックします。すると、画面の右側に詳細が表示されるので、画面右上にある[テーブルを作成]をクリックしてください。
最上部のソースの項目で、アップロード元となるプラットフォームを選択します。BigQueryでは、GoogleドライブやGoogle Cloud Storage、ローカルなどからデータをアップロードできます。例えば、Googleスプレッドシートの表を移行したい場合は、[Googleドライブ]を選択してファイルを指定しましょう。
そのほかの項目は次のように設定します。
- 送信先:
プロジェクト・データセットIDはデフォルトの状態。宛先となるテーブルが記載されていない場合は、対象となるテーブル名を入力する。 - スキーマ:
「自動検出」にチェックを入れると、フィールドが自動的に生成される。 - タグ:
任意のタグを設定できる。情報が整理されるため、カテゴリー分けや検索をする際に役立つ。
最後に[テーブルを作成]をクリックすると作業は完了です。
4. SQL構文の書き込み
作成したテーブルを選択し、詳細画面から[クエリ]をクリックすると、クエリエディタに移行します。
クエリエディタには、SQL言語で命令文を記載しましょう。記述後、[実行]をクリックするとクエリが実行され、その結果が画面下部に表示されます。
BigQuery入門その5. 外部システムとの連携
BigQueryは、外部システムと連携することでツールの利便性を高められます。ここでは、GoogleスプレッドシートとGoogle Analytics 4の連携方法を解説します。
Googleスプレッドシートとの連携
Googleスプレッドシートで作成したテーブルをBigQueryに取り込めます。Googleスプレッドシートは表作成機能が豊富なので、効率性の高い方法でテーブルを作成してからデータを移行できるのがメリットです。Googleスプレッドシートのデータを取り込むには、BigQueryのテーブルを作成する際に、[Googleドライブ]を指定して目的のファイルを指定します。
また、クエリの実行後、[クエリ結果]内の[データを探索]をクリックすると、Googleスプレッドシートに実行結果を出力できます。Googleスプレッドシート上で分析データを可視化できるのが特徴です。
Google Analytics 4との連携
Google Analytics 4(GA4)は、Webサイト用のアクセス解析ツールです。
BigQueryと連携すると、Google Analytics 4で計測したアクセス数やコンバージョン数といったユーザーの行動データを、BigQuery上に保存できます。Google Analytics 4で取得するのが難しい生データを、BigQueryを使って分析できるのが利点です。
Google Analytics 4との連携手順は次の通りです。
- Google Cloudの管理コンソールから[APIとサービス]にアクセス
- ナビゲーションメニュー[ビッグデータ]を選択し、[BigQuery API]をクリック
- BigQuery APIを有効にする
- GA4の管理ページにアクセスし、[プロパティ > BigQueryのリンク]にアクセス
- 新規リンクを作成し、連携するBigQueryのプロジェクトを選ぶ
- 作成したリンクを送信することでBigQueryへとデータが送られる
BigQueryの使い方を理解したうえでツールの定着化を図ろう
ツールの導入前にBigQueryの使い方をしっかりと理解しておけば、運用中の不明点が少なくなり、ユーザーが不満を抱えるリスクを抑制できます。結果としてBigQueryのスムーズな定着が図れるでしょう。
電算システムでは、Google Cloudの導入支援サービスを提供しています。テクニカルな疑問にも答えられる技術コンサルティングや、体系的な基礎知識をアドバイスするスターターパックなどを用意しています。BigQueryに関してわからない点があれば、気軽にご相談ください。電算システム経由でGoogle Cloudに契約すると、基本利用料が3%割引きになります。
また、以下のページでは、3大クラウドサービスとして知られるAWS、Azure、Google Cloudを比較した資料を提供しています。無料でダウンロードできるので、クラウドサービスの導入を検討中の方は以下の資料もぜひ参考にしてください。
- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- bigquery 入門