Google BigQuery を使ってみよう！

ビッグデータ解析サービスは高そう…。使い方が難しそう…。といった理由から、Google が提供するGoogle Cloud™（旧 GCP：Google Cloud Platform）の利用に躊躇している方が多いのではないでしょうか。しかし、前述した記事「Google BigQuery の料金体系を解説」でもご紹介した通り、 BigQuery の料金は驚くほど安く、非常に簡単に扱えるビッグデータ解析サービスです。

是非この機会に、 BigQuery の利用を検討いただきたく、本記事では入門編として BigQuery の基本を整理しながらその使い方を解説します。

BigQuery とは？

BigQuery （ビッグクエリ）はすでに触れたとおり、Google が提供するビッグデータ解析サービスの一つです。最近は「ビッグデータ」から「データ活用」というフレーズに関心が移り始め、ビジネスにおいてデータ分析がいかに重要かは、皆さんも日々肌で感じているのではないでしょうか。

業務上で生み出される大量のデータをリアルタイムに解析できれば、意思決定を迅速に行うための判断材料を整え、今まで気づくことのできなかった事実を発見することもできます。

BigQuery はもともと、Google 社内で利用されていたデータ解析用システムの「 Dremel （ドレメル）」を外部ユーザー向けに改良したサービスです。Google にでは数億人の Gmail データ、月間数億件以上のGoogle 検索データの解析からデータセンター内の温度分析まで、さまざまな用途で扱われていました。

当然ながら、そのパフォーマンスの高さは折り紙付きです。Google に勤務し Google Cloud を担当している佐藤氏がYoutubeにアップしている動画「The Speed of Google BigQuery (1m 17s, Japanese)」の中でも「120億行の正規表現マッチ付き集計が5秒で完了した」と紹介しています。

このレベルのシステムを自前で用意するとなると、数億円はくだらないでしょう。グーグル社はこの極めてハイパフォーマンスなビッグデータ解析サービスを、超良心的な価格で提供しています。

BigQuery を使ってみよう

それでは、実際に BigQuery を使ってみましょう。手順は以下のように進みます。

Google Cloudプロジェクトを作成する
クエリを実行する
データセットを作成する
テーブルを作成する
他ユーザーとデータセットを共有する

1. Google Cloud プロジェクトを作成する

Google Cloud プロジェクトとは、 Google Cloud 内で作成するプロジェクトのことです。Google Cloud プロジェクトは BigQuery におけるトップコンテナに位置し、その中にデータセットやテーブルを作成します。

まずは「 Developer Console 」にアクセスし、サインインしましょう。Google アカウントを所持していない場合は、「アカウント作成ページ」より作成してください。作成は無料です。 Google アカウントに既にサインインしている場合は、「 My Console 」が表示されるのでそれをクリックします。

Developer Console のトップ画面に遷移したら、「 Hello World アプリのデプロイ」をクリックしましょう。プロジェクト作成用のポップアップが表示されるので、プロジェクト名とプロジェクトIDを入力します。これで Google Cloud プロジェクトの作成は完了です。

2. クエリを実行する

Google Cloud プロジェクトが作成できたら、事前準備はこれで完了です。さっそく BigQuery を操作してみましょう。まずはクエリの実行を行ってみます。

「 Google API Console 」にアクセスすると、Google Cloud プロジェクトが一覧で表示されるので、先ほどの手順で作成したプロジェクトをクリックします。するとプロジェクトページに遷移するので、メニュー欄から「 BigQuery 」をクリックし、 BigQuery のWebコンソール画面を表示させます。

Webコンソール画面が表示されたらメニュー下部に表示されている「 publicdata:samples 」をクリックしましょう。これは Google が BigQuery ユーザー向けに公開しているデータセットです。次にサンプルテーブルの一覧が表示されるので、その中から「Wikipedia」テーブルを選択してください。すると右ペインの画面がテーブルの詳細ページに切り替わるので、「 Query Table 」をクリックします。

「 Query Table 」をクリックするとクエリ入力用のテキストエリアが登場するので、レコード数をカウントする以下のサンプルクエリを入力し、「 Run Query 」をクリックしましょう。

SELECT count(*) FROM [publicdata:samples.wikipedia] LIMIT 1000

クエリ実行が成功すると、「 Query Results 」セクションが表示され結果がテーブル形式で表示されます。「～s」と表示されている箇所が実行にかかった時間であり、「 Query Results 」の「f0」欄に表示されているのが実行結果です。

3. データセットを作成する

データセットとは、テーブルの集合を所有するRDB（リレーショナルデータベース）におけるデータベースのようなものです。テーブルを作成するには、まずデータセットを作成する必要があります。それでは実際にデータセットを作成してみましょう。

BigQuery のWebコンソール画面に遷移し、プロジェクト名横に配置されているプルダウンメニューから「 Create new dataset 」をクリックします。するとデータセット作成用のポップアップが表示されるので、 Dataset ID と Dataset Location を入力しましょう。後者は「US」か「EU」が選択できます。最後に「OK」をクリックすれば、データセットの作成は完了です。Webコンソール画面に遷移し、プロジェクト名の下に作成したデータセットが表示されていることを確認しましょう。

4. テーブルを作成する

いよいよテーブルを作成します。テーブルとは、構造化されたデータ（行）の集合体です。 BigQuery のテーブルはRDBにおけるテーブルと同様のスキーマ（枠組み）を持ちます。つまりテーブルを作成して初めてビッグデータ解析が行えます。

まずは、 BigQuery のWebコンソール画面にて先ほど作成したデータセットの横に配置されているプルダウンメニューから「 Create new table 」をクリックします。するとテーブル作成用のポップが表示されるので、ナビゲーションメニューの「 Choose destination 」をクリックし、テーブルIDを入力しましょう。

次に「 Select data 」をクリックし、インポート用のファイルを読み込みます。CSVファイルをインポートする場合は、「 Source Format 」の「CSV」を選択し、「 Load data frome 」で「 Choose file 」をクリックします。ファイル選択のダイアログが表示されるので、用意したCSVファイルを選択しましょう。

さらに「 Specify schema 」をクリックし、下部にある「 Add field 」を選択します。スキーマの定義が完了したら「Submit」をクリックし、テーブル作成ジョブを発行しましょう。テーブル作成中はテーブル名の横に「loading」の文字が表示されます。テーブルの作成が完了すると文字が消えるので、テーブル名をクリックしてスキーマを確認しましょう。実際にデータがインポートされているかを確認するために、「 Query Table 」をクリックします。

次にクエリ入力テキストエリアが表示されるので、以下のクエリを入力してから「 RUN QUERY 」をクリックしましょう。クエリの実行が成功すると結果のテーブルが表示されます。先ほどインポートしたファイルのデータを確認できたらテーブル作成は完了です。