ビッグデータ解析サービスは高そう…。使い方が難しそう…。といった理由から、Google が提供するGoogle Cloud Platform の利用に躊躇している方が多いのではないでしょうか。しかし、前述した記事「Google BigQuery の料金体系を解説」でもご紹介した通り、 BigQuery の料金は驚くほど安く、非常に簡単に扱えるビッグデータ解析サービスです。
是非この機会に、 BigQuery の利用を検討いただきたく、本記事では入門編として BigQuery の基本を整理しながらその使い方を解説します。BigQuery とは?
BigQuery (ビッグクエリ)はすでに触れたとおり、Google が提供するビッグデータ解析サービスの一つです。最近は「ビッグデータ」から「データ活用」というフレーズに関心が移り始め、ビジネスにおいてデータ分析がいかに重要かは、皆さんも日々肌で感じているのではないでしょうか。
業務上で生み出される大量のデータをリアルタイムに解析できれば、意思決定を迅速に行うための判断材料を整え、今まで気づくことのできなかった事実を発見することもできます。
BigQuery はもともと、Google 社内で利用されていたデータ解析用システムの「 Dremel (ドレメル)」を外部ユーザー向けに改良したサービスです。Google にでは数億人の Gmail データ、月間数億件以上のGoogle 検索データの解析からデータセンター内の温度分析まで、さまざまな用途で扱われていました。
当然ながら、そのパフォーマンスの高さは折り紙付きです。Google に勤務し Google Cloud を担当している佐藤氏がYoutubeにアップしている動画「The Speed of Google BigQuery (1m 17s, Japanese)」の中でも「120億行の正規表現マッチ付き集計が5秒で完了した」と紹介しています。
このレベルのシステムを自前で用意するとなると、数億円はくだらないでしょう。グーグル社はこの極めてハイパフォーマンスなビッグデータ解析サービスを、超良心的な価格で提供しています。
BigQuery を使ってみよう
それでは、実際に BigQuery を使ってみましょう。手順は以下のように進みます。
- GCPプロジェクトを作成する
- クエリを実行する
- データセットを作成する
- テーブルを作成する
- 他ユーザーとデータセットを共有する
1. GCPプロジェクトを作成する
GCP プロジェクトとは、 Google Cloud Platform 内で作成するプロジェクトのことです。 GCP プロジェクトは BigQuery におけるトップコンテナに位置し、その中にデータセットやテーブルを作成します。
まずは「 Developer Console 」にアクセスし、サインインしましょう。Google アカウントを所持していない場合は、「アカウント作成ページ」より作成してください。作成は無料です。 Google アカウントに既にサインインしている場合は、「 My Console 」が表示されるのでそれをクリックします。
Developer Console のトップ画面に遷移したら、「 Hello World アプリのデプロイ」をクリックしましょう。プロジェクト作成用のポップアップが表示されるので、プロジェクト名とプロジェクトIDを入力します。これで GCP プロジェクトの作成は完了です。
2. クエリを実行する
GCP プロジェクトが作成できたら、事前準備はこれで完了です。さっそく BigQuery を操作してみましょう。まずはクエリの実行を行ってみます。
「 Google API Console 」にアクセスすると、 GCP プロジェクトが一覧で表示されるので、先ほどの手順で作成したプロジェクトをクリックします。するとプロジェクトページに遷移するので、メニュー欄から「 BigQuery 」をクリックし、 BigQuery のWebコンソール画面を表示させます。
Webコンソール画面が表示されたらメニュー下部に表示されている「 publicdata:samples 」をクリックしましょう。これは Google が BigQuery ユーザー向けに公開しているデータセットです。次にサンプルテーブルの一覧が表示されるので、その中から「Wikipedia」テーブルを選択してください。すると右ペインの画面がテーブルの詳細ページに切り替わるので、「 Query Table 」をクリックします。
「 Query Table 」をクリックするとクエリ入力用のテキストエリアが登場するので、レコード数をカウントする以下のサンプルクエリを入力し、「 Run Query 」をクリックしましょう。
- SELECT count(*) FROM [publicdata:samples.wikipedia] LIMIT 1000
クエリ実行が成功すると、「 Query Results 」セクションが表示され結果がテーブル形式で表示されます。「~s」と表示されている箇所が実行にかかった時間であり、「 Query Results 」の「f0」欄に表示されているのが実行結果です。
3. データセットを作成する
データセットとは、テーブルの集合を所有するRDB(リレーショナルデータベース)におけるデータベースのようなものです。テーブルを作成するには、まずデータセットを作成する必要があります。それでは実際にデータセットを作成してみましょう。
BigQuery のWebコンソール画面に遷移し、プロジェクト名横に配置されているプルダウンメニューから「 Create new dataset 」をクリックします。するとデータセット作成用のポップアップが表示されるので、 Dataset ID と Dataset Location を入力しましょう。後者は「US」か「EU」が選択できます。最後に「OK」をクリックすれば、データセットの作成は完了です。Webコンソール画面に遷移し、プロジェクト名の下に作成したデータセットが表示されていることを確認しましょう。
4. テーブルを作成する
いよいよテーブルを作成します。テーブルとは、構造化されたデータ(行)の集合体です。 BigQuery のテーブルはRDBにおけるテーブルと同様のスキーマ(枠組み)を持ちます。つまりテーブルを作成して初めてビッグデータ解析が行えます。
まずは、 BigQuery のWebコンソール画面にて先ほど作成したデータセットの横に配置されているプルダウンメニューから「 Create new table 」をクリックします。するとテーブル作成用のポップが表示されるので、ナビゲーションメニューの「 Choose destination 」をクリックし、テーブルIDを入力しましょう。
次に「 Select data 」をクリックし、インポート用のファイルを読み込みます。CSVファイルをインポートする場合は、「 Source Format 」の「CSV」を選択し、「 Load data frome 」で「 Choose file 」をクリックします。ファイル選択のダイアログが表示されるので、用意したCSVファイルを選択しましょう。
さらに「 Specify schema 」をクリックし、下部にある「 Add field 」を選択します。スキーマの定義が完了したら「Submit」をクリックし、テーブル作成ジョブを発行しましょう。テーブル作成中はテーブル名の横に「loading」の文字が表示されます。テーブルの作成が完了すると文字が消えるので、テーブル名をクリックしてスキーマを確認しましょう。実際にデータがインポートされているかを確認するために、「 Query Table 」をクリックします。
次にクエリ入力テキストエリアが表示されるので、以下のクエリを入力してから「 RUN QUERY 」をクリックしましょう。クエリの実行が成功すると結果のテーブルが表示されます。先ほどインポートしたファイルのデータを確認できたらテーブル作成は完了です。
BigQuery を使ってみよう!
いかがでしょうか?以上で入門的な BigQuery の使い方解説を終わります。意外と簡単ですし、ビッグデータの扱いが苦手という方でもとっつきやすくなっています。あとは自由にビッグデータを解析し、目的の情報を抽出していきましょう。
電算システムでは、データ・ドリブン経営を目指す多くのお客様をご支援するため、データ分析やデータプラットフォーム構築のために様々なサービスや関連製品をご提供しています。
BigQuery を効率的に利用するためにもデータ連携の環境整備やビジネスの課題を解決するためのデータ解析手法など、いくつか実施すべきポイントがございます。
是非、豊富な経験を持つ電算システムのデータエンジニアにお任せください。
- カテゴリ:
- Google Cloud Platform
- キーワード:
- データ分析