企業が膨大なデータを分析して意思決定をしていくためには、データウェアハウスの活用が有効です。この記事では、データウェアハウスの概要やデータベースとの違い、データウェアハウスの特徴などについて触れながら導入のポイントを解説していきます。
そもそもデータウェアハウスとは?
データウェアハウス(DWH)とは、複数のシステムより収集した膨大なデータを時系列で整理し保管したデータベースのことです。
データウェアハウスは英語で「Data WareHouse」と記述し、日本語に訳すと「データの倉庫」になります。つまりデータウェアハウスとは、大量で多種多様なデータをまとめて保存しておく場所(サーバー)やその管理システムのことです。
日々膨大なデータにさらされている企業が、迅速かつ適切な意思決定を行うためには、データを迅速かつ適切に分析して活用することが不可欠です。データウェアハウスに格納されたデータは目的に応じて整理されたデータの集合体です。
データウェアハウスとデータベースの違いとは?
データウェアハウスとデータベースにはどのような違いがあるのでしょうか。ここからは、データウェアハウスとデータベースの違いについて解説します。
データ容量の大きさ
データウェアハウスとデータベースの違いの一つとして、蓄積できる「データ容量の大きさの違い」が挙げられます。
データベースでは、データが増えすぎてしまうとストレージの容量を超えてしまうため、データを削除したりデータを集約した形で蓄積せざるを得ません。しかし、この状態では長期的な売上推移や顧客動向の分析が困難になります。
一方、データウェアハウスでは、データの倉庫としての役割があるため大量のデータを蓄積することを想定した容量を保持しています。そのため、長期的なデータに基づいた分析や明細レベルの切り口での分析が可能になります。
データ分析のしやすさ
データウェアハウスとデータベースは、「データ分析のしやすさ」も異なります。
データベースでは、それぞれのシステムが利用しやすいようにデータの持ち方も各システム用に最適化されています。1つのシステム内でデータを利用したり、分析する分には問題ありませんが、異なるシステム間のデータを利用して分析をしようと思った時にはどうすれば良いでしょうか?
データウェアハウスの目的は、企業が扱うさまざまなデータを複数のシステムから統合することです。単にデータを物理的に1つのシステムに集めるだけでなく、データの内容ごとに論理的に統合することが、データウェアハウスでは必要です。
例えば、同じ顧客データでも部署ごとに「顧客データ」「お客様データ」といったようにラベルが異なったり、同じ顧客を別々の顧客IDで管理している可能性があります。データウェアハウスでは、分析用にデータを整理した状態で統合するため、スムーズに分析を始めることができます。
時系列を持つ
データベースでは、古い情報は消去され新しい情報に更新されることがありますが、データウェアハウスに蓄積しているデータには、時系列があります。データウェアハウスは新しいデータを追加する際も、古いデータを消去することなく蓄積していくため、結果としてデータに時系列が生まれるのです。
そのため、過去の状況把握も含めて、データ分析に活用することができます。時系列を持つことは、データウェアハウスにおける非常に重要な要素と言えるでしょう。永遠にデータを消去せず蓄積していくというわけではありませんが、長期間に渡りデータを蓄積していくのがデータウェアハウスの特徴です。
データウェアハウス導入のポイント
企業の意思決定では複数のデータを総合的・横断的に分析する必要があり、データウェアハウスがなければデータ分析に時間がかかってしまいます。これらのことからデータウェアハウスはデータ分析において必要不可欠だと言えます。膨大なデータを分析しやすいように整理して蓄積しているデータウェアハウスですが、導入時のポイントはなんでしょうか?
データ容量の大きさ
データの倉庫として長期間のデータを保持しておくためにはどれくらいのストレージを用意すれば良いでしょうか?
これはデータベースでも同じことが言えますが、将来的なデータ量を見積もってストレージを用意する必要があります。またストレージ以外にもデータの授受に必要なコンピュートリソースも把握して見積もる必要があります。
データウェアハウスとしてクラウド型データウェアハウスを利用する場合は、リソースの拡張性に優れていることがほとんどなので、リソース増減に関して柔軟に対応できます。
分析のしやすさ
分析のしやすさには、データウェアハウスの機能が関係してきます。
データウェアハウスを操作するときのユーザインターフェースや管理機能がシステム要件を満たしているか?
大量データを扱うときのパフォーマンスは要件を満たしているか?
データを整理して格納するためのETLツール、可視化するためのBIツール、予測や検知に利用するための機械学習ツールとの相性はどうか?
データウェアハウス単体だけでなく分析システム全体として考慮する必要があります。
コスト
コストも重要な要素です。
自前でデータウェアハウスを構築する場合は、導入時にハードウェア、ソフトウェアの初期コストが掛かります。
導入以降もランニングコストとして保守サポート費用やメンテナンス、監視等の内部コストもかかるかと思います。また将来的にはハードやソフトのサポートが切れる等で思わぬ出費がかかるケースがあることも把握しておくべきです。
クラウド型データウェアハウスを採用する場合は、各種サービスによりますが、従量制であることが多いかと思います。中には定額制の選択が可能なサービスもあるので、どれが自社の運用に適しているか各種クラウドデータウェアハウスのコストを比較してみてください。
データウェアハウスとしてのBigQuery
ここではGoogleCloudのサーバレスデータウェアハウスであるBig Queryについて簡単に紹介します。
データ容量の大きさ
BigQueryはフルマネージドであるため、データを蓄積するためのストレージ及びデータを処理するコンピュートリソースを事前に準備する必要はありません。リソース管理はGoogleCloudにお任せしてデータを取り込み次第分析を始めることができます。
分析のしやすさ
BigQuery は Google が保有する膨大なデータを処理するために開発された分散型アーキテクチャが元になっており、非常に高速な分析処理が可能なデータウェアハウスです。
ブラウザから操作する扱いやすいユーザインターフェースの他、コマンドベースで利用できるクライアントツールもありますし、外部システムから利用するAPIもあります。
また、BigQueryでは一般公開データセットが保存されており誰でも利用が可能です。自社で保有しているデータの他に、外部のデータを利用して分析の効果を上げることもできます。
BIツールとしては、データポータルの利用が可能です。BigQueryのコンソール画面から起動することもできますし、データポータル側からコネクタを使って接続することも可能です。
エンタープライズでの利用あれば、Lookerも接続できます。GoogleWorkSpaceをご利用であれば、スプレッドシートを接続して分析することも可能です。
機械学習に関しては、BigQueryML機能を利用すると、Big Query上でSQLを使って機械学習モデルを作成できるため機械学習ツールを別に用意する必要がありません。システムをまたぐ必要がなく、データの移動が発生しないため、開発の効率がいいです。
上記以外にも、分析のためのさまざまな機能が搭載されております。
コスト
BigQueryのコスト体系はシンプルです。
保存しておくデータ量に応じて課金するストレージの費用とクエリ処理をするために利用したコンピュートリソースの費用になります。
どちらも従量課金ですが、定額プランの体系もございます。
まとめ
本稿では、データベースとデータウェアハウスの違い、データウェアハウスの特徴と導入のポイントについて紹介しました。
クラウド技術の発展によりクラウド上には、データウェアハウスをはじめ分析に関するサービスが豊富にあります。分析を始めるまでのリードタイムも非常に短くなっていると思います。クラウド型データウェアハウスを利用して、ビジネスの課題解決やデータの新たなビジネス活用を見出すことができるのではないでしょうか。
本記事が貴社のデータウェアハウス導入の参考になれば幸いです。是非ご検討ください。