ビッグデータと呼ばれる膨大な量のデータを活用するには、データの収集から集約、加工、分析までの一連のプロセスを実行できる環境を整えなければなりません。その際、収集したデータを1ヶ所に集約する役割を持つのが、今回紹介するデータレイクです。
データレイクでは、構造化データや非構造化データなどの種類にかかわらず、あらゆるデータを保管できるため、社内に蓄積されたデータの一元管理が可能になります。また、データを加工・分析するための各ツールとスムーズに連携できるため、データ活用に向けた基盤構築に欠かせないツールでもあります。
本記事では、データレイクの特徴や仕組み、導入メリットを解説します。導入時の注意点やポイントも解説しているので、ぜひ参考にしてください。
データレイクとは大容量のデータを原型のまま格納できるツール
まずはデータレイクの概要や格納できるデータの種類、DWHとの違いなど、基礎知識を解説します。
データレイクの概要
データレイクとは、すべての構造化データと非構造化データを統合管理する、「情報の格納庫」のようなソリューションを指します。大きな特徴として、情報の規模にかかわらず、さまざまなソースから収集されたローデータをそのままの形式で保管できる点があげられます。XMLファイルやJSONファイルのような規則性のある構造化データだけでなく、書類や動画、音声データのような非構造化データなど、あらゆるデータをそのままの形式で収集・蓄積できます。
データレイクは、主にビッグデータ分析や市場分析といった解析業務に用いられ、意思決定や経営判断の迅速化に寄与します。Aberdeen社のレポートによると、データレイクを実装した企業は同業他社よりも収益成長が約9%高いという調査結果が出ており、現代ビジネスにおいていかにデータ分析が重要であるかが見て取れます。企業にとって、情報はヒト・モノ・カネに次ぐ第4の経営資源であり、現代市場で競争優位性を確立するためには、膨大な経営データを収集・蓄積するデータレイクの活用が不可欠といえるでしょう。
参考:ANGLING FOR INSIGHT IN TODAY’S DATA LAKE|Aberdeen
データレイクに格納できるデータの種類
データレイクに格納できるのは、構造化データ・半構造化データ・非構造化データと、あらゆる種類のデータが対象です。それぞれのデータの違いは次の通りです。
- 構造化データ:
ExcelやCSV形式で作成された表形式のデータ - 半構造化データ:
表形式ではないが、XMLやJSONといった形で規則性を持たせたデータ - 非構造化データ:
画像や音声など、規則性がなく表形式にも変換できないデータ
構造化データや非構造化データのように、規則性があるデータは機械が情報を容易に解析できます。しかし、企業が保有するデータは必ずしも規則性を持っているとは限りません。
米国IDC社の調査によると、企業や組織が保有するデータのうち、約90%が非構造化データで占められていることがわかっています。そのため、データの活用促進に伴い、社内に散在するさまざまな形式のデータを一元管理できる、データレイクの重要性が高まっています。
参考:Untapped Value: What Every Executive Needs to Know About Unstructured Data|box
DHWとの違いから見るデータレイクの役割
さまざまな形式のデータを格納できるデータレイクは、同じような役割を持つDWH(データウェアハウス)と混同しやすい傾向にあります。しかし、両者には大きな違いがあります。DWHはあくまで、分析用に加工したデータのみを格納するためのツールです。
データを分析するためには、まず生のデータ(ローデータ)を収集し、それを分析用に加工しなければなりません。未加工の状態で分析しようとしても、データ形式が均一にそろっておらず、不要な情報も含まれており、機械が上手く解析できないためです。
そのため、データレイクに蓄積されたローデータを加工し、加工済みのデータを格納・整理するためにDWHが活用されます。これではじめて分析へとデータを活用できます。
つまり、WebサイトやECサイト、インターネット広告といったデータソースから取得したローデータを格納するのが、データレイクの主な役割です。ただし最近では、データレイクとDWHの機能を兼ね備えた、データレイクハウスというソリューションも活用が進みつつあります。
データレイクを導入する4つのメリット
データレイクを導入するメリットは次の通りです。
- 幅広い形式のデータを一元的に整理・管理できる
- 管理コストや工数の削減につながる
- スケーラビリティに優れる
- 複数のデータソースとスムーズに連携できる
このようにデータレイクを導入することでさまざまな効果が見込めます。それぞれのメリットについて詳しく解説します。
幅広い形式のデータを一元的に整理・管理できる
企業が保有するデータには、構造化データ・半構造化データ・非構造化データのようにさまざまな形式があり、管理が煩雑化しがちです。このような状態では、「どのデータをどのように分析すれば良いか」がわかりにくくなり、データ活用の推進を阻む原因にもなりかねません。
データレイクがあれば、形式を問わず、そのままの状態でデータを集約できます。形式ごとにデータの種別が明らかになるため、一元管理が進み、綺麗に整理された状態でデータを活用できるのが利点です。また、検索機能にも優れており、必要なデータへと短時間でアクセスできます。
管理コストや工数の削減につながる
データレイクのような仕組みがなければ、データの種別に合わせて、個別最適化されたツールを導入しなければなりません。例えば、構造化データを格納するためのデータベースシステムや、非構造化データを蓄積するためのクラウドストレージなどが代表的です。
このようにデータの種別ごとにツールを導入していては、導入コストや運用コストの増大につながります。さらには、必要に応じて別々のシステムへとアクセスするための手間もかかります。一方、データレイクでは、あらゆる形式のデータを1ヶ所に集約できるため、コストの最適化が可能です。
スケーラビリティに優れる
データレイクは前提として大容量のデータを格納する必要があるため、トラフィックが増加してもその性能を保てるような構造を持ちます。そのため、トラフィックの変化に伴うスケールアップ(ストレージ容量の増加)や、スケールダウン(ストレージ容量の減少)にも柔軟に対応が可能です。
成長著しい企業にとってトラフィックの増減は予測しにくいものです。スケーラビリティに優れるデータレイクを活用すれば、突発的な容量変更にも対処しやすくなるでしょう。
複数のデータソースとスムーズに連携できる
データレイクを利用する際は、さまざまな外部システムと連携してデータを集約します。そのため、連携可能なデータソースの種類は多岐にわたります。例えば、アクセス解析ツールやERP、顧客管理システム、SFA(営業支援システム)などがあげられます。
本来、データベースシステムやクラウドストレージにローデータを格納するには、一つひとつのシステムとデータソースを連携しなければなりません。データレイクならワンストップで連携処理が完了するため、よりスムーズにデータを集約できるのがメリットです。
データレイクを導入する際の2つの注意点
さまざまなメリットがあるデータレイクですが、いくつか注意すべきポイントも存在します。ここでは2つの観点から注意点を解説します。
データの整理に時間や労力がかかる
構造化データ・半構造化データ・非構造化データと、形式を問わずにデータを格納できるデータレイクだからこそ、格納庫の中身が煩雑化しがちです。保管するデータの種類があまりにも多くなると、データスワンプ(どこにデータがあるかわからない状態)に陥り、データの整理に膨大な時間や労力がかかります。
対策としては、保管するデータにメタ情報を付与するのが効果的です。メタ情報の付与とは、データごとの構造や保管場所、取得方法などを明らかにする手法です。これによりデータレイクに保管された複数のデータ同士を、カタログのように参照できる(=データカタログ)ため、検索性の向上とともにデータ整理の手間を省けます。
セキュリティリスクが高まる可能性がある
データレイクには顧客情報や従業員情報など、機密性の高いデータを保管するケースも珍しくありません。そのため、セキュリティレベルの低いデータレイクを導入すると、情報漏えいやマルウェア感染などのリスクが高まる可能性があります。これは自社の信用失墜にも結び付く重要な問題です。
セキュリティリスクを抑えるには、安全性の高い製品を選ぶことが大切です。多要素認証やデータの暗号化といった基本的なセキュリティ機能はもちろん、データの保管方法やデータセンターの安全性についても入念に確認しましょう。また、ログイン情報の厳重な保管やユーザーの権限管理など、内部で実施できるセキュリティ対策も忘れてはなりません。
データレイクを用いてデータ活用を成功させるためのポイント
データレイクはデータ活用基盤の構築に欠かせないツールです。データ活用を成功させるには、データレイク導入時に以下のようなポイントを意識することが大切です。
オンプレミスとクラウドのうち適切なタイプを選択する
データレイクの製品は、オンプレミス型とクラウド型の2種類に分かれます。オンプレミス型は、自社でサーバーを構築し、そのなかにソフトウェアをインストールするタイプです。クラウド型は、Webブラウザ上でサービスを利用するタイプです。
自社でサーバーを構築するオンプレミス型は、拡張性や柔軟性に優れます。スケールの拡張や縮小にも対応しやすく、機能やセキュリティなどの要件に関しても柔軟にコントロールできるためです。
しかし、導入コストや運用コストが高額になりがちで、費用を最適化したいなら従量課金制のクラウド型を採用するのが良いでしょう。クラウド型はほかにも、自社でサーバーを導入・運用する必要がなく、手間を抑えられるメリットがあります。
両者のメリットとデメリットを理解したうえで、最適なツールを選び分けましょう。
「収集できるデータ」ではなく「収集すべきデータ」を明らかにする
あらゆる形式のデータを集約できるデータレイクですが、だからといって収集できるデータをすべて格納すれば良いというわけではありません。蓄積されるデータが増えるほど、活用が難しい不要なデータが多くなったり、検索性を阻害して必要なデータにアクセスしづらくなったりと、さまざまな弊害が起こり得ます。
このような事態を防ぐには、「収集できるデータ」ではなく「収集すべきデータ」を明らかにすることが大切です。仮にアクセス解析ツールからデータを抽出する場合でも、分析に必要なデータと不要なデータがあるはずです。あらかじめ各データの要否を検討することで、不必要なデータを排除でき、より整理されて見やすい格納庫へと生まれ変わります。
データ活用基盤全体のプロセスを念頭に計画を立てる
データ活用基盤とは、データ収集~加工~分析までの作業を一貫して行える仕組みやプラットフォームです。基盤を構築すればデータをスムーズに活用できる環境が形成されます。基盤構築にはデータレイクのほかにも次のようなツールが必要です。
- ETLツール:
データの抽出(Extract)・変換(Transform)・書き出し(Load)が可能なツール。主にデータレイクに蓄積されたローデータを、分析用データへと加工するのが役割。 - DWH:
加工したデータを格納するためのツール。分析用データを綺麗に整理・集約することで分析を行いやすくする。 - BIツール:
DWHから必要なデータを抽出し、分析およびデータを可視化するためのツール。表やレポートなどで情報をまとめ、レポートとして出力できるのが特徴。
このような仕組みを構築するには、組織体制の変更や既存システムの刷新など、組織規模での改革が求められるケースも珍しくありません。いきなりすべての環境を整えようと思うと、かえって組織が混乱する可能性があるため、最初はスモールスタートを意識し、段階的に適用範囲を拡大するのがおすすめです。
データレイクの導入ならGoogle Cloudの活用がおすすめ
データレイクにはさまざまな製品がありますが、なかでもおすすめなのがGoogle Cloudです。Google Cloudとは、100種類以上のサービスが搭載されたクラウドプラットフォームです。データレイクとしては「Cloud Storage」というサービスが用意されています。
ここでは、Google Cloudのメリットやデータレイクの活用事例を紹介します。
Google Cloudを導入するメリット
Google Cloudを導入すると、100種類以上のサービスを自由に組み合わせて活用できます。例えば、データ分析基盤を構築する場合、「Cloud Storage」のほか、ETLツールの「Cloud Data Fusion」や、DWHの「BigQuery」、BIツールの「Looker」などが役立ちます。これらのサービスを利用すれば、Google Cloudという一つのプラットフォーム上のみで、データ分析基盤が完成します。
また、データレイクのCloud Storageは、自動的にコストの最適化を行えるのが利点です。Cloud Storageには4種類のストレージクラスがあり、利用状況に応じて自動で適切なクラスが適用されます。そのため、最小限のコストでデータレイクを構築したい方におすすめです。
Google Cloudを用いたデータレイクの活用事例
米サンフランシスコを拠点に製品分析サービスを提供するMixpanel社は、データベースをクラウド上へと移行するためにGoogle Cloudを導入しました。Google Cloudの1種類のサービスだけでなく、次のような複数のサービスを併用している点に特徴があります。
活用したサービス | 活用目的 |
---|---|
Cloud Storage | データベースの構築とデータのバックアップ |
Datastore | データベース上のメタデータの保管 |
Google Kubernetes Engine | リソースの自動スケーリング |
Google Compute Engine | 数百テラバイトのデータをローカルSSDにキャッシュ |
Cloud Pub/Sub | 顧客に対するタイムリーなメールやプッシュ通知の送信 |
データベースおよび分析環境をすべてクラウド上で構築することで、サーバーやネットワークを導入・運用する必要がなくなり、中核事業である製品分析に注力できるようになったのがポイントです。
そのほか、GmailやGoogleドライブなどのコミュニケーション機能が統合されたGoogle Workspaceも活用し、サンフランシスコやニューヨーク、シアトルなど、拠点間のスムーズな情報共有を実現しています。
参考:Mixpanel: Scalable, high-performance product analytics|Google Cloud
データレイクを導入してデータ活用の土台を作り上げよう
データレイクを導入すると、形式を問わず、あらゆるデータを一つの格納庫に集約できます。ビッグデータを活用する場合でも、「どこにどのような種類のデータがあるか」が一目瞭然になるため、データスワンプに陥るリスクを抑えられます。
ただし、データレイクに蓄積されるのはあくまでローデータなので、そのままの状態では分析ができません。そのため、Google Cloudのようなプラットフォームを活用し、データレイクと同時にETLツールやDWHなど、データの加工や分析を行える環境を構築することが大切です。
電算システムでは、環境構築やコンサルティングなど、Google Cloudの導入支援サービスを提供しています。専門領域に精通した数多くのエンジニアが在籍しているので、スピーディかつ質の高いサポートを行えるのが強みです。さらに、電算システムのリセールサービスを活用すれば、Google Cloudの利用料に関する請求書発行や割引などを利用できます。Google Cloudと電算システムについては以下の資料で詳細を紹介しているので、参考にしてください。
監修者
<保有資格>
・Professional Data Engineer
- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- データレイク