<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=220807558931713&amp;ev=PageView&amp;noscript=1">

今話題のデータレイクとは?
構築方法とDWHの違いを解説

 2021.11.29  株式会社電算システム

情報爆発時代と呼ばれる現代において、企業が新たな市場価値を創出していくためには、ビッグデータの活用が欠かせません。そこで重要となるのが、あらゆる生データを保管する「データレイク」です。本記事では、データレイクの概要やメリット、データウェアハウスとの違いなどを解説するとともに、おすすめのソリューションもご紹介します。

今話題のデータレイクとは?構築方法とDWHの違いを解説

データレイクとは

「データレイク」とは、すべての構造化データと非構造化データを統合管理する、「情報の格納庫」のようなソリューションを指します。大きな特徴として、情報の規模にかかわらず、さまざまなソースから収集されたローデータをそのままの形式で保管できる点が挙げられます。XMLファイルやJSONファイルのような規則性のある構造化データだけでなく、書類やデザインデータのような非構造化データなど、あらゆるデータをそのままの形式で収集・蓄積できます。

データレイクは、主にビッグデータ分析や市場分析といった解析業務に用いられ、意思決定や経営判断の迅速化に寄与します。Aberdeen社のレポートによると、データレイクを実装した企業は同業他社よりも収益成長が約9%高いという調査結果が出ており、現代ビジネスにおいていかにデータ分析が重要であるかが見て取れます。企業にとって、情報はヒト・モノ・カネに次ぐ第4の経営資源であり、現代市場で競争優位性を確立するためには、膨大な経営データを収集・蓄積するデータレイクの活用が不可欠といえるでしょう。

https://s3-ap-southeast-1.amazonaws.com/mktg-apac/Big+Data+Refresh+Q4+Campaign/Aberdeen+Research+-+Angling+for+Insights+in+Today's+Data+Lake.pdf

花王株式会社様 導入事例
freee株式会社様導入事例

データレイクのメリット

ビッグデータ分析を経営戦略に活用するためには、膨大な経営データを収集・蓄積して保管するリポジトリが必要であり、その役割を担うのがデータレイクです。データレイクを実装する具体的なメリットとして、データを柔軟に処理出来る点が挙げられます。

ビッグデータ分析には、情報の収集・蓄積・分析・可視化というプロセスが必要であり、大変多くの時間と手間を要します。データレイクはビッグデータの処理を目的として開発されており、変換や加工を施すことなく、バッチまたはストリーミングで情報を移行可能です。これにより、膨大なデータをリアルタイムに取得できるため、非常に高速なデータ処理が実現します。

データレイクとデータウェアハウスの違い

データレイクとデータウェアハウスはビッグデータ分析に用いられるソリューションです。しかし、その役割や目的は明確に異なります。

データレイクはデータを無加工の状態で格納するのに対し、データウェアハウスは目的や用途に応じてデータを構造化し保管する点が大きな違いです。また、データウェアハウスは実装前にスキーマを定義し、使用目的に応じて設計されるのに対し、データレイクは基本的に特定の使用目的をもちません。

先述したように、ビッグデータ分析には情報の収集・蓄積・分析・可視化というプロセスが必要です。データレイクは構造化・非構造化を問わず多様な形式のデータを保管できるため、膨大な情報の収集・蓄積に長けています。しかし、集約されたデータを分析・可視化するためには、情報を構造化して整理するデータウェアハウスが必要です。データレイクは情報の収集と蓄積、データウェアハウスは情報の分析と可視化をそれぞれ得意とするソリューションといえるでしょう。

Google Cloud
Google Cloud 事例

パブリッククラウドサービス Google Cloud ™ を使用する

パブリッククラウドサービス Google Cloud ™ を使用する
データレイクを導入する場合、オンプレミス環境で運用するのか、それともクラウド環境に構築するのかという2つの選択肢があります。データレイクは、すべての構造化データと非構造化データを一元管理するリポジトリであり、事業規模に比例して膨大なストレージ容量が必要です。したがって、データレイクの運用基盤としては、拡張性に優れるクラウドプラットフォームが最適といえます。

候補としては、3大パブリッククラウドサービスと呼ばれる「Google Cloud(旧GCP:Google Cloud Platform)」「Amazon Web Services」「Microsoft Azure」の3つが挙げられます。これらのサービスにはそれぞれメリットがあり、一概に優劣を判断することはできません。しかし、Google Cloud はオブジェクトストレージの「Google Cloud Storage」や、データウェアハウスの「Big Query」などを搭載しており、Googleが提供するセキュアなITインフラを利用できるメリットがあります。そのため、データレイクの運用基盤としては Google Cloud がベストな選択肢といえるでしょう。

Google Cloud の構築方法

データレイクを構築するうえでリポジトリとして適しているのは「Cloud Storage」です。あらゆるデータを保存するデータレイクには機密情報も保管されるため、アクセス権限設定や職務分掌の規定といったセキュリティ強化が欠かせません。

Cloud Storage なら、詳細なアクセス制御を実装できるため、セキュアな環境でのデータレイク運用が可能です。また Cloud Storage では、さまざまニーズに対応できるよう豊富なプランが用意されているため、要件とコストを天秤にかけながら最適な運用体制を選択できます。

Pub / SubとDataflowによるデータの取り組み

データの取り込みには、ストリーミング分析に用いられる「Pub/Sub」と、データ処理サービスの「Dataflow」を利用します。これらのソリューションを活用することで、リアルタイムのデータを直接Cloud Storageに取り込んで保存し、データ量に応じて入出力の両方をスケーリングできます。

大容量データを移動する場合は、スケジューリングやファイル同期などに対応する必要がありますが、データ転送サービス「Storage Transfer Service」を使えば、セキュアな環境で迅速にデータを取り込めます。

データ分析の処理と解析

データを保存したあとは、情報を分析可能な状態に加工し分析するステップです。このステップでは、データ分析基盤のBigQueryを用いて取り込まれたローデータを構造化し、統計解析や情報工学などを用いて分析します。

データは収集するだけでは意味を成さず、蓄積された情報を分析し、具体的な経営戦略に落とし込まなくてはなりません。BigQueryなら、PBのデータに対しても数十秒で処理できるため、膨大な経営データから的確な需要予測や消費者行動の分析が実現します。

データレイク構築を外部に任せる

自社にクラウドプラットフォーム構築の知見を有する人材がいなければ、データレイクの構築をシステムインテグレーターにアウトソーシングするのも有効な方法です。Google Cloud を導入してデータレイクを構築するということは、システム環境の刷新を意味します。そして、旧システムから新システムへの移行には、データの破損や移行の遅延など、さまざまなリスクが潜んでいるため、非常に高度な知見が求められます。

そこでおすすめしたいのが、株式会社電算システム(DSK)が提供する Google Cloud の導入支援サービスです。弊社はITシステムの設計や運用保守を得意とするシステムインテグレーターであり、Google Cloud の導入と運用を総合的に支援しています。自社の経営リソースをコア業務に集中するためにも、ぜひ本サービスの利用を検討してみてはいかがでしょうか。導入支援サービスの詳細について知りたい方は、下記URLをご覧ください。

https://www.dsk-cloud.com/solution/gcp/service

まとめ

データレイクとは、すべての構造化データと非構造化データを保存するリポジトリであり、効率的なビッグデータ分析に不可欠なソリューションです。テクノロジーの発展に比例して、市場の競争性は激化の一途を辿っており、企業が競争優位性を確立するためには、膨大な経営データの活用が欠かせません。データレイクを構築したい企業は、DSKが提供する Google Cloud の導入支援サービスをぜひご利用ください。

https://www.dsk-cloud.com/solution/gcp/service

GCP 技術コンサルティング

RELATED POST関連記事


RECENT POST「Google Cloud(GCP)」の最新記事


Google Cloud(GCP)

データウェアハウスとデータベースとの違いは?導入のポイントを解説

Google Cloud(GCP)

データレイクとデータウェアハウスの違いとは?

Google Cloud(GCP)

【2大DWH】BigQueryとRedshiftを徹底比較!

Google Cloud(GCP)

データ分析基盤とは?必要性や構成要素を解説!

今話題のデータレイクとは?構築方法とDWHの違いを解説