ビッグデータと呼ばれる膨大な量のデータを活用するには、データの収集から集約、加工、分析までの一連のプロセスを実行できる環境を整えなければなりません。その際、収集したデータを1ヶ所に集約する役割を持つのが、今回紹介するデータレイクです。
データレイクでは、構造化データや非構造化データなどの種類にかかわらず、あらゆるデータを保管できるため、社内に蓄積されたデータの一元管理が可能になります。また、データを加工・分析するための各ツールとスムーズに連携できるため、データ活用に向けた基盤構築に欠かせないツールでもあります。
本記事では、データレイクの特徴や仕組み、導入メリットを解説します。導入時の注意点やポイントも解説しているので、ぜひ参考にしてください。
データレイクとは大容量のデータを原型のまま格納できるツール
まずはデータレイクの概要や格納できるデータの種類、DWHとの違いなど、基礎知識を解説します。
データレイクの概要
データレイクとは、すべての構造化データと非構造化データを統合管理する、「情報の格納庫」のようなソリューションを指します。
大きな特徴として、情報の規模にかかわらず、さまざまなソースから収集されたローデータをそのままの形式で保管できる点があげられます。XMLファイルやJSONファイルのような規則性のある構造化データだけでなく、書類や動画、音声データのような非構造化データなど、あらゆるデータをそのままの形式で収集・蓄積できます。
データレイクは、主にビッグデータ分析や市場分析といった解析業務に用いられ、意思決定や経営判断の迅速化に寄与します。
Aberdeen社のレポートによると、データレイクを実装した企業は同業他社よりも収益成長が約9%高いという調査結果が出ており、現代ビジネスにおいていかにデータ分析が重要であるかが見て取れます。企業にとって、情報はヒト・モノ・カネに次ぐ第4の経営資源であり、現代市場で競争優位性を確立するためには、膨大な経営データを収集・蓄積するデータレイクの活用が不可欠といえるでしょう。
データレイクに格納できるデータの種類
データレイクに格納できるのは、構造化データ・半構造化データ・非構造化データと、あらゆる種類のデータが対象です。それぞれのデータの違いは次の通りです。
- 構造化データ:
ExcelやCSV形式で作成された表形式のデータ - 半構造化データ:
表形式ではないが、XMLやJSONといった形で規則性を持たせたデータ - 非構造化データ:
画像や音声など、規則性がなく表形式にも変換できないデータ
構造化データや非構造化データのように、規則性がある程度担保されたデータは機械が情報を容易に解析できます。しかし、企業が保有するデータは必ずしも規則性を持っているとは限りません。
米国IDC社の調査によると、企業や組織が保有するデータのうち、約90%が非構造化データで占められていることがわかっています。そのため、データの活用促進に伴い、社内に散在するさまざまな形式のデータを一元管理できる、データレイクの重要性が高まっています。
参考:Untapped Value: What Every Executive Needs to Know About Unstructured Data|box
DHWとの違いから見るデータレイクの役割
さまざまな形式のデータを格納できるデータレイクは、同じような役割を持つDWH(データウェアハウス)と混同しやすい傾向にあります。しかし、両者には大きな違いがあります。DWHはあくまで、分析用に加工したデータのみを格納するためのツールです。
データを分析するためには、まず生のデータ(ローデータ)を収集し、それを分析用に加工しなければなりません。未加工の状態で分析しようとしても、データ形式が均一にそろっておらず、不要な情報も含まれており、そのままでは機械がうまく解析できないことがあります。
そのため、データレイクに蓄積されたローデータを加工し、加工済みのデータを格納・整理するためにDWHが活用されます。これではじめて分析へとデータを活用できます。
つまり、WebサイトやECサイト、インターネット広告といったデータソースから取得したローデータを格納するのが、データレイクの主な役割です。ただし最近では、データレイクとDWHの機能を兼ね備えた、データレイクハウスというソリューションも活用が進みつつあります。
データレイクを導入する4つのメリット
データレイクを導入するメリットは次の通りです。
- 幅広い形式のデータを一元的に整理・管理できる
- 管理コストや工数の削減につながる
- スケーラビリティに優れる
- 複数のデータソースとスムーズに連携できる
このようにデータレイクを導入することでさまざまな効果が見込めます。それぞれのメリットについて詳しく解説します。
幅広い形式のデータを一元的に整理・管理できる
企業が保有するデータには、構造化データ・半構造化データ・非構造化データのようにさまざまな形式があり、管理が煩雑化しがちです。このような状態では、「どのデータをどのように分析すれば良いか」がわかりにくくなり、データ活用の推進を阻む原因にもなりかねません。
データレイクがあれば、形式を問わず、そのままの状態でデータを集約できます。形式ごとにデータの種別が明らかになるため、一元管理が進み、綺麗に整理された状態でデータを活用できるのが利点です。また、検索機能にも優れており、必要なデータへと短時間でアクセスできます。
管理コストや工数の削減につながる
データレイクのような仕組みがなければ、データの種別に合わせて、個別最適化されたツールを導入しなければなりません。例えば、構造化データを格納するためのデータベースシステムや、非構造化データを蓄積するためのクラウドストレージなどが代表的です。
このようにデータの種別ごとにツールを導入していては、導入コストや運用コストの増大につながります。さらには、必要に応じて別々のシステムへとアクセスするための手間もかかります。一方、データレイクでは、あらゆる形式のデータを1ヶ所に集約できるため、コストの最適化が可能です。
スケーラビリティに優れる
データレイクは前提として大容量のデータを格納する必要があるため、トラフィックが増加してもその性能を保てるような構造を持ちます。そのため、トラフィックの変化に伴うスケールアップ(ストレージ容量の増加)や、スケールダウン(ストレージ容量の減少)にも柔軟に対応が可能です。
成長著しい企業にとってトラフィックの増減は予測しにくいものです。スケーラビリティに優れるデータレイクを活用すれば、突発的な容量変更にも対処しやすくなるでしょう。
複数のデータソースとスムーズに連携できる
データレイクを利用する際は、さまざまな外部システムと連携してデータを集約します。そのため、連携可能なデータソースの種類は多岐にわたります。例えば、アクセス解析ツールやERP、顧客管理システム、SFA(営業支援システム)などがあげられます。
本来、データベースシステムやクラウドストレージにローデータを格納するには、一つひとつのシステムとデータソースを連携しなければなりません。データレイクならワンストップで連携処理が完了するため、よりスムーズにデータを集約できるのがメリットです。
データレイクを導入する際の3つのデメリット
さまざまなメリットがあるデータレイクですが、いくつか注意すべきポイントも存在します。ここでは3つの観点からデメリットを解説します。
データの整理に時間や労力がかかる
構造化データ・半構造化データ・非構造化データと、形式を問わずにデータを格納できるデータレイクだからこそ、格納庫の中身が煩雑化しがちです。保管するデータの種類があまりにも多くなると、データスワンプ(どこにデータがあるかわからない状態)に陥り、データの整理に膨大な時間や労力がかかります。
対策としては、保管するデータにメタ情報を付与するのが効果的です。メタ情報の付与とは、データごとの構造や保管場所、取得方法などを明らかにする手法です。これによりデータレイクに保管された複数のデータ同士を、カタログのように参照できる(=データカタログ)ため、検索性の向上とともにデータ整理の手間を省けます。
セキュリティリスクが高まる可能性がある
データレイクには顧客情報や従業員情報など、機密性の高いデータを保管するケースも珍しくありません。そのため、セキュリティレベルの低いデータレイクを導入すると、情報漏えいやマルウェア感染などのリスクが高まる可能性があります。これは自社の信用失墜にも結び付く重要な問題です。
セキュリティリスクを抑えるには、安全性の高い製品を選ぶことが大切です。多要素認証やデータの暗号化といった基本的なセキュリティ機能はもちろん、データの保管方法やデータセンターの安全性についても入念に確認しましょう。また、ログイン情報の厳重な保管やユーザーの権限管理など、内部で実施できるセキュリティ対策も忘れてはなりません。
事前に十分な量のデータを確保する必要がある
データレイクは主にデータ分析として活用されるのが一般的です。データ分析によって信頼性の高い結果を得るには、十分な量のデータを確保する必要があります。
例えば、顧客分析の際に100件分の問い合わせ履歴を利用するのと、10,000件分の問い合わせ履歴を用いるのとでは、精度に大きな差が生まれることも考えられます。そのため、データ分析を目的にデータレイクを導入する際は、あらかじめ十分な量のデータを用意しておきましょう。
また、格納すべきデータ量が少なければ、一般的なストレージサービスでも十分にまかなえる可能性があります。どのような種類のデータをどの程度の量保管するのか、そのために本当にデータレイクが必要かといった点をよく考慮したうえで、導入の可否を検討することが大切です。事前に目的や必要な機能を熟考することで、データレイクの役割が明らかとなり、その費用対効果も最適化されます。
データレイクの活用例
データレイクは活用方法次第で、顧客分析やパーソナライゼーションなど、さまざまな形で発展が可能です。データレイクの活用例について、代表的なシーンを取りあげて解説します。
顧客分析
膨大な量のデータを格納できるデータレイクだからこそ、顧客分析と相性の良い関係にあります。顧客分析を実施するには、顧客の氏名や性別といった属性情報に加え、購買履歴やWebサイトの閲覧履歴などの行動履歴データ、さらには問い合わせ履歴やアンケート結果など、さまざまな種類のデータが必要です。
データレイクには、店舗やECサイト、ホームページ、問い合わせ窓口などから収集した幅広い種類のデータを、1ヶ所に集約できる特徴があります。収集したデータを目的に合わせて抽出することで、スムーズな顧客分析を行えるようになります。
ただし、顧客分析を行うには、データレイクの機能のみでは不十分です。顧客情報を集約するのに役立つCRM(顧客管理システム)や、データレイクに蓄積されたデータを加工するためのETLツール、分析結果を可視化・出力するためのBIツールなども欠かせないため、データ分析基盤を整えるための総合的な計画や予算が求められます。
パーソナライゼーション(パーソナライズ化された施策)
データレイクは顧客分析から発展させる形で、パーソナライゼーションにも活用できます。パーソナライゼーションとは、顧客一人ひとりの嗜好やニーズに合わせて、提供する商品やサービス、情報などを最適化する方法です。
例えば、ECサイトでよく見られる、「あなたへのおすすめ」といった商品の提示は、パーソナライゼーションの代表的な施策の一つです。ECサイトのほかにも、メールマガジンやWeb広告、クーポンなど、さまざまなマーケティング施策でパーソナライゼーションの仕組みが活用されています。
このような施策では、顧客が過去に行った購買行動やWebサイト・広告の閲覧履歴、クーポンの利用状況などのデータを分析し、顧客一人ひとりの嗜好やニーズを見極めています。そのためには、顧客分析と同様、顧客に関する膨大な量のデータを分析する必要があるため、大量のデータを収集・蓄積するためのデータレイクが欠かせないといえます。
需要予測・売上予測
データレイクは、需要予測や売上予測をする際にも役立ちます。
例えば、メーカーや小売店で季節商品の需要を的確に予測するには、気象データや顧客情報、売上データ、地域ごとの体感指数など、さまざまなデータを組み合わせて分析する必要があります。場合によっては、商品画像や口コミ情報といった非構造化データも取り扱わなければならず、一般的なストレージサービスでは必要十分なデータを蓄積できないことも考えられます。
その点、データレイクは構造化データはもちろん、非構造化データの取り扱いも可能です。フォーマットや種類の異なるデータを扱うことが多い需要予測や売上予測でも、データレイクを活用すれば効率良く分析作業を行えるでしょう。
IoTデバイスからのデータ収集
IoT(Internet of Things)は、現実世界に存在するさまざまな物体をインターネットに接続する技術です。インターネットに接続することでデータ交換が可能になり、その物体から取得された情報やデータを多分野で活かせるようになります。
例えば、ビジネスシーンでは、作業現場に設置されたカメラやセンサーから映像データを取得することで、異常や危険行為の検知、品質検査、保管状況のリアルタイムの確認といった形で活用が可能です。ほかにも、オフィスの電気錠や入退室管理システムと連携すれば、不正な入退室の迅速な検知やリアルタイム監視としても活用できます。
IoTを利用する際は、IoTデバイスによって取得されたデータをクラウド上に送信するのが一般的です。そのためには膨大な量のデータを一時的に保管するためのストレージが必要で、データレイクがあることでスムーズなデータの保管・管理が可能になります。
AIモデル開発
AIモデルを開発するには、まず機械学習の仕組みを整える必要があります。機械学習とは、インプットされたデータをAIが自ら学習し、そのなかの特徴量やデータ同士の関連性・法則性を見つけ出す手法で、学習を進めるためには膨大な量の学習データを入力しなければなりません。
データレイクには、構造化データ・非構造化データにかかわらず、社内外のあらゆるデータを蓄積できます。そのため、膨大な量の学習データを必要とするAIモデル開発との相性は抜群です。
Google CloudやAWS、Microsoft Azureといったクラウドプラットフォームと呼ばれるツールには、データレイクとともにAIモデル開発に役立つサービスが搭載されています。例えば、大規模言語モデルの構築やAutoML(機械学習プロセスの自動化)などに関するサービスが代表的です。このようなツールを活用することで、自社に合った独自のAIモデルを効率良く開発できます。
データレイクを用いてデータ活用を成功させるためのポイント
データレイクはデータ活用基盤の構築に欠かせないツールです。データ活用を成功させるには、データレイク導入時に以下のようなポイントを意識することが大切です。
オンプレミスとクラウドのうち適切なタイプを選択する
データレイクの製品は、オンプレミス型とクラウド型の2種類に分かれます。オンプレミス型は、自社でサーバーを構築し、そのなかにソフトウェアをインストールするタイプです。クラウド型は、Webブラウザ上でサービスを利用するタイプです。
自社でサーバーを構築するオンプレミス型は、拡張性や柔軟性に優れます。スケールの拡張や縮小にも対応しやすく、機能やセキュリティなどの要件に関しても柔軟にコントロールできるためです。
しかし、導入コストや運用コストが高額になりがちで、費用を最適化したいなら従量課金制のクラウド型を採用するのが良いでしょう。クラウド型はほかにも、自社でサーバーを導入・運用する必要がなく、手間を抑えられるメリットがあります。
両者のメリットとデメリットを理解したうえで、最適なツールを選び分けましょう。
「収集できるデータ」ではなく「収集すべきデータ」を明らかにする
あらゆる形式のデータを集約できるデータレイクですが、だからといって収集できるデータをすべて格納すれば良いというわけではありません。蓄積されるデータが増えるほど、活用が難しい不要なデータが多くなったり、検索性を阻害して必要なデータにアクセスしづらくなったりと、さまざまな弊害が起こり得ます。
このような事態を防ぐには、「収集できるデータ」ではなく「収集すべきデータ」を明らかにすることが大切です。仮にアクセス解析ツールからデータを抽出する場合でも、分析に必要なデータと不要なデータがあるはずです。あらかじめ各データの要否を検討することで、不必要なデータを排除でき、より整理されて見やすい格納庫へと生まれ変わります。
データ活用基盤全体のプロセスを念頭に計画を立てる
データ活用基盤とは、データ収集~加工~分析までの作業を一貫して行える仕組みやプラットフォームです。基盤を構築すればデータをスムーズに活用できる環境が形成されます。基盤構築にはデータレイクのほかにも次のようなツールが必要です。
- ETLツール:
データの抽出(Extract)・変換(Transform)・書き出し(Load)が可能なツール。主にデータレイクに蓄積されたローデータを、分析用データへと加工するのが役割。 - DWH:
加工したデータを格納するためのツール。分析用データを綺麗に整理・集約することで分析を行いやすくする。 - BIツール:
DWHから必要なデータを抽出し、分析およびデータを可視化するためのツール。表やレポートなどで情報をまとめ、レポートとして出力できるのが特徴。
このような仕組みを構築するには、組織体制の変更や既存システムの刷新など、組織規模での改革が求められるケースも珍しくありません。いきなりすべての環境を整えようと思うと、かえって組織が混乱する可能性があるため、最初はスモールスタートを意識し、段階的に適用範囲を拡大するのがおすすめです。
データレイクを導入するならGoogle Cloudがおすすめ
データレイクにはさまざまな種類の製品がありますが、なかでもGoogle Cloudを使って導入するのがおすすめです。Google Cloudは、クラウドコンピューティングやデータ分析基盤構築、AIモデル開発などに関するクラウドサービスをワンストップで利用できる、クラウドプラットフォームと呼ばれるツールです。そのなかには100種類以上のサービスが含まれており、データレイクに関する「Cloud Storage」というサービスも用意されています。
Cloud Storageは、2つ以上のゾーン(データセンターがある各地域を細分化した独立した区画)で冗長化されるように設計されており、99.999999999%という高い堅牢度を誇ります。データを格納するためのサイズや数に制限がないため、ビッグデータのような大容量のデータを保管するのに向いています。
Google CloudにはCloud Storageのほかにも、DWHの「BigQuery」やETLツールの「Cloud Data Fusion」、AIモデル開発に役立つ「Vertex AI」などのサービスが搭載されています。つまり、それぞれのサービスを自由に組み合わせて、自社の課題やビジネスモデルに合ったデータレイクの活用が可能になります。
Google Cloudの特徴やサービスの種類、使い方などに関しては、こちらの記事で詳しく解説しています。
データレイクを導入してデータ活用の土台を作り上げよう
データレイクを導入すると、形式を問わず、あらゆるデータを一つの格納庫に集約できます。ビッグデータを活用する場合でも、「どこにどのような種類のデータがあるか」が一目瞭然になるため、データスワンプに陥るリスクを抑えられます。
ただし、データレイクに蓄積されるのはあくまでローデータなので、そのままの状態では分析ができません。そのため、Google Cloudのようなプラットフォームを活用し、データレイクと同時にETLツールやDWHなど、データの加工や分析を行える環境を構築することが大切です。
電算システムでは、環境構築やコンサルティングなど、Google Cloudの導入支援サービスを提供しています。専門領域に精通した数多くのエンジニアが在籍しているので、スピーディかつ質の高いサポートを行えるのが強みです。さらに、電算システムのリセールサービスを活用すれば、Google Cloudの利用料に関する請求書発行や割引などを利用できます。Google Cloudと電算システムについては以下の資料で詳細を紹介しているので、参考にしてください。
監修者

<保有資格>
・Professional Data Engineer

- カテゴリ:
- Google Cloud(GCP)
- キーワード:
- データレイク