データマートは、組織のデータ蓄積・分析環境において作業者が直接活用する部分です。よって、データマートの設計が効率的なデータ活用のカギを握ります。この記事では、データマートを設計するにあたって、どのようなことを知っておくべきか、どのような点に注意すべきかについて解説します。
そもそもデータマートとは?
データマート(data mart)の「マート」は、スーパーやコンビニなどの名前に使われる「マート」と同じ単語で、小売店を意味します。
企業や組織などのデータ全体を保持するのがデータウェアハウス(data warehouse、「データの倉庫」)であるのに対し、データマートはその一部の、個別の用途や機能に関係した部分のデータだけを保持します。
必然的にデータベースの大きさは、データウェアハウスよりも小規模になります。必要なデータだけがデータマートに集約されているため、情報を取り出しやすく、より深い分析ができ、管理も容易です。
データウェアハウスを分割してデータマートを作成することもあれば、データマートを統合することによってデータウェアハウスを構成することもあります。
データマートの構造
データマートの構造として採用されることが多いものとして、スタースキーマとスノーフレークスキーマの2つが挙げられます。
例えば商品に関するデータマートの場合、商品名などのキーとなるデータを保持するテーブルを「ディメンションテーブル」、仕入先や販売額などの従属的なデータを保持するテーブルを「ファクトテーブル」と呼びます。
一般的に採用されているのは、スタースキーマです。スタースキーマでは、ディメンションテーブルを中心として、その周辺に星(スター)の形のようにファクトテーブルが結合されます。
一方、スノーフレークスキーマでは、明確なディメンションテーブルは設定されず、ファクトテーブル同士が雪片(スノーフレーク)のように相互に結合される構造になっています。
データレイクとデータウェアハウスの構成も覚えておこう
データ分析においてデータマートと類似したものに「データレイク」と「データウェアハウス」があります。システム構成としては、データレイク、データウェアハウス、データマートの3層構造とするのが一般的です。
データレイク(data lake、データの湖)は、外部から収集してきたデータを加工せず、生データのまま保持します。データウェアハウスやデータマートと情報が重複してしまいますが、構造化されない状態でデータを元の形のままデータレイクとして保持しておくことでバックアップの機能を果たします。また、データウェアハウスやデータマートの再構成も容易に行うことができます。
データレイクの生データを整理・加工し、情報として処理しやすい構成にして格納し直したものがデータウェアハウスで、一般的なデータベースの構成であるケースが多いです。
データの分析・活用は、基本的にはデータウェアハウスを用いて行うことができますが、データの規模が非常に大きく、目的とは関係のないデータも大量に含むため、具体的な分析の際に扱いにくくなりがちです。そこで、目的や部門などに応じて必要な情報を取り出し、整理したものデータマートです。
データ分析基盤を構成するポイント
ここまで見てきたように、データ分析基盤はデータレイク、データウェアハウス、データマートの3層で構成されますが、具体的に構成していくうえで押さえておくべきポイントがいくつかあります。
ここからはデータ分析基盤を構成するポイントについて解説します。
1.データ活用コストの最適化
データ分析基盤を構成する最大のメリットは、企業データを効率的に再利用できるようになることです。そのためには、データマートの構成が特に重要になります。
データウェアハウスであれば保有している全てのデータにアクセスが可能ですが、そのぶん個別のデータへのアクセスは煩雑となり活用コストが高くなってしまいます。そこで必要なデータセットに特化したデータマートを作成することでコストが最適化できます。
求められる用途を事前に洗い出してアセスメントし、利用者が必要十分なデータを容易に取り出せるよう構成しましょう。
2.データ更新の流れは一方通行に
データの更新は、データ分析基盤の構築においてボトルネックになりやすい部分と言われています。
データの更新の流れにおいて、手作業の部分が入ってしまったり、逆方向の流れが存在したりすると、ミスや不整合性の問題が発生する原因になることがあります。そのため、生データの収集から活用可能な構造構築までの流れは、自動連携で全て行われるようにし、データの流れは常に一方通行になるように設計しましょう。
3.必要以上にデータ結合を行わない
データ分析のためにはデータの結合が必要になりますが、データの結合を進めると、データソースや提供先が増えるにしたがって、変更があった場合に影響する範囲が広くなってしまい、管理にさまざまな問題が生じます。
特にデータウェアハウスの段階では、過度のデータ結合を行わないようにしましょう。データの結合はデータマートなどのデータ分析環境で行うことができますし、結合用のデータテーブルを別途追加するという方法もあります。
[RELATED_POSTS]
まとめ
データマートは、データウェアハウス・データレイクとともにデータ分析基盤を構成する要素の一つで、利用者の目的に合った扱いやすい分析環境を提供するものです。全体の構成とメンテナンス性を考慮した設計を行い、組織におけるデータ活用を加速しましょう。
また、電算システムでは、BI(ビジネスインテリジェンス)機能を搭載したデータプラットフォームとして、Lookerの活用をご提案しています。
Lookerを活用することで、データ分析の担当者だけでなく、作成したダッシュボードのURLを共有するだけで、簡単にユーザ部門でもドリルダウンでデータ分析が行うことが可能で、全社データドリブン基盤として企業の経営を力強くサポートします。
- カテゴリ:
- Looker
- キーワード:
- データマート