データ分析基盤に求められること

皆さんの日常業務において、データを活用した業務はどんどん増えているのではないでしょうか。

「自社製品の売り上げを月別に集計、変化の要因を踏まえて今後の売上を予想する」など、今やデータ分析は程度の差こそあれ、様々なシーンで利用されています。しかし、より大規模なデータ分析に話が変わるといかがでしょうか。

特に「ビッグデータを活用したデータ分析」となると、研究やリサーチ部門に携わる方々でなければ、頻繁に使用していると言える方は少ないのではないでしょうか。ここに有名な一例がありますのでご紹介します。

”2002年、会計事務所に勤務している最中に、メジャーリーグ選手の統計的評価システムを開発していたNate Silverは、後にNew York Times誌の選挙予測専門家に転身しています。2008年のオバマ対マケインの大統領選では50州中49州の勝敗を的中し、2012年オバマ対ロムニーの大統領選の勝敗を、全50州で的中させています。一方、長年の経験や勘に頼った著名な政治専門家たちの予想はそのほとんどが外れました。Nate Silverは統計学的に大統領選を分析したことで、２度にわたる大的中を可能にしたのです。”

この事例は、データ分析が今後如何にビジネスにおいても重要なものになるかを物語っています。高度な予測分析技術を持つということは、高確率で的中する「未来の情報」を手に入れることにも通じます。1年後にどのような商品が売れて、どのようなニーズがあるのか？など情報を効果的に分析し活用することで、未来をある程度予測することができるようになると、業務の効率やビジネスのスタイルそのものも大きく変化する可能性があります。

現代ビジネスはまさに「データ分析時代」であり、ビッグデータなど膨大なデータを分析することにより、企業は一歩先のステージでビジネスを展開することが可能となりにます。では、どのような環境を手にすれば、このようなデータ分析が可能になるのでしょうか？

本稿では、そんなデータ分析に求められる「基盤」についてお話します。

「ビッグデータ」とはそもそも何なのか？

データ分析基盤について知る上で「ビッグデータ」に対する理解が欠かせません。ビッグデータが流行語になったのは2013年であり、その後2015年には多くの企業がビジネスにおけるビッグデータの重要性について認識するようになりました。

ビッグデータとは一般的に「膨大な量のデータ群」を認識されていますが、実際は他にもビッグデータを形成する要素があります。これを「3Vの法則」を呼び、以下のようにビッグデータの要素が定義されています。

＜ビッグデータ3Vの法則＞

Volume（量）

ビッグデータは、従来企業が管理してきたような量のデータを圧倒的に超える量のものである。

Velocity（高速性）

ビッグデータは、データの入出力速度に優れているものであり、必要に応じて瞬時に抽出・加工・分析が可能なものである。

Variety（多様性）

ビッグデータは、量だけでなくバラエティに富んだ種類があり、多様なデータを組み合わせて分析することで価値が生まれるものである。

この定義を作ったのは現在ガートナーで活躍するアナリストのダグ・レイニーであり、2001年の研究報告書で発表しています。ビッグデータの歴史は意外と古く、大量のデータを分析するための基盤やインフラが整えられてきたことで、ビッグデータへの注目度が急激に高まったと考えられます。

さらに、2012年には「3Vの法則」に加えて、「ビッグデータは新しい形の処理を必要とし、意思決定に高速化、見識の発見、プロセスの最適化に寄与する」と定義し直しています。さらに「Veracity（正確性）」という新しい要素を追加した定義も存在します。

基盤①　非構造化データの蓄積・処理・分析

データ分析基盤として第一に求められるもの。それは、ビッグデータの重要性が増したことにより注目されだした「非構造化データ」の蓄積・処理・分析を可能にするデータベースおよび機能です。

ビッグデータ以前の世界では、表形式で整理することが可能な「構造化データ」がビジネスにとって重要なデータだとされ、RDB（Relational DataBase）に蓄積されていました。たとえば売上データや顧客データなど、特定の構造を持つデータが構造化データに該当します。

しかし、ビッグデータの重要性が増したことにより、テキスト・音声・音・画像・動画といった特定の構造を持たず前持った定義が難しい非構造化データに注目が集まります。これらの非構造化データは、ビッグデータ以前の世界では上手く活用されず、捨てられてきたものばかりです。

たとえばコールセンターなど、日々受信する電子メールの中で、顧客とやり取りしたメッセージは、その履歴を記録として確認するために重要だと考えられ管理されてきました。ただしその役割を果たすと廃棄されることが多く、テキストデータがもつ価値として着目されるようになったのここ最近のことと言えます。

現在では、顧客から受信した電子メール、営業担当者が送信した電子メールなどのテキストデータを収集し、ある一定のロジックで傾向を抽出したり、AIの力を借りて大量データの中から一定の答えを探し出すなど、人間が対応できる処理をはるかに超えた量や速さで、顧客の質問に対して回答を導き出すことも実現されています。

つまりビッグデータにおいて非常に重要なのポイントは非構造化データの活用であり、それを如何にして構造的に管理し、蓄積・処理・分析するかでデータ分析の成否が分かれると考えてよいでしょう。

このニーズに対してはHadoopなどの非構造化・半構造化データ処理に向いた、分散処理方式がオープンソースソフトウェアとして開発されたことにより、ビッグデータ活用に拍車がかかりました。

[RELATED_POSTS]

基盤②　システムと対話しながらのデータ分析

データ分析基盤に求められる要件としてもう1つ重要なこと。それは、「誰もがデータ分析スペシャリストのようにデータの蓄積・処理・分析ができるシステム」です。

ビッグデータの流行と共にデータ分析や活用へのニーズも急増しましたが、需要に対してデータ分析スペシャリストの数は圧倒的に不足しています。社内人材をスペシャリストとして育成しようにも、専門性が高く手間や時間もかかるため、なかなか手出しができないのが実情です。

この改題を解決する方法の1つが、BI（Business Intelligence）やデータ連携ソリューションなど企業内にあるデータの集約や分析を容易にするソフトウェアの導入です。また、最近のアプリケーションやサービスでは、提供するベンダー側が予め必要となるダッシュボードやシステム連携の手法、データ分析のための機能などを考慮して提供することが増えています。

これらの機能やツールを採用することで、ある程度データ分析ができる環境が整います。これは、大掛かりな仕組みを構築する必要がなく、手始めにデータ分析を開始する際には、非常に理に適った方法です。

データ分析とは、経営戦略における意思決定を早めたり、業務プロセスに潜在している無駄を発見して効率化に繋げたり、顧客の購買行動を把握することでマーケティングの投資対効果をアップしたりと様々な目的を持ちます。つまり、実際に業務に携わっている担当者が、その経験に基づいてデータ分析を行うことで、適切な成果をあげることができます。必ずしも第三者的なデータ分析スペシャリストの力が必要というわけではありません。

誰もがデータ分析を行えるシステムを構築し、かつ現場社員がそれを適切に扱えることが現代ビジネスには求められているとも言えます。

データ分析を支える基盤を用意する

分析に必要なデータを集約し必要となる項目を適切に抽出し、柔軟な拡張性をもちながら堅牢なセキュリティ基盤で保護されたデータベース、多様化する分析手法に対応したデータ処理や解析のロジックなどデータ分析基盤に求められる機能要件は多岐に渡ります。

また、データ分析基盤はビジネスニーズに合わせて常に変化し続けるものでもあります。定型業務向けのシステムのように、数年分のデータ量や処理させるプロセスを予め決定し、システム構築の仕様として固めることは困難であり、必要に応じて柔軟に環境を変化させつつ仮説検証によるトライ＆エラーを繰り返すことで、精度を高めたり必要なロジックの選定を進めることが一般的です。そのため、クラウドコンピューティングの活用が不可欠と言えます。

DSKでは、最新のクラウド基盤としてGoogle Cloud™（旧 GCP：Google Cloud Platform）の関連サービスを提供しています。クラウド基盤を活用した迅速なデータ分析環境が構築でき、AI/機械学習やGoogle Cloud BI ソリューションやデータポータルなどのBI機能を利用するなど、豊富なサービス群により企業のみなさまのデータ分析をサポート致します。

ぜひ、お気軽にご相談ください。

データ分析基盤に求められること