数年前に流行した「ビッグデータ」という言葉ですが、今となってはあえて表現するバズワードでは無くなってきています。その理由は、データがビッグであることは既に当たり前のことと認識され、データとは大量・多品種であることが標準になっているからです。要するに、データの重要性が増していることと、データ解析の必要性が強まっていることは周知に事実であり、今更ビッグデータと騒ぎ立てる必要が無くなっている、ということです。Google Trends でも「ビッグデータ」の検索ボリュームは減少しています。
日本国内でもデータ解析をもとに、ビジネスを躍進させた事例が数多く誕生しており、そのシーンは大企業や中小企業、あらゆる業種に及んでいます。データ解析をビジネスに取り入れることは、トレンドを通り越してスタンダードになっていると言えるでしょう。
では、そもそもデータ解析とは何なのか?「あらゆる場所からデータをかき集めて、色々な視点から情報を捉え、グラフ化などによって視覚的に表す」など、その概要は把握していても、データ解析の本質を理解できているという方は少ないでしょう。
本稿では、データ解析の基本中の基本についてご紹介しますので、興味がある方はぜひご一読ください。
結局のところ「データ解析」って何なのか?
「データ解析」についてよく言われることを整理すると、「大量かつさまざまな種類のデータを集約、加工し、集計しやすい形式に変換したり、視覚化(グラフ化)したり、色々な視点で情報を捉えることで今まで気づかなかった新しい知見を発見する、仮説として立てた事象の確認を行うための活動。」と捕らえられていると思います。これは、データ解析に対する一般的な認識です。
しかし、これがデータ解析の全てと言うわけではありません。この解釈が先行することでむしろデータ解析の本質が見えなくなってしまい、せっかく行った活動から効果が得られない可能性があります。では、この一般的な解釈に、データ解析の本質を加えて以下のように再定義しましょう。
「データ解析とは、組織や個人が認識している問題を解決するために、必要な情報を集め、最適な分析モデルに加工してデータを情報へと変換することである。これにより様々な視点から情報を捉え、問題の原因や解決策を見出し、具体的なアクションへと落とし込むことである。あるいは、仮説を立てた事象に対してその確証を得るために実施し、最終的に得た結果から取り組みの軌道修正を図ることである。」
いかがでしょうか?データ解析には常に、解決したい問題やクリアしたい課題、検証したい事象などが前提にあり、それをサポートする手段として用いられます。つまり、いつ何時でも「データ解析そのものが目的であってはならない」ということです。
データとデータ解析ができる人材さえ揃えば、何か新しい分析結果やビジネス活用が生まれるという、データ解析に対する間違った解釈から、解析すること自体が目的になってしまい、途中でゴールを見失い中途半端なまま終焉するデータ活用という名のプロジェクトが少なくありません。
本稿を読まれている皆さんには、決してそのような失敗はしてほしくないので、「データ解析はあくまで手段なのだ」ということを、常に念頭に置いていただきたいと思います。
実は簡単にできるデータ解析、実際にやってみよう
データ解析と聞くと、Pythonなど高度なプログラミング言語やExcel VBAを用いて分析モデルを構築し、大量かつ多品種のデータを読み込んで行うもの、という難しいイメージを持たれている方も多いでしょう。しかし実際は、もっと身近なものであり、高度な技術を用いたデータモデルを構築する必要がなければ、データサイエンティストでなくともある程度のところまでは実行できます。
たとえば、最も単純なデータ解析が「データの並べ替え」です。専門用語では「ソート」といいます。
まずは、販売管理システムや販売管理台帳から一定期間内で発生した、顧客ごとの取引金額を例にとってみましょう。A社ではある一定期間に1,000人の顧客と取引し、総取引額は5,000万円です。取引額が多い順にそれらの情報をExcelに記録していき、その後10等分のグループを作ります。それが完了したならば、グループごとの総取引額に占める割合と、累積取引額比率を計算してみてください。すると、以下のような表ができるはずです。
[取引金額合計 取引金額比率 累積取引金額比率 1社あたりの取引金額平均]
- 1~100位 2,000万円 40.0% 40.0% 200万円
- 101~200位 1,000万円 20.0% 60.0% 100万円
- 201~300位 800万円 16.0% 76.0% 80万円
- 301~400位 500万円 10.0% 86.0% 50万円
- 401~500位 300万円 6.0% 92.0% 30万円
- 501~600位 150万円 3.0% 95.0% 15万円
- 601~700位 100万円 2.0% 97.0% 10万円
- 701~800位 80万円 1.6% 98.6% 8万円
- 801~900位 50万円 1.0% 99.6% 5万円
- 901~1000位 20万円 0.4% 100.0% 2万円
- 合計 5000万円 100% - 5,000円
こうしてみると、上位20%のグループ(1〜200位)で取引金額全体の60%を占め、上位40%のグループ(1〜400位)で全体の80%以上を占めていることが分かります。
いかがでしょうか?このようにデータを並べ替えて、ちょっと計算しただけでも今までに気づかなかった様々な情報を知ることができます。これがデータ解析であり、決して難しいものではありません。ちなみに上記の表は「デシル分析」といって、顧客分析等によく使われている解析モデルです。
このような分析であれば、表計算ソフトでも十分可能です。弊社でお勧めするのは、GoogleWorkSpaceのスプレッドシートとGoogleCloudのBigQueryの組み合わせです。スプレッドシートとBigQueryを接続すればSQL のようなコンピュータ言語の知識がなくても、数十億の行やテラバイト規模のデータを Google スプレッドシートで分析できるようになります。
もちろん、複雑な解析モデルは存在しますし、より深い洞察を得るには高度な解析モデルを用いる必要もあります。しかしながら、データ解析を難しく考える必要はありません。シンプルな方法でも十分な情報を得られる場合もありますし、特別なツールを使えば高度な解析モデルも簡単に取り扱うこともできます。大切なのは、課題意識を持って、それをデータから導き出す意識であり、継続的にチャレンジする気持ちと経験の積み重ねと言えます。
データサイエンティストは、なぜデータサイエンティストなのか?
データ解析をビジネスに取り入れることが当たり前になってから、データサイエンティストという人材の注目度が一気に高まりました。経済界全体を通じて需要が増大していると言えます。
データサイエンティストがデータサイエンティストたる所以は、果たして高度な解析モデルを扱えるからか?あるいは、データ解析のスピードが他人よりも早いからか?実はどちらも違います。
彼らは、解析したデータをどのように解釈して、正しい情報へと変換し、どうやれば具体的なアクションに落とし込めるかという論理的思考を持ち合わせています。一般社団法人データサイエンティスト協会が定義しているデータサイエンティストに必要な要素では、「ビジネス力」として定義されています。上述のデータ解析の章でも触れましたが、データ解析で何よりも大切である、「解析結果から何を得て、それをどう活用するか?」と道筋を立てるのがデータサイエンティストの役割です。
もちろん、解析までに正確かつ信憑性の高いデータを収集したり、素早く分析することは大切ですが、そこまでのプロセスはある程度標準化されているので、データサイエンティストにしかできない作業ではありません。重要なのは、柔軟な発想でデータをビジネスに活用することです。
むしろ、データ解析の難易度を実施する上で障壁となっている事象が明確になってきています。
- 対象データが旧来のシステムにのみ保管されていて、編集や取り出しが難しい
- 対象データが複数のシステムに分断されているため、データの集約自体が難しい
- 様々な切り口やパターンで解析したいが、一時的に高い処理能力を確保できない
などと言ったシステム環境に起因した要因により、データ解析の難易度が上がっています。
弊社、電算システムのサービスでは、自社でデータを活用した分析や解析を実施しようと検討している企業様向けに、データ分析関連サービスやデータプラットフォームの構築支援のサービスを提供しています。
環境セットアップやデータ連携の設計・実装など、データを活用するための基盤構築をご支援します。また、データ分析のプロセス全般を網羅したサービスを提供することで、お客様のデータ分析業務に対して一貫したサポートを行います。
また、上述で推奨した GoogleWork Space 及び GoogleCloud のリセールサービスも提供可能です。
ぜひお気軽にご相談ください。