今回は、データ分析の第一歩として、エクセルや Google Workspace のスプレッドシートで行うデータ分析の基本についてご紹介します。データ分析といえば、データ分析用のBIツールやデータウェアハウス、ETLツールがないとできないかといえばそうではありません。
データ分析を行うことが、ビジネス上での標準になっています。今では、中小零細企業でもデータ分析を有効活用して、新しいアプローチで商品・サービスを提供したり、ビジネスモデルに変革を起こしたりして、大企業にも劣らない力を身に着けるケースが少なくありません。
しかし、多くの人は「データ分析」と聞くと頭を抱えてしまい、一向に足が前に進みません。実際はそう難しく考える必要はなく、まずは、エクセルやスプレッドシートの一般的な操作ができれば誰にでもデータ分析は可能です。
データを用意する
データ分析を始めるにはデータが必要になります。まずは、エクセルやスプレッドシートにデータを準備する方法をご紹介します。
直接入力
エクセルやスプレッドシートに直接データを入力して分析用のデータを蓄積します。このときユーザーごとに入力形式が異なると、あとで集計や分析するときに困るので日付や数値などの「入力規則」や商品や担当者名などを「リスト形式から選択」といった機能を利用することで集計がしやすくなります。
CSVファイルのインポート
売上管理や請求管理システムなどでは、データをCSVファイル形式でエクスポートできる場合があります。エクセルやスプレッドシートには、それらのCSVファイルをインポートする機能があります。
フォームの利用
Microsoft Forms や Google フォーム などのアンケート機能を利用してデータを収集している場合は、結果をエクセルやスプレッドシートに反映して利用することができます。
他のファイルやシートの参照
エクセルやスプレッドシートには他のシートやファイルのデータを参照する機能や関数があります。データ分析で扱うデータは他の業務で利用している場合がほとんどです。他の業務で利用しているデータには分析に不要なデータもあります。データ分析を行う場合、誤って業務用データを変更してしまわないようにエクセルやスプレッドシートの機能や関数を利用して必要なデータを抽出し、分析用のシートを用意します。
Access や Google BigQuery™ のデータの参照
エクセルやスプレッドシートは表計算ソフトであって、データベース専用のソフトではありません。大量データを扱う場合、Access や BigQuery へそれぞれデータを格納することで、エクセルやスプレッドシートからデータを参照して利用することも可能です。
エクセルVBA や Google Apps Script の利用
データベースやSQL文、プログラミングの知識が必要になりますが、エクセルVBAやGoogle Apps Script を利用することで、エクセルやスプレッドシートで外部データベースを参照することも可能です。
データを分析してみよう
データが準備できたら、エクセルやスプレッドシートの機能を利用してデータを分析してみましょう。まずはデータを見てみましょう。
データの並べ替え
エクセルやスプレッドシートには各列ごとにデータを並べ替える機能があります。数値の大きい順、低い順などに並べ替えるだけで、各項目の傾向を掴むことができます。
フィルタ機能
フィルタ機能を利用することで、ある項目の特定の値のみ抽出することが可能です。並べ替え機能と組み合わせることで、例えば、支店名の項目で特定の支店のみ選択し、売上の項目で高い順に並べることで、売上上位の商品や日付、顧客のデータ傾向を掴むことができます。
データの傾向がつかめてきたらエクセルに搭載されているピボットテーブル機能を利用して、クロス集計分析をしてみましょう。
クロス集計分析ってなに?
初歩的なデータ分析手法の1つであり、2つ以上のデータ項目を掛け合わせて結果を集計することから「クロス集計分析」と呼ばれています。たとえば、「支店ごとに商品別売り上げをまとめる」「担当者ごとに取引先別の契約金額をまとめる」場合に、列(縦軸)と行(横軸)に支店名や商品名、日付や売上、担当者や取引先などの項目の見出しを並べ、その交わった部分に合計や個数などを記入した表です。クロス集計分析を行うことで、複雑なデータを属性別に分けた上で、それぞれの集計が行えます。そこからデータ間の相関関係を知ったり、傾向を読み取ったりできます。
ピボットテーブル
エクセルの場合は、「挿入タブ」の「テーブル」に表示されている「ピボットテーブル」をクリックします。すると「ピボットテーブルの作成」というボックスが表示されるので、分析したいデータシートのセルを1つ選択しましょう。エクセルでは分析対象になるデータ範囲を自動的に認識してくれるので、すべてのセルを選択する手間は不要です。選択が完了したら「OK」をクリックします。これでピボットテーブルの作成は完了です。
すると、エクセルシートのリボン欄に新しく「ピボットテーブルツール」が追加されます。ここでは分析に必要な様々なツールを使ったり、ピボットテーブルのデザインを変更したりできますので、色々と操作することで効率よくデータ分析ができます。
エクセルやスプレッドシートでの可視化
エクセルやスプレッドシートにはグラフの挿入機能もあります。表形式のデータもグラフで可視化することでデータの傾向がつかみやすくなります。
Power BI や Data Portal での可視化
データの集計や可視化で分析したいデータのアウトプットが決まったら、可視化ツールを利用してみましょう。Power BI や Data Portal といった可視化ツールは、エクセルやスプレッドシートをデータソースとして利用できます。エクセルやスプレッドシート内へのグラフの挿入より、ビジュアルに優れているのでチームで分析結果を共有するのに便利です。
エクセルで可能なデータ分析の種類
最後に、エクセルのピボットテーブルなどを活用することでどのようなデータ分析が可能になるか、ここでは、主要なデータ分析の種類を以下にご紹介します。
因子分析
テストの成績から「なぜその成績だったのか?」「科目ごとの差があるのはなぜか?」といった事実まで読み取ることはできません。そこで、各教科の成績を全体として分析し、成績を左右する個々の能力(読解力や説明力など)である「共通因子」を見出すことが大切であり、これが因子分析の考え方です。今では、マーケティングなど幅広い分野で活用されています。
計量時系列分析
株価やECサイトの売上など、時系列で表されるデータには何かしらの内部構造があると考えられます。計量時系列分析では、それらの結果の間にある関係を明らかにすることで、ビジネス上の仮説や理論を検証するためのものです。時系列で変動するデータの流れを分析することで、その後の予測が行えるため効率よくビジネスを展開していくことを目的とします。
主成分分析
多くの要因がある場合、似たもの同士を少数の要因に集約させることで、データ分析しやすくするためのものです。統計分析ではデータが多すぎると分析が複雑化し、やりにくくなります。そのため、データ分析を行う前に分析しやすいようにデータを整えるのが主成分分析です。この統計分析を行うと、大まかにデータの特徴を捉えることが可能なので、購買時の分析やブランディング施策によく使われています。
重回帰分析
結果となる数値と要因となる数値の関係を調べて、それぞれの関係を明らかにするための手法です。統計分析においては基礎の基礎となります。要因となる数値を「説明変数」、結果となる数値を「目的変数」といい、説明変数が1つの場合は「単回帰分析」、複数の場合は「重回帰分析」と呼びます。
相関分析
2種類以上のデータにおいて、一方のデータが変化したときに、その変化に応じてもう一方のデータも変化することを相関関係といいます。相関分析では、この関係を統計分析で明らかにすることを意味します。たとえば、「来客数と売上高」や「気温とビールの売上高」といったように、2種類以上のデータには何らかの関係性があると考えられます。これを明らかにすることで、より正確なビジネス戦略を組むことに貢献します。
多変量解析
多くの情報を分析者の仮説にもとづき、関連性を明確にすることを多変量分析といいます。平たく言えば「複雑な情報を分かりやすくする」ことです。たとえば、ある商品に対してさまざまな口コミや評価があります。それらの情報は、何らかの要因があって作り上げられたものです。そこにはブランド、デザイン、スペック、価格、信頼性などさまざまな要因が合わさって総合的に価値が決まります。これを明らかにするのが多変量解析です。
以上のように、エクセルを扱えるだけで多くのデータ分析手法を用いて、ビジネスで日常的に発生するデータを分析し、多くの知見を得ることができます。データサイエンス(データを分析する科学)は特別な人材だけに許されたものではなく、誰もが取り組める分野というわけです。ちなみに、米国では今最も人気のある職業がデータサイエンティストであり、年間4,000人の統計学修士が生まれているそうです。
エクセルの限界に注意しよう!
エクセルでデータ分析へ取り組むにあたり、注意点が1つあります。それは、エクセルに記載できるデータの量には限りがあり、データ分析のためのモデルを搭載するとその分動作が重くなることです。一度ピボットテーブルを作成してみると分かることですが、通常の操作よりも少し重みを感じます。データ量が増えるほどその傾向は強まり、大量のデータを分析する際はエクセルを起動するのにも長い時間がかかることがあります。
エクセルは優れた表計算ソフトであり、データ分析も可能にしていますが限界もあるというわけです。
このため、本格的にデータ分析をビジネスへ取り入れたいという場合は、BigQuery などの データウェアハウスや Looker などBI(ビジネス・インテリジェンス)等を検討することをおすすめします。BIはデータ分析に特化したITツールであり、収集したデータを様々な角度から分析して、視認性の高いレポートを出力してくれます。
BIを活用するためには、ERP(エンタープライズ・リソース・プランニング)のように組織内のデータを統合管理できるシステム環境も必要になります。エクセルでデータ分析を行うよりも当然コストはかかりますが、組織全体のデータを分析し、経営状況を可視化しながら高度なデータ分析に取り組めることも確かです。
しかしながら情報となるソースデータが各システムのデータベースに格納されている場合や、絶えず情報が更新されてしまい、ファイル単位での管理が煩雑になるなど、より本格的な分析が必要になる場合は、エクセルを使った作業では限界があります。その際は、やはりデータ分析に特化したデータプラットフォームの構築がお勧めです。
データプラットフォームにより、必要なデータがいつでも必要なタイミングで蓄積され、ダッシュボードやBIツール、レポート出力など定型的な処理を自動化することが可能となります。
電算システムでは、お客様のデータ分析を支援するためのデータプラットフォームの構築支援やデータ分析に必要なサポートを提供しています。業務の効率化やデータ・ドリブン型の経営を目指している方は、是非お気軽にご相談ください。