これだけは知っておきたい！機械学習のアルゴリズム10選

AI技術の中心ともいえる機械学習には、さまざまな種類のアルゴリズムがあります。
近年では、AIが急速に普及していますが、多くの企業やサービスは目的に応じてアルゴリズムを使い分け、機械学習モデルを構築しています。AIの導入を検討している方や今後機械学習エンジニアを目指す方は、代表的なアルゴリズムを把握しておくと、目的に応じた適切な技術の選定ができるでしょう。

今回は、ぜひ知っておきたい機械学習の代表的なアルゴリズムをご紹介します。

線形回帰

線形回帰とは、回帰によって連続する値を予測するもので、統計分析の基本としてよく用いられている理論です。一つの従属変数を「y」、一つあるいは複数の独立変数を「x」とし、双方の関係を予測することで、変数xと相関関係にあるyの値を予測します。独立変数が1つの場合は単回帰、2つ以上ある場合は重回帰と言います。線形回帰では、データの分布に対して、各実測値との誤差が最小になるような回帰直線（もしくは曲線）を求めます。未知の独立変数について、この線形データにあてはめることで従属変数の値を推定することができます。線形回帰は、販売予測をはじめとしたビジネスシーン以外にも、スポーツ分析や学術研究といった幅広い分野で活用されています。

線形回帰には、「最小二乗法」という手法があります。これは、上述した回帰直線（もしくは曲線）の係数を求める方法で、これを求めることができれば、各実測値の分布を線形に近似することができます。具体的には、実測値と予測値の誤差を2乗した値の和を求めることで、回帰直線の係数と切片を分散として考えられるよう置き換えています。2乗しているため誤差が大きいほど分散も大きくなるという関係ができ、最小化問題として考えることができます。

決定木

決定木（けっていぎ）とは、木構造を用いて分類や回帰を行う機械学習の手法の一つで、「回帰木」や「分類木」とも呼ばれています。

例えば、「商品を買う/買わない」を基に条件分岐をしていくとします。「○円分購入する」というグループに対し、「1万円」「5万円」「10万円」という3つの選択肢を設けるとします。それぞれについて「買う」「買わない」を選ぶと、次に「金額分の商品だと数が少ない」「予算をほとんど消化してしまう」など、それぞれの選択肢にさらに選択肢が生まれます。すべてを「買う」「買わない」の2択で答えていきます。こうして大量のデータを、条件分岐によるツリー構造でグループに分けていき、最小単位に分割します。グラフでデータを視覚化することで、複雑なデータを簡単にまとめることができます。決定木は非線形モデルですが、可読性が高い機械学習モデルと言えるでしょう。また、決定木の考え方をベースとしたランダムフォレストや勾配ブーストツリーといったより精度の高いアルゴリズムも存在します。

ランダムフォレスト

ランダムフォレストは、機械学習におけるアンサンブル学習の1つということができます。アンサンブル学習とは、複数のモデルを用意して、それぞれのモデルの結果に多数決で判断を下す、いわば各モデルの良い所どりのような考え方です。ランダムフォレストでは少しずつ条件を変えた複数の決定木を生成し、各決定木の結果を集計して多数決または平均を取って予測する手法です。カリフォルニア大学の統計学者であるレオ・ブレイマンが2001年に提唱しました。

異なるデータを基にした複数の決定木を用意することで、一つの分類木で分類する場合よりもさまざまな選択肢が生まれ、グループが最小化できるため精度が高くなりやすいという特徴があります。また、ランダムフォレストは汎化性能も高く、並列して処理できるため高速計算ができる、一連の流れが可視化されるため出力結果を説明しやすいなど、決定木ならではのメリットが多いことから人気のある手法です。ただし、ランダムフォレストを活用するためには大量のデータを用意する必要があります。また、木の本数を何本にするかといったパラメータの調整も必要です。

ロジスティック回帰

ロジスティック回帰は多変量解析の一つで、複数ある変数間の関連性を分析し、多項、もしくは2値分類を行う手法です。回帰と名前がついていますが前述した線形回帰とは異なり従属変数が質的である問題に用いられるため、従属変数と独立変数の関係を線形で表すことができません。代わりに、各独立変数の従属変数に対する尤度を考え、確率を予測します。

例えば生活習慣から起こる病気のリスクを考える際、どんな生活習慣によってどのような病気が発症する可能性があるのか、その相関関係を調べる必要があります。このような分析に、ロジスティック回帰を用いることで、各生活習慣による病気の発生確率を求めることができます。

確率を求めるという特性上、2値分類や多項分類の予測問題に使用されることが多いですが、独立変数が質的変数である場合は、すでに結果が出ている事象の説明のために用いることもできます。ただし、独立変数が量的変数の場合には重回帰分析が使用されます。

サポートベクターマシン（SVM）

サポートベクターマシン（SVM）は、パターン識別用に用いられる教師あり機械学習モデルで、主に分類の問題に使用されます。。

分類問題では、データの分布に対して決定境界を引いてクラス分けを行い、入ってくるデータが境界のどちらに属するかによって判定を行います。サポートベクターマシンでは、各クラスのデータの中で最も決定境界に近いデータと、決定境界の距離をなるべく遠くする、という特徴があります。これをマージン最大化と呼びます。各クラスと境界の距離を最大化することで、既知のデータよりも境界に近いような未知のデータが入ってきた際の分類ミスを減らすことができ、少ないデータでも優れた認識性能を発揮します。サポートベクターマシン（SVM）は、主にテキスト認識や数字認識、顔認証などに活用されています。

ナイーブベイズ（単純ベイズ分類器）

ナイーブベイズは、確率論の「ベイズの定理」を基にした教師あり学習モデルです。説明変数が独立して予測対象に影響を与えているものとした環境で、与えられたデータから考えられるすべての確率を計算し、最も確率の高い結果を出力します。

重要でないとされる特徴量の影響をあまり受けないため、トレーニングデータが少ない場合でも高い精度を維持します。ナイーブベイズは、スパムメールの判定やセンチメント分析、文書データの分類などに活用されています。

k近傍法（k-NN）

k近傍法は、さまざまな機械学習の中でも最も単純とされている手法で、シンプルでわかりやすいアルゴリズムです。すでに正解がある問題に対してしか使用できないため「教師あり」学習に分類されます。分類済みの既知のデータをあらかじめn次元の座標空間上にプロットしておきます。入力された未知のデータは同じ座標空間上にプロットされ、距離が近い順に任意でk個の既知のデータを取得し、多数決によってデータが属するクラスを判定します。

例えば、kが1に設定されていた場合は、最も近い既知のデータと同じクラスに分類されることになります。多数決という単純さゆえ、どのような分類モデルでも適用できるというメリットがあります。

クラスタリング（k平均法）

クラスタリングとは、データ同士の類似性や規則性に基づいてグループ分けする手法です。クラスタリングによって集まった、似た者同士のグループを「クラスタ」と呼びます。

「教師あり」学習の分類方法とは異なり、クラスタリングは「教師なし」学習なので正解はなく、あくまでデータの特徴ごとに分類します。

代表的なアルゴリズムは、k平均法（k-means）というものです。最初にデータに対してランダムにクラスタを割り振り、その後はクラスタ内の平均（重心）を求め、各データを近い重心のクラスタに割り振りなおす、という動作を収束するまで繰り返すことでクラスタ分けを行います。

クラスタリングによる判断を人間の手で修正したり、新規データも含めて継続的に学習を行うことで分類精度を高めていきます。

実際の活用例では顧客情報のクラスタリングが挙げられます。同じクラスタ内の顧客は似たような属性を持つことになるので、ある顧客が特定の商品を購入した場合、その顧客と同じクラスタ内の他の顧客にも同じ商品をリコメンドすれば、購入につながる可能性が高いです。

また、クラスタリングによって似た者同士をグループ分けし、自社の強みを発揮できるターゲットを明確にすることで、製品・サービスの改良にもつながります。

アソシエーション分析

アソシエーション分析とは、因果関係を読み解く分析手法で、消費者の行動分析、予測によく用いられます。主に顧客ごとの取引データを分析して、同時に売れている商品の関係性や割合、規則性を抽出するバスケット解析も、アソシエーション分析の手法の1つです。通販サイトなどで「この商品を購入した人はこちらの商品も購入しています」と関連性のある商品を勧められるのは、アソシエーション分析によるものです。

アソシエーション分析はPOS分析に利用されることもあり、POSレジで支払いをした際に、次回使えるクーポンを発行するといったシステムも開発されています。商品の販売促進効果が高まるだけでなく、ユーザーのニーズに合った情報提供ができるため、顧客の獲得率にも良い影響をもたらします。

機械学習においては、因果関係をその事象と結びつく確率と共にグラフ構造で表現するベイジアンネットワークモデルが活用されています。

ニューラルネットワーク

ニューラルネットワークとは、ディープラーニングの基本となる分析モデルのことで、入力データを取得する「入力層」、データ内にある要素を分析する「隠れ層」、取得したデータを出力する「出力層」の3層構造で構成されます。データは事前に層・接続・方向のそれぞれに定義された伝達方法でやり取りが行われ、定義と異なる伝達はできません。

ニューラルネットワークの中でも、「ディープニューラルネットワーク」は広く用いられており、ニューラルネットワークを多層に重ねる深層学習（ディープラーニング）モデルによって大規模な構築が可能となるだけでなく、複雑な表現も再現しやすくなります。

ニューラルネットワークは画像認識、音声認識などを実現でき、現在は自動車や株取引、医療分野など、さまざまな分野で活用されています。

[RELATED_POSTS]