<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=220807558931713&amp;ev=PageView&amp;noscript=1">

これだけは知っておきたい!機械学習のアルゴリズム10選

 2020.09.14  ラクまるブログ編集部

機械学習のアルゴリズムには、さまざまな種類があります。近年は、急速なAIの普及によって多くの企業やサービスが目的に応じてアルゴリズムを使い分け、機械学習モデルを構築しています。AIの導入を検討している方や今後機械学習エンジニアを目指す方は、代表的なアルゴリズムを把握しておく必要があるでしょう。

今回は、ぜひ知っておきたい機械学習の代表的なアルゴリズムをご紹介します。

線形回帰

線形回帰とは、回帰によって連続する値を予測するもので、統計分析の基本としてよく用いられている理論です。一つの従属変数を「y」、一つあるいは複数の独立変数を「x」とし、双方の関係を予測することで、変数xと相関関係にあるyの値を予測します。線形回帰は、販売予測をはじめとしたビジネスシーン以外にも、スポーツ分析や学術研究といった幅広い分野で活用されています。

線形回帰には、「最小二乗法」という手法があります。これは、線形回帰の線形データに生じる数値と線形のズレを最小に抑えるためのものです。横軸xが同じ値の場合、縦軸yの違いがデータと回帰直線の誤差となり、この誤差を表すには負の値をなくすために二乗することになります。最小二乗法を用いることで、複数の誤差の解が導かれることを避けることができます。

決定木

決定木(けっていぎ)とは、木構造を用いて分類や回帰を行う機械学習の手法の一つで、「回帰木」や「分類木」とも呼ばれています。

例えば、「商品を買う/買わない」を基に条件分岐をしていくとします。「○円分購入する」というグループに対し、「1万円」「5万円」「10万円」という3つの選択肢を設けるとします。それぞれについて「買う」「買わない」を選ぶと、次に「金額分の商品だと数が少ない」「予算をほとんど消化してしまう」など、それぞれの選択肢にさらに選択肢が生まれます。すべてを「買う」「買わない」の2択で答えていきます。こうして大量のデータをグループに分けていくことで、最小単位に分割されます。グラフでデータを視覚化することで、複雑なデータを簡単にまとめることができます。決定木は非線形モデルですが、可読性が高い機械学習モデルと言えるでしょう。

ランダムフォレスト

ランダムフォレストは、複数の決定木を生成し、各決定木の結果を集計して多数決または平均を取って予測する手法です。カリフォルニア大学の統計学者であるレオ・ブレイマンが2001年に提唱しました。

異なるデータを基にした複数の決定木を用意することで、一つの分類木で分類する場合よりもさまざまな選択肢が生まれ、グループが最小化できるため精度が高くなりやすいという特徴があります。また、ランダムフォレストは汎化性能も高く、並列して処理できるため高速計算ができる、一連の流れが可視化されるため出力結果を説明しやすいなど、決定木ならではのメリットが多いことから人気のある手法です。ただし、ランダムフォレストを活用するためには大量のデータを用意する必要があります。

ロジスティック回帰

ロジスティック回帰は多変量解析の一つで、複数ある変数間の関連性を分析する手法です。ロジスティック回帰はビジネスだけでなく医療や災害など、危機回避のために高精度な分析・予測が必要とされる場面でも活用されています。

例えば生活習慣から起こる病気のリスクを考える際、どんな生活習慣によってどのような病気が発症する可能性があるのか、その相関関係を調べる必要があります。このような分析に、ロジスティック回帰が用いられます。

判明していない結果を予測するときだけでなく、すでに結果が出ている事象の説明のために用いることもできます。また、線形回帰の出力値をロジット関数に入力するため、2分類問題にも対応できます。

データ・ドリブン時代の歩き方
GCP総合ブローシャー

サポートベクターマシン(SVM)

サポートベクターマシン(SVM)は、パターン識別用に用いられる教師あり機械学習モデルで、優れた認識性能を持ちます。線は2次元、平面は3次元、超平面はn次元と3種類の境界線を持ち、異なるクラスも境界線によって明確に分類できます。

マージン最大化をすることで、少ないデータでも優れた認識性能を発揮し、汎用性も高いのが特徴です。サポートベクターマシン(SVM)は、主にテキスト認識や数字認識、顔認証などに活用されています。ただし、学習時間が長いというデメリットがあります。

ナイーブベイズ(単純ベイズ分類器)

ナイーブベイズは、確率論の「ベイズの定理」を基にした教師あり学習モデルです。説明変数が独立して予測対象に影響を与えているものとした環境で、与えられたデータから考えられるすべての確率を計算し、最も確率の高い結果を出力します。

重要でないとされる特徴量の影響をあまり受けないため、トレーニングデータが少ない場合でも高い精度を維持します。ナイーブベイズは、スパムメールの判定やセンチメント分析、文書データの分類などに活用されています。

k近傍法(k-NN)

k近傍法は、さまざまな機械学習の中でも最も単純とされている手法で、シンプルでわかりやすいアルゴリズムです。遅延学習に分類されており、すでに正解がある問題に対して「教師あり」学習を行います。学習データをあらかじめベクトル空間上にプロットし、不透明なデータに対しては、距離が近い順に任意でk個のデータを取得し、多数決によってデータが属するクラスを判定します。多数決という単純さゆえ、どのような分類モデルでも適用できるというメリットがあります。

クラスタリング(k平均法)

クラスタリングとは、データ同士の類似性や規則性に基づいてグループ分けする手法です。クラスタリングによって集まった、似た者同士のグループを「クラスタ」と呼びます。

「教師あり」学習の分類方法とは異なり、クラスタリングは「教師なし」学習なので正解はなく、あくまでデータの特徴ごとに分類します。

具体的な例としては、スマホやPCに届く迷惑メールの分類です。文章データから特徴を学習し、「このメールが迷惑メールに値するか否か」を判断し、自動的にフォルダ分けを行います。その後類似性を持つメールが届くと、自動的に迷惑メールフォルダに振り分けるようになります。また、クラスタリングによる判断を人間の手で修正することで、クラスタリングはさらに学習し、分類精度を高めていきます。

他にも、顧客情報をクラスタリングした際、同グループ内で同じ商品を複数人が購入した場合、グループ内の他の人たちにも同商品をリコメンドするといったこともできます。

クラスタリングによって似た者同士をグループ分けし、自社の強みを発揮できるターゲットを明確にすることで、製品・サービスの改良にもつながります。

アソシエーション分析

アソシエーション分析とは、同時に閲覧または購入されるものの組み合わせを集計し、相性の良い組み合わせを導く手法で、「連関分析」とも呼ばれています。主に顧客ごとの取引データを分析して、同時に売れている商品の関係性や割合、規則性を抽出する際に活用されています。通販サイトなどで「この商品を購入した人はこちらの商品も購入しています」と関連性のある商品を勧められるのは、アソシエーション分析によるものです。

アソシエーション分析はPOS分析に利用されることもあり、POSレジで支払いをした際に、次回使えるクーポンを発行するといったシステムも開発されています。商品の販売促進効果が高まるだけでなく、ユーザーのニーズに合った情報提供ができるため、顧客の獲得率にも良い影響をもたらします。

ニューラルネットワーク

ニューラルネットワークとは、ディープラーニングの基本となる分析モデルのことで、人間の脳内に存在する「神経細胞(ニューロン)」の仕組みを模したと言われている手法です。

「教師あり」と「教師なし」の学習方法がありますが、精度を高める目的から「教師あり」が注目されています。

ニューラルネットワークは、入力データを取得する「入力層」、データ内にある要素を分析する「隠れ層」、取得したデータを出力する「出力層」の3層構造になっており、データは事前に層・接続・方向のそれぞれに定義された伝達方法でやり取りが行われ、定義と異なる伝達はできません。

ニューラルネットワークの中でも、「ディープニューラルネットワーク」は広く用いられており、ニューラルネットワークを多層に重ねる深層学習モデルによって大規模な構築が可能となるだけでなく、複雑な表現も再現しやすくなります。

ニューラルネットワークは画像認識、音声認識などを実現でき、現在は自動車や株取引、医療分野など、さまざまな分野で活用されています。

[RELATED_POSTS]

まとめ

機械学習のアルゴリズムの特徴を知ることで、目的に応じた機械学習を選択することができます。AIを導入する企業が増え、急速にビジネスが変化していく中、今まで以上にサービスに合わせて効率良くデータ活用を行うことが求められます。

株式会社電算システムでは、データサイエンティストという観点からアドバイスを行うだけでなく、データエンジニアによる教育やトレーニングも実施しています。機械学習を効果的に使用したい方は、ぜひ株式会社電算システムのサービスをご利用ください。

GCP 技術コンサルティング

RELATED POST関連記事


RECENT POST「Google Cloud Platform」の最新記事


これだけは知っておきたい!機械学習のアルゴリズム10選
【オンライン開催】よくわかるGCPセミナー BigQueryではじめるデータドリブン経営