最近、機械学習という言葉をよく聞くようになったかと思います。
一方で、ビッグデータという言葉も広まり、統計学・データサイエンスなどの言葉もよく聞くようになりました。
しかし、それぞれ何が違うのかよく分からない!というかたも少なくないかと思います。
そこで、本記事では、統計学と機械学習の違いについてまとめてみました。
この記事を読むと分かること
- 統計学と機械学習って何が違うの?
- 統計学と機械学習の分析手法はどんなものがあるの?
是非最後まで楽しんで読んでいただければ幸いです!
統計学とは
統計学とは、あるまとまったデータ群の性質を調べたり、所持しているデータを元にデータの変動を予測したりする学問です。
統計学を利用すると、不確実性を伴うデータの性質を論理的に説明できます。
統計学には大きく分けて2種類の性質推測方法が存在します。
1つ目の推測方法は「記述統計」です。
記述統計では、データの平均値や標準偏差を導くことで、データの性質や特徴を調べます。
記述統計は、学力テストの結果分析などによく用いられます。
2つ目の推測方法は「推測統計」です。
推測統計では、データ群の中から一部のデータサンプルを抜き出し、そのサンプルの特徴を調べてデータ群の性質を調査します。
推測統計を利用すれば膨大なデータの分析が行えます。
しかし、全てのデータを調べるわけではないため、分析結果が確実に正しいとは言い切れません。
推測統計は、テレビやラジオの視聴率調査、アンケート調査の分析などによく用いられます。
機械学習とは
機械学習とは、集められたデータからデータ同士の法則性やパターンを抽出してデータ分析を行う手法です。
データ同士の法則性やパターンを抽出して公式化することを、「モデル化」と呼びます。
機械学習では、手元のデータで作られたモデルを使って、未来のデータの予測や分類を行います。
機械学習が利用されているツールの代表例が、迷惑メール振り分け機能です。
迷惑メール振り分け機能は、迷惑メールフォルダに入っているメール文面を分析し、迷惑メールの文面に用いられている共通点を探します。
メールが受信された際に、受信したメールの文面と抽出された迷惑メールの共通点を照らし合わせることで、受信メールの振り分けを行います。
機械学習の特徴は、新たなデータが追加される度にモデルが更新されることです。
そのため、学習するデータ数が多ければ多いほど、より正確なモデルが作られます。
統計学と機械学習の違い
ここからは、統計学と機械学習の違いについて解説します。
統計学は「説明」、機械学習は「予測」に重きを置く
統計学は、データ群の特徴や性質を明確に説明することに重きを置いた学問です。
そのため、統計学で用いられるアルゴリズムは単純で分かりやすく、どうしてそのような結果になったのか後で説明しやすいものがよく用いられます。
一方機械学習は、未来のデータ予測精度をとにかく追求する学問です。
そのため、モデルが難解すぎて見ても理解できないものでも、データの予測精度が高ければ機械学習としては問題ありません。
最終的な判断を人間が行うかどうか
統計学と機械学習では、分析結果の最終的な判断を人間が行うかどうかが異なります。
統計学は、データ群の特徴や性質を説明することを最終目的としています。
そのため、統計学の分析結果を最終的に評価するのは人間です。
あらかじめ想定した仮説と分析結果を照らし合わせることで、分析精度の評価を行います。
一方機械学習は、人間がモデルの意味を理解できなくても、モデルの予測精度が高ければ良いと考えられています。
そのため、モデルの最終評価は予測精度の誤差によって判断され、人間の意思はモデルの評価に必要ありません。
必要なデータ数
統計学では一定数以上のデータを一度にまとめて解析します。
そのため、ある程度のデータ数が集まらないと、統計学的手法でデータ解析を行えません。
一方機械学習は、新しいデータが得られる度にモデルを更新してデータの予測を行います。
そのため、最初に用意されているデータが少なくても、機械学習を進められます。
統計学的分析手法の種類
ここからは、統計学的分析手法の種類について解説します。
線形回帰分析
線形回帰分析とは、ある数値の変動を別の数値を用いて説明する分析手法です。
例として、日毎の暖房使用時間について考えます。
「暖房の使用時間はその日の気温が低いほど長くなる」という仮説が立てられると、暖房の使用時間は下記の式で表せます。
「暖房の使用時間」 = 「係数」×「気温」+「定数」
線形回帰分析を活用すると、あるデータ群の性質を別のデータ群を用いて説明できます。
主成分分析
主成分分析とは、複数のデータ群から共通の特徴を抜き出し、ある一つのカテゴリに集約する分析手法です。
主成分分析を行うと、データの構造をシンプルにすることができます。
また、主成分分析はコンピューターの計算不可を下げる役割も果たします。
複数のデータ群をまとめて分析することは非常に複雑な作業で、コンピューターによる計算でも時間を要する可能性があります。
しかし、主成分分析を行うと煩雑なデータ群をシンプルに纏められるため、その後の分析の計算不可を減らすことが可能です。
クラスター分析
クラスター分析とは、大量のデータ群を数種類のグループやセグメントに分ける分析手法です。
クラスター分析は顧客分析や市場調査など、マーケティング業界でよく用いられます。
クラスター分析には、階層クラスター分析と非階層クラスター分析の2種類が存在します。
階層クラスター分析は、多数のデータ群を似ている特徴ごとに順番にまとめあげ、最終的に一つの大きなグループを作り上げる分析手法です。
階層クラスター分析は、あらかじめ決められた数のグループに、全てのデータ群を割り当てる分析手法です。
データ群の種類が少ない場合は階層クラスター分析、データ群の種類が多い場合は非階層クラスター分析がよく用いられます。
混合ガウス分析
混合ガウス分析は、大量のデータ群を分類する分析手法の一つです。
混合ガウス分析では、いくつかのガウス分布(正規分布)に様々な重み係数などを足し合わせて、元のデータ群に近いデータ群の作成を目指します。
元のデータ群に近似できた作成データの構成要素を調べることで、元のデータ群の特徴や性質の理解が可能です。
機械学習的分析手法の種類
ここからは、機械学習的分析手法の種類について解説します。
ニューラルネットワーク
ニューラルネットワークとは、人間の脳の仕組みを模倣した機械学習アルゴリズムです。
何層にも分かれている機械学習モデルにデータを入力することで、予測データの出力を得られます。
ニューラルネットワークで得られた出力と、実測データとの誤差を小さくするようにモデルをチューニングすることで、モデル精度を高めます。
ランダムフォレスト
ランダムフォレストとは、決定木と呼ばれる小さな学習モデルを複数つなぎ合わせることで、データ予測を行う機械学習アルゴリズムです。
機械学習にかけるデータに対して適切な数の決定木を構築することで、予測精度の高いモデルを構築できます。
XGBoost
XGBoostとは、決定木と勾配ブースティングを合わせた機械学習アルゴリズムです。
勾配ブースティングとは、ある学習器がうまく学習できなかった箇所を、別の学習器が重点的に学習できるようにするモデルです。
XGBoostを活用すると互いの欠点を補い合った決定木による機械学習を行えるため、高い精度のデータ予測を行えます。
SVM
SVM(サポートベクターマシン)とは、データ群を分割するように境界線を引くことでデータ予測モデルを構築する機械学習アルゴリズムです。
SVMは次元の大きいデータに対して高い識別精度を発揮し、最適化する必要のある値も少ないため、非常に汎用性の高い機械学習手法です。
まとめ
本記事では、統計学と機械学習のそれぞれの概要や統計学と機械学習の違い、統計学的分析手法の種類、機械学習的分析手法の種類について解説しました。
統計学と機械学習の明確な違いは、データ分析の目的です。統計学的手法と機械学習的手法を分類する際は、データ分析の目的に注目すると良いでしょう。
この記事を読んだ方にオススメの記事はこちら!
ベイズ統計とは 普通の統計との違いや最近注目されている理由とともに解説!