最近、本屋さんの統計本コーナーでもベイズ統計を扱った本が急激に増えてきているように感じます!
それほどベイズ統計が今世の中的にも注目を浴びていますが、なぜ今注目されているのでしょうか。
そもそもベイズ統計とは何なのでしょうか。
今回は、ベイズ統計が一体どんなものなのか、統計学初心者の方にも分かるように、分かりやすく解説していきます!
この記事を読むと分かること
- ベイズ統計とは
- 普通の統計とベイズ統計の違い
- ベイズ統計が注目されている理由
是非最後まで楽しんで読んでいただければ幸いです!
ベイズ統計とは
ベイズ統計とは、18世紀イギリスの数学者トーマス・ベイズによって提唱された「ベイズの定理」の考え方を応用した統計学です。
ベイズの定理とは、全く同じ事象が起きる場合でも事象が起きる状況が異なれば、その事象が起きる確率は異なることを主張した考え方です。
ベイズ統計の考え方は18世紀にほぼ完成されていたものの、推計統計学論者のフィッシャーらによって弾圧されていたため、1950年頃まで忘れられていました。
しかし、機械学習やビッグデータ分野の研究が進むにつれて、ベイズ統計は再び注目されるようになりました。
マイクロソフトの創業者であるビル・ゲイツは「マイクロソフトが競争優位に立っているのはベイズ・テクノロジーのおかげ」「21世紀はベイズの時代」と語っています。
ビル・ゲイツの言葉通り、現在ベイズ統計はビジネス分野からIT技術に至るまで、さまざまな領域で利用されています。
今回は、そんなベイズ統計についてご紹介していきます。
ベイズ統計は主観確率を扱う
ベイズ統計の大きな特徴は、主観確率を扱うことです。
主観確率とは、人それぞれで答えが異なる確率を指します。
主観確率について例を使って考えてみましょう。
例えば「自分の目の前を横切る車がタクシーである確率は?」という問題があったとします。
この問題に決まった答えはありません。
答えを5分の1だと思う人もいれば、10分の1だと思う人もいるでしょう。
このように問題に決まった答えが存在せず、人によって答えの値が異なる確率を主観確率と呼びます。
ベイズ統計では、主観確率の値を新しい出来事が起こる度にアップデートします。
確率のアップデートについて、今回の例を用いて考えてみましょう。
例えば、自分がいる場所の近くで結婚披露宴が行われており、参列者がちょうど帰っていくのを目撃したとします。
この光景を見る前、タクシーが横切る確率は10%であると考えていたとします。
しかし、結婚披露宴の参列者が帰っていく様子を見て、タクシーで帰る参列者もいるだろうと考え直し、タクシーが横切る確率を50%に変えたとしましょう。
この時、アップデート前のタクシーが目の前を横切る確率は10%です。
ベイズ統計では、アップデート前の確率を事前確率と呼びます。
そして、「近くで結婚披露宴が行われていたおり、参列者が帰っている最中」という情報を得て、アップデート後の確率は50%になりました。
ベイズ統計では、アップデート後の確率を事後確率と呼びます。
ベイズ統計では主観確率という考え方を用いて、事前確率と事後確率を新たな出来事が起こる度に計算し直し、あらゆるデータの分析を行います。
ベイズ統計と普通の統計の違い
先述したようにベイズ統計で求められる確率は、新しい出来事が起こる度に変化します。
一方、普通の統計で求められる確率の数値は、不変であることがほとんどです。
求められる確率が変化するかどうかが、ベイズ統計と普通の統計の大きな違いです。
ここからは求められる確率の違いによって生まれる、ベイズ統計と普通の統計の特性の違いについて解説します。
データの変化によって結果を更新できるかどうか
ベイズ統計と普通の統計の違いとして、データの変化によって結果を更新できるかどうかが挙げられます。
先述したように、ベイズ統計は新しい情報によって結果がアップデートされる統計です。
そのためデータが変化する度に、解析結果を柔軟に更新できます。
一方、普通の統計はデータの分析を行うために、一定以上のデータ数が求められます。
そのため、データの頻繁な変化には対応しきれません。
普通の統計でも、ある程度のデータが溜まれば新たな分析を行えます。
しかし、十分なデータ数を確保できないと、精度の高い分析はできません。
そのため、ベイズ統計ほど素早く柔軟にデータ変化に対応するのは、普通の統計では難しいです。
十分なデータ数が必要かどうか
ベイズ統計と普通の統計の違いとして、データ分析に十分なデータ数が必要かどうかが挙げられます。
ベイズ統計では新たな情報をその都度取り入れ、解析結果を更新することが可能です。
そのため、最初から十分なデータ数が揃っていなくても解析を始められます。
一方、普通の統計はデータ数が多ければ多いほど、詳細で高精度な分析が可能です。
しかし、データ数が十分でないと確からしい解析結果を得られません。
そのため、解析を始める前に十分な量のデータを確保しなければなりません。
ベイズ統計が注目されている理由
ビル・ゲイツがベイズ統計を絶賛しているように、現在ベイズ統計は統計学の中でも特に注目を浴びています。
ここからは、現在ベイズ統計が注目されている理由について解説します。
機械学習へ応用可能
先述してきたように、ベイズ統計は新しい情報を取り込みながら、結果を更新し続けることが可能です。
結果を更新し続けられるというベイズ統計の特徴は、機械学習へ応用できます。
ベイズ統計を機械学習に応用した代表例が、迷惑メールの判別機能です。
迷惑メールフォルダに存在するメールの文面から、迷惑メールに記載されている文章の法則性を見出し、それに基づいて迷惑メールの判断を下すのが、迷惑メール判別機能の主な仕組みです。
メールの文章から法則性を洗い出す作業は、メールが受信される度に行われます。
そのため、日々内容が変化し続ける迷惑メールに柔軟に対応し、迷惑メールかどうか適切な判別を行えます。
なお、ベイズ統計も普通の統計と同様に、データ数が多いほど解析精度が上がります。
そのため、迷惑メールの受信数が増えれば増えるほど、洗練された迷惑メールの判別が可能です。
ベイズ統計の機械学習への応用は迷惑メール判別以外にも、検索エンジンやアプリケーション開発などにも見られます。
ビッグデータ解析に効果的
ベイズ統計はビッグデータ解析にも効果的です。
ビッグデータとは、日常生活の中で測定できる膨大なデータのことを指します。
例として、気象観測データや電子マネー利用履歴、監視カメラの映像、音声データなどが挙げられます。
先述したようにベイズ統計の特徴は、計算される確率の値が更新されて変化する点です。
そのため、人々の行動や性質のような不確実性の高い事象に対しても、柔軟かつ精度の高いデータ解析を行えます。
そのためベイズ統計は、ビッグデータのような人々の行動履歴や性質が大きく絡んだデータ解析と相性が良いです。
なお、ビッグデータの解析の多くは、効果的なマーケティング方法を見つけるために行われます。
そのためビッグデータ解析において、人々の心理を適切に汲み取ることは重要です。
ベイズ統計をビッグデータ解析に利用することで、ビッグデータから確認にしたい特徴や性質を、適切に汲み取ることができます。
まとめ
本記事では、ベイズ統計の概要や普通の統計との違い、ベイズ統計が注目されている理由について解説しました。
機械学習を駆使した新たなツール開発やビッグデータ解析は、非常に活発に行われています。
機械学習やビッグデータ解析が応用される分野は、今後ますます増えていくでしょう。
機械学習やビッグデータ解析に深く関わるベイズ統計を学ぶことは、統計学についての知見を深めるだけでなく、ビジネスシーンの学びにもつながります。
そのため、ベイズ統計は学んでおいて損はない統計学と言えるでしょう。
本記事でベイズ統計や統計学に興味を持った方は、統計学についてぜひ学んでみてください!
↓この記事を読んだ方の多くは、以下の記事も読んでいます。