今回は、最近よく聞く統計学の一種であるベイズ統計についてご紹介いきたいと思います!
この記事を読むと分かること
- ベイズ統計とは
- ベイズ統計の活用例~迷惑メールの判別~
是非最後まで楽しんで読んでください!
ベイズ統計と迷惑メール
ベイズ統計とは、18世紀イギリスの数学者トーマス・ベイズによって提唱された「ベイズの定理」の考え方を応用した統計学です。
「ベイズの定理」を応用することで、過去のデータを活用し、未来に起きる事象を推定できます。
ベイズ統計の活用事例
このベイズ統計は、様々なところで活用されています。
たとえば、以下の例が挙げられます。
機械学習
ベイズ統計は新しい情報を取り入れながら、結果を更新し続けられるため、様々な機械学習に応用されています。
検索エンジン
ベイズ統計を使用したフィルタリングを採用することで、検索速度や精度を向上させています。
アプリケーション開発
ベイズ統計は、アプリ開発にも活用されており、たとえばマイクロソフトやLINEスタンプなどにも応用されています。
迷惑メールの判別にもベイズ統計は使われている
ベイズ統計が使われている場面の代表例として、「迷惑メールの判別(フィルタリング機能)」があります。
迷惑メールは、全てのメールのうち約35%を占めているといわれています。
※総務省:電気通信事業者10社の全受信メール数と迷惑メール数の割合(2022年9月時点)より
迷惑メールの対策として、フィルタリング機能が活用されており、大量に送付されるスパムメールなどを自動で迷惑メールとして振り分けます。
そのフィルタリング機能は「ベイズの定理」にもとづいています。
過去のメールを分析することで、受信したメールが通常なのか、迷惑なのかを判別しています。
また、データが蓄積されることで、判別の精度はどんどん向上していきます。(ベイズ更新と言います)
具体的には、以下の流れで判別されています。
- 過去に受信したメールを通常と迷惑メールに分類
- 過去の迷惑メール内に含まれる「キーワード」を分析
- ある「キーワード」が通常と迷惑メールに含まれる割合(出現確率)を計算
- 新たに受信したメールにある「キーワード」が含まれていた場合、ベイズの定理より迷惑メールである確率を計算
→迷惑メールである確率が高い場合、迷惑メールとして判別する - 判別結果は①、②の追加情報として活用
→ある「キーワード」が迷惑メールに含まれる割合(出現確率)が上がり、判別の精度が向上する
このように、過去のメールを活用することで、迷惑メールに含まれる「キーワード」を把握し、新たに受信したメールに「キーワード」が含まれた場合に、迷惑メールであるかどうかを判別できます。
迷惑メールの判別手順(ベイズ定理の計算)
ここからは、迷惑メールの事例をもとに、具体的な判別手順(ベイズ定理の計算)について解説します。
◆事例:メール本文に「URL」が含まれている場合、迷惑メールである確率は?
※本来は複数の単語が含まれていますが、単純化のため一語とします。
◆前提条件
過去に受信したメールより、以下の2つの条件が事前に分かっていたとします。
- 条件1:通常メールの確率は65%、迷惑メールの確率は35%
- 条件2:通常メールに「URL」が含まれる確率は15%、迷惑メールに「URL」が含まれる確率は60%
手順①:通常、迷惑メールに判定時の「URL」を含む確率を計算する
前提条件1、2より、通常または迷惑メールに判定した時、「URL」を含む確率を計算します。
A:通常メールと判定した時、「URL」を含む確率
0.65×0.15=0.0975=9.8%
→全メールにおける65%の通常メールの内、9.8%は「URL」を含んでいる
B:迷惑メールと判定した時、「URL」を含む確率
0.35×0.6=0.21=21.0%
→全メールにおける35%の迷惑メールの内、21%は「URL」を含んでいる
C:通常、迷惑メール関係なく、全メールの内「URL」を含む確率
0.0975+0.21=0.3075=30.8%
手順②:「URL」が含まれる場合の迷惑メールである確率を計算する
手順①より、全メールの内「URL」を含む確率(C)と迷惑メールと判定した時、「URL」を含む確率(B)より、「URL」が含まれる場合の迷惑メールである確率を計算します。
B/C=0.21/0.3075=0.6829=68.3%
以上より、メール本文に「URL」を含む場合、迷惑メールである確率は、68.3%となります。
前提条件では、迷惑メールである確率は35%と設定していました。
そこから、「URL」を含む場合を計算することで、迷惑メールである確率を68.3%まで向上させることができました。
この計算(ベイズの定理)によって、迷惑メールと判別することが可能になります。
まとめ
本記事では、ベイズ統計と迷惑メールの関係や、ベイズの定理を用いた迷惑メールの具体的な判別手順について解説しました。
ベイズ統計は、今回解説した迷惑メールの判別のように、身近なところで活用されています。
今後、機械学習などの分野が発達していくために、ベイズ統計は必要不可欠なものといえます。
是非この機会に詳しく学んでみてはいかがでしょうか。