今回は「ポアソン分布」について解説していきたいと思います!
この記事を読むと、以下のことが分かるようになります!
この記事を読むと分かること
- ポアソン分布が何を表している分布なのか
- どういう場面で使える分布なのか
最後まで楽しんで読んでください!
ポアソン分布とは?
ポアソン分布は、「一定期間内にある事象が起こる確率」を表している分布です。
この一言だけではどういった場面で使えるのか、いまいちピンと来ない人も多いと思いますが、詳細は後ほど紹介していくので、まずはポアソン分布のざっくりとした定義をおさえてもらえればと思います!
ポアソン分布は上の図のような形をしています。
基本的には右に裾が長い形をしていますが、λが大きくなるほど、左右対称の正規分布の形に近づいているように見えると思います。
「λが大きくなると正規分布に近づく」という性質は、ポアソン分布の大きな特徴の1つなので、ぜひ覚えてください!
λについての説明も後ほどするので、忘れないようにしてください!
離散型の確率変数が従う分布
ポアソン分布の特徴の1つは、「離散型の確率変数」が従う分布であるということです。
「離散型」とは、サイコロの目やコインの裏表、あるイベントが起きたか起きていないかなど、飛び飛びの値になっている場合を言います。
例えば、喫茶店の来客人数を数えたい場合には、基本的に1人、2人、3人…と数えていくので、「2.45人」といった少数点以下の値を取ることはできませんよね。
このような場面で、30分などの一定の時間内で喫茶店を訪れた客の人数がポアソン分布に従うとすると、30分間で喫茶店を訪れた人数ごとの確率を計算することができるようになります。
期待値と分散が同じ
ここで少し数式が出てきますが、ポアソン分布は上に示したような式で表すことができます。
xは喫茶店の来客人数といった、実際に確率を求める時に代入する値ですが、x以外にも文字がたくさんあって複雑なように見えますよね。
しかし、eは「自然対数」と呼ばれ、2.718…といった1つの値なので、実際にこちらで値を決めなければならないのはλだけになります。
正規分布やt分布は、「平均」と「分散」の2種類のパラメータと呼ばれる値を求めることで、分布を描くことができるようになりますが、ポアソン分布は1つのパラメータの値を決めてしまえば分布が描けてしまうので、他の分布よりも分かりやすいと言えると思います。
では、このλはいったい何を表しているのでしょうか?
実はこのλは、「平均」と「分散」両方を表しています!
これは他の分布にはない、ポアソン分布の大きな特徴です。
先ほどポアソン分布を一言で説明しましたが、もう少し説明を加えるとすると、ポアソン分布は「一定期間に平均λ回起こる事象がx回起こる確率」を表す分布で、「平均λ、分散λ」となる分布、といった感じでしょうか?
証明で平均と分散が同じ値になることを示すこともできますが、数式が多く難しくなってしまうので、ここでは「ポアソン分布の平均と分散は同じ値である」ということを覚えて貰えればと思います!
ポアソン分布と二項分布の関係
ポアソン分布にはもう1つ大事な性質があります。
少し難しい説明が続きますが、最後のポイントをしっかりおさえて貰えればと思います!
例えば、1年間にバイク事故に遭う確率について考えたい時に、1000人に調査を行ったところ、1000人中2人が過去1年の間にバイク事故に遭っていた場合、998人は「バイク事故に遭っていない」ということになります。
このような場合、アンケート調査ではバイク事故に遭う/遭わないのどちらかしか選べないので「ベルヌーイ試行」と呼ばれる試行を用いていることになります。
また、ベルヌーイ試行を複数回繰り返した時に、x回は成功、すなわちx人がバイク事故に遭ったと答えた時の分布は「二項分布」に従います。
先ほどの例では、1000人中2人がバイク事故に遭っているので、調査の結果1年間にバイク事故に遭う確率は2÷1000=0.002(0.2%)ということになります。
ここで、二項分布を用いた確率の計算には上のような式を用います。
試行回数nと発生確率pを算出して、二項分布の式に代入することによって、1年間にx回バイク事故に遭う確率を計算することができます。
ここからが本題です!
ベルヌーイ試行を行う回数nを10000回、100000回など非常に大きい値にして、発生確率p(発生した回数÷試行回数n)を非常に小さい値にすると、二項分布を表す式はポアソン分布を表す式に近似できることが知られています。
前部分の説明が長かったので理解がしづらい部分もあるかと思いますが、まずは、「一定期間内での発生確率が非常に小さい場面では二項分布がポアソン分布に近似される」ということを覚えてください!
数式を使って、二項分布がポアソン分布に近似されることを証明することもできますが、今回の記事では細かい証明は割愛します。
このような性質から、滅多に起こらないような事象が一定の期間で複数回発生する確率や、一度も発生しない確率などを計算する際にポアソン分布が有用であると言われています。
ポアソン分布の使い方を例で紹介!
それでは、ポアソン分布を使った確率計算の流れについて、例を用いながら紹介していきたいと思います!
今回は、今後5年間で大きな地震が発生する確率が何%あるのかを、ポアソン分布を使って予測してみたいと思います。
平均と分散を表すλを求める
架空のデータになりますが、過去10年間に関東で観測された震度5以上の地震が2回あったとします。
この情報を参考にすると、5年の間に平均して2÷2=1回の地震が発生していることになります。
これが、平均と分散を表すλにあたるので、今回の例ではλ=1を用いて計算を進めていきます。
5年以内に大地震が発生しない確率は?
過去の情報からλ=1ということが求められたので、λ=1をポアソン分布を表す式に代入すると、下の式のようになります。
この式を用いて計算することによって、今後5年間で震度5以上の地震が起きない確率、1回起きる確率、2回起きる確率…などを求めることができるようになります。
今回は、今後5年間で震度5以上の地震が一度も起きない確率を求めてみたいと思います。
「地震が起きない」ということは「地震が起こる回数が0回」ということなので、先ほどのポアソン分布の式のxに0を代入します。
計算をしていくと、今後5年間で震度5以上の地震が起きない確率は36.8%ということが分かりました。
今回は架空のデータを用いて確率を計算しましたが、実際に地震が起こる確率を計算する際にもポアソン分布を用いた計算を行っているそうなので、とても実用的な分布と言えると思います。
まとめ
今回は「ポアソン分布」について、分布の特徴や使い方を中心に解説しました。
ポアソン分布は二項分布とのつながりが強いということも紹介しましたが、統計学を勉強していると何かに近似できたりする場面は他にもあります。
こういった特徴も意識しながら勉強を進めていくと、さらに深く理解できるようになるので、是非覚えておきましょう。
↓この記事を読んだ方の多くは、以下の記事も読んでいます。