統計学

二項分布とは 性質を正規分布との違いとともに解説

▼運営者イチオシのデータサイエンススクールはこちらから!▼

テックアカデミー無料体験

~オススメポイント~

  1. 初心者が9割以上なので安心!
  2. オンライン完結なので、仕事終わりに学べる!
  3. 受講生に1人ずつ現役プロのメンターがつく!
  4. スクールにありがちなしつこい勧誘がないので安心(←ココ重要!)
こんにちは!統計ブロガーのにっしーです!

いきなりですが、皆さんは二項分布をご存じですか。

統計学の確率分布のなかで、正規分布に次ぐほどよく出てくる分布が二項分布です。

二項分布は他の確率分布と比べてシンプルな形をしており、数学的にも理解しやすい確率分布です。

しかし、シンプルでありながら日常的な現象への応用が利きやすく、とても汎用性の高い確率分布といえます。

今回はそんな二項分布について、なるべく初心者の方でも分かりやすいように解説していきます!

是非この機会に知識を身につけておきましょう!

この記事を読むと分かること

  • 二項分布とは
  • ベルヌーイ試行とは
  • 二項分布の確率質量関数
  • 二項分布の期待値と分散
  • 正規分布との違い

最後まで楽しんで読んでいただけますと幸いです!

二項分布

二項分布について理解するためには、まずその根底をなしているベルヌーイ試行についてしっかりと理解をしておく必要があります。

ベルヌーイ試行とは

ベルヌーイ試行とは、「成功か失敗か」などの2種類の結果しか得られないような試行のことです。

例えば、「コインを投げて表が出るか、裏が出るか」などが代表的な例として挙げられます。

この名前は、17世紀にこれらの試行を研究していたスイスの数学者ヤコブ・ベルヌーイから名付けられました。

そしてこのベルヌーイ試行は、以下3つの条件を満たす必要があると定義されています。

  1. 結果が2種類しか得られない
  2. 各試行は独立である(互いに影響を与えない)
  3. 成功確率(および失敗確率)が一定である

まず1つ目の「結果が2種類しか得られない」については、上述のとおり「失敗か成功か」「表が出るか、裏が出るか」などの2種類の結果しか得られないような状況をさしています。

そして、2つ目の「各試行は独立である」については、各試行は別な試行の結果から一切の影響を受けないことを意味しています。

例えば、コインを何度も投げて表が出るか裏が出るか観測する実験を行ったとしましょう。

この場合、ひとつ前の試行でコインを投げたときにその結果が表であろうが裏であろうが、次の試行でコインを投げたときの結果に全く関係がない、影響を及ぼさないことが直感的に理解できるかと思います。これらの各試行が影響を与え合わないことを「独立である」と表現します。
最後に、3つ目の「成功確率が一定である」については、何度も試行を行った際にその成功確率が変化しないことを示しています。

例えば上記のコインを何度も投げる実験を行う場合でいえば、同じコインを使っている限り表と裏が出る確率は変化せずに一定であることがイメージできるでしょう。

そして二項分布は、上記3つの条件を満たしているベルヌーイ試行を前提とした確率分布です。

二項分布とは

二項分布は、上記のベルヌーイ試行を何度か繰り返したときに、成功が何回起きるかを表している確率分布です。

例えば、「コインを10回投げて、表が6回出る確率」や「当選確率が15%のくじを30回やったときに3回当たりを引く確率」などについて、二項分布を使うことで調べることができます。

二項分布の確率質量関数

二項分布の確率質量関数は以下の式で表すことができます。

ここで、nは試行回数、kは成功回数、pは各試行で成功の結果を得る確率、1-pが失敗の結果を得る確率となります。

ベルヌーイ試行はお互いに独立しているため、成功した回数と失敗した回数でそれぞれpと1-pをその試行回数の分だけ乗算し、コンビネーションを使って組み合わせのパターンを考慮することで上記のような簡単な形で表すことができます。

例えば「コインを10回投げて、表が6回出る確率」を求める場合であれば、n=10、k=6、コインは表裏が出る確率が五分五分であるとすればp=1-p=0.5となるため、求める確率は以下のようになります。

二項分布の期待値と分散

二項分布の期待値と分散は以下のようになります。

期待値

分散

導出方法については省略いたしますが、期待値、分散ともにかなりシンプルな形で表されることがわかると思います。

例えば、「コインを連続して10回投げる実験」を考えてみましょう。

この場合は、試行回数nが10であり、成功確率pが0.5であることから、表の出る回数である確率変数Xの期待値は以下のようになります。

この結果が意味するところは、コインを10回投げる実験をした場合は平均的に5回表がでることが期待できるということです。

正規分布との違い

統計学においては、二項分布と並んで有名な確率分布の一つに正規分布があげられます。

正規分布は連続的な変数に関する確率分布であり、二項分布は離散的な変数に関する確率分布であるため、両者には明確な違いがあります。

しかし、二項分布は試行回数nが十分大きいとき、正規分布で近似できることがわかっています。

この法則はド・モアブル-ラプラスの定理として知られており、標準化統計量Zを用いて以下のようにあらわされます。

また、この近似を用いることで試行回数がとても大きい実験などについて計算が容易になります。

例えば、「コインを2500回投げるときに、表が1290回以上出る確率」を求めるような場合を考えてみましょう。

この場合、表が出る回数Xは二項分布に従うことになりますが、上記の確率を求めようとすると莫大な計算量をこなさなければなりません。

しかし、nが十分大きいためこの場合は正規分布で近似できることから、ド・モアブル-ラプラスの定理より標準化統計量Zが以下の通りであることがわかります。

P(X≧1290)=P(Z≧1.6)であることから、標準化正規分布表で調べると求める確率は約0.055であることが簡単にわかります。

このように、二項分布は正規分布で近似することによって大きなメリットが得られます。

まとめ

今回は二項分布について解説をしました。

二項分布はシンプルかつわかりやすい形をしていますが、正規分布と組み合わせることで非常に汎用性が高くなることがわかると思います。

まさに、統計学においては欠かすことのできない重要な確率分布であるといえるでしょう。

参考サイト)https://manabitimes.jp/math/1107

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

統計検定3級の重要用語一気読み!【統計検定3級のキホン】

たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

統計検定2級の学習にオススメのコンテンツまとめ!

データ分析を学びたい方へ

最後まで読んでいただきありがとうございます!管理人のにっしーです!

私は現在、フリーランスとしてデータ分析の仕事をしています。

しかし最初は、未経験スタートだったので、周囲との差もあり非常に大変な思いをしました。。

もし今転職をやり直すならば、あらかじめスクールに通って、ある程度知識を付けたうえで転職すると思います。

データ分析を仕事にしたい方は、一度データミックスの無料説明会に参加してみるのがオススメです!

国内最大級のデータ分析スクールならではの、様々なお話を聞くことができます!

話を聞くだけでも、自分のキャリアを考えるいいキッカケになると思いますよ!


▼無料で説明会に参加したい方は、以下のURLから!▼
無料オンライン説明会/講座開催中【datamix -データミックス-】
~オススメポイント~

  1. 実務で役立つスキルが身につく!
  2. 参加無料の説明会、体験会がある!
  3. スクールにありがちなしつこい勧誘がないので安心!(←ココ重要!)
  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計学
-,