統計学

確率密度関数とは 離散型と連続型の違いや具体例とともに解説

確率密度関数の定義

連続型確率変数 X の確率分布が曲線 y=f(x)で与えられる時、y=f(x) を X の分布曲線といい、関数 f(x) を確率密度関数といいます。

確率密度関数を理解する前に

確率密度関数を理解する前には「連続型確率変数」「確率密度」「確率分布」とは何か理解する必要があります。

一番目に「連続型確率変数」について説明しますが、その前段として確率変数について説明します。

確率変数とは

確率変数とは「試行の結果によって値がランダムに定まり、各値に対応した確率が定まる変数」です。

確率変数には離散型と連続型があります。

離散型確率変数とは

離散型変数はサイコロの出る目のようにとびとびの値(=離散)になる変数です。

サイコロの出る目に1.5など小数点以下の値が出ることはありません。

サイコロを一度振った時の出目の確率は全て1/6になります。

これを上記で示した確率変数の定義に沿って書き直すと

「サイコロを一度振るという試行の結果によって(1~6)のいずれかの出目(=値)がランダムに定まり、各値に対して確率が定まる(=1/6)変数」

よってこの場合では(1~6)が(離散型)確率変数となります。

サイコロの例では各値が出る確率が全て1/6でしたが、同じでない場合もあります。

宝くじがその例です。

等によってくじの本数が異なるので、当たる確率も異なります。ここでは簡易的に扱うため、くじの内訳を以下にします。

くじは全部で10本

  • 一等1000円 1本→当選確率1/10
  • 二等500円  2本→当選確率1/5
  • 三等100円  7本→当選確率7/10

このくじを一本引いた時得られる金額を上記の定義に沿って書くと「一本くじを引くという試行の結果、いずれかの値(1000.500.100)がランダムに定まり、各値に対して確率が定まる(1/10、1/5、7/10)ような定数」、よってこの場合の1000、500、100も(離散型)確率変数となります。

連続型確率変数とは

連続型変数は物の重さや身長のように連続した値(=実数値)をとる変数です。

サイコロの出目と違うのは、連続した値をとることです。

サイコロや宝くじと同様に考えましょう。ここでは「日本人をランダムに一人選んだ時の身長」を扱うとします。

簡易的に扱うために日本人を10人にして、150cmの人が3人、152cmの人が4人…としたい所ですができません。

何故かというと厳密には150cmの人はいないからです。

通常身長を計測するとき150.2cmなど小数第一位までしか計測しませんし、実生活を送るにはそれで十分です。

しかし、とても精密な機械を使えば150.237...と小数第二位以下を計測することができます。

つまり日本人それぞれの身長は誰一人として厳密に同じにはなりません。

おおざっぱに表現すれば「精密な機械を使えば、小数点以下の桁がどこまでも測定できる変数(長さなどの物理量)=連続型確率変数」という認識で良いでしょう。

ここで再度確率変数についておさらいすると、「試行の結果によって値がランダムに定まり、各値に対応した確率が定まる変数」です。

今回の例では「日本人を一人選ぶという結果によって、その人の身長を測定することで値がランダムに定まり、各値に対応した確率が定まる(=1/約1億)変数」となります。

確率密度とは

ここからは、確率密度について詳しくご紹介していきます。

確率と確率密度

続いて二番目に確率密度について説明します。その前段として確率との違いを説明します。

上記の例で整理します。
・サイコロを一度振って1の目が出る確率→1/6
・くじをひいて一等が出る確率→1/10
・日本人を一人選んだ時に150cmの人を選ぶ確率→1/約1億

厳密には誰一人として同じ身長の人はいないため、3つめの例では確率の値が極端に小さくなってしまいます。

つまり連続型確率変数を扱うと、特定の値をとる確率はほぼ0になり、確率として意味がなくなってしまいます。

そこで、確率密度という「相対的な発生率」を表す概念を扱います。

確率密度の定義

確率密度とは「定義域内での確率変数Xにおける相対的な事象の発生しやすさ」を表します。

日本人の身長を確率変数Xとし、定義域を150~160cmとします。

150.0000・・・cmぴったりの人はいませんが150cm~160cmには多くの人が含まれることが想像できると思います。

日本人1億人として150cm~160cmの人が2000万人いるとすれば、確率密度は0.2となります。

確率分布とは

三番目に確率分布について説明します。

確率分布とは確率変数 X に対して、Xを満たす事象が発生する確率 (確率密度) との対応関係です。

確率分布は「離散型確率分布」と「連続型確率分布」の 2 種類があります。

離散型確率分布と連続型確率分布

・離散型確率分布とは確率変数Xが離散型である分布で、上記の例ではサイコロ、宝くじが該当します。
確率を縦軸とし、棒グラフで表現ができます。

・連続型確率分布とは確率変数Xが連続型である分布で、上記の例では日本人の身長が該当します。
確率密度を縦軸とし、曲線的に表すことができます。(曲線になるのは誰一人として厳密に同じ身長の人がいないためです)

連続型確率分布は、(グラフの線の下の総面積)=1 になります。確率は全ての事象を合わせると1になるためです。
そして連続型確率分布では、範囲積分をすることで、その範囲に該当する事象が起こる確率を求めることができます。

確率の求め方

離散型、連続型の分布で確率の求め方がそれぞれ異なります。

・離散型確率分布は縦軸が確率になっているので、該当する確率変数ごとの確率を足し算します。

上記の宝くじの例で言うと、くじを一回引いたときに500円以上もらえる確率は1/5+1/10=3/10 です。

・連続型確率分布では、範囲積分をすることで、その範囲に該当する事象が起こる確率を求めます。

上記の日本人の身長を選ぶ例で言うと、日本人をランダムに一人選んだ際に得られる身長をx[cm]とし、その確率密度関数がf(x)で与えられたとすると150~160cmの人が選ばれる確率PはP=∫_150^160〖f(x)〗dxで求められます。

以上で確率密度関数を理解する上で必要な説明が終わりました。

「連続型確率変数」「確率密度」「確率分布」について、まだ理解が不十分だと感じたら再度読み直してみてください。

確率密度関数の意味

今一度確率密度関数の定義について確認しましょう。

連続型確率変数 X の確率分布が曲線 y=f(x)で与えられる時、y=f(x) を X の分布曲線といい、関数 f(x) を確率密度関数といいます。

この定義の意味するところは、「変数と確率分布の関係を表す確率密度関数が与えられれば、範囲積分によって確率を求めることができる」ということです。

確率密度関数の例-正規分布

最も有名な連続型確率分布は正規分布です。

正規分布とは平均値と最頻値・中央値が一致し、それを軸として左右対称の釣り鐘のような見た目になっている確率分布です。

身長や体重、雨粒の大きさなど身の周りに存在する多くの連続確率変数が、正規分布に従うとされています。

また正規分布では以下のようにデータが分布しています。
・平均値との差が標準偏差内にデータ全体の7割弱が含まれている
・平均値との差が標準偏差の2倍以上あるデータは全体の5%未満である

まとめ

最後に要点をまとめます。

・連続型確率変数とは実数をとる物理量の変数
・確率密度関数が与えられれば、範囲積分によって確率を求めることができる
・確率密度関数の代表例は正規分布

<参考>
○https://manabitimes.jp/math/917 確率密度関数の意味と具体例
○https://univ-juken.com/kakuritsu-bunpu 確率分布・確率変数とは?公式や求め方をわかりやすく解説!
○https://atarimae.biz/archives/11707 連続型の確率変数って何?連続確率分布と確率密度関数を紐説く
○https://univ-juken.com/kakuritsu-mitsudo-kansu 確率密度関数とは?連続型確率変数の期待値・分散の求め方
○https://www.headboost.jp/what-is-probability-distribution/ 確率分布を誰でも理解できるようにわかりやすく解説
○https://data-viz-lab.com/normal-distribution 正規分布とは?初学者向けにわかりやすく解説

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス2年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。ヘビ飼育歴5年。 著書『これから学ぶ人のための統計学超入門』 寄稿実績:『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-統計学
-,