データ分析 統計学

点推定とは 概要や推定の手順を分かりやすく解説

こんにちは!統計ブロガーのにっしーです!

今回は、統計学で頻繁に出てくる推定という考え方についてのお話です。

統計学における推定とは、サンプリングして得られた標本から母集団の特徴を推定することです。

そして、その推定方法には「点推定」と「区間推定」の2種類があげられます。

この記事では、点推定の定義や使用例、区間推定との違いについて解説していきます。

この記事を読むと分かること

  • 点推定とは
  • 点推定の活用事例
  • 区間推定との違い

是非最後まで楽しんで読んでいただければ幸いです!

点推定とは

ここからは、点推定の定義や使用場面、区間推定との違いについて解説していきます。

点推定の定義

点推定とは、推測統計学における推定方法の一つです。

そもそも推測統計学における推定とは、ある母集団から標本を抽出し、それらを使って母集団を特徴づける母数(平均値など)を推定することです。

その中でも点推定は、標本から求められた一つの値を推定量として使用する方法です。

点推定で推定される代表的な母数としては、平均値や中央値、最頻値などがあげられます。

また、点推定による推定値はその記号の上に「^(ハット)」を付けて表記されるのが一般的です。

例えば、ある母集団からサンプリングされた100個の観測データがあるとします。

そして、それらの標本から母集団の平均値を推定する場合は、以下のように推定量xを計算します。

このように、点推定ではただ一つの値で母数を推定することが特徴的です。

点推定の使用例

ここでは例として、最もよく見かける母平均の点推定について考えてみましょう。

母平均の点推定においては、大数の法則により標本のサイズが大きければ大きいほど、標本から得られた推定値が母平均に近くなる特徴があります。

例えば、日本人成人男性の平均身長を調べたいときに、100人の標本データを使って標本平均を算出して母平均を推定するよりも、10,000人の標本データを使って推定する方が算出される値が母平均に近づいていくことは直感的にも理解しやすいかと思います。

しかしながら、その推定量は標本を使って求められている以上、母平均と完全に一致しないことが考えられるでしょう。

そこで、推定量がどれくらい正しいのかを標準誤差を使って確認することができます。

標準誤差とは、推定量の標準偏差であり、推定量そのもののばらつきを表す指標です。

この標準誤差はStandard Errorの略称でSEと表記されることがよくあるため覚えておくとよいでしょう。

そして、この値が小さければ小さいほど、推定量はばらつきが小さくなり精度が高いといえます。

中心極限定理より、母平均μ、分散σ2の母集団からサンプルサイズnの標本を抽出した時、確率変数である標本平均の確率分布は、平均μ、分散σ2/nの正規分布にサンプルサイズが大きくなるほど近づいていくことが知られています。

ここでは標本の分散ではなく不偏分散S2を用いることで、標本平均の標準偏差である標準誤差は以下のように表すことができます。

なお、この式ではnが分母にあることから、サンプルサイズが大きくなればなるほど、標準誤差の値が小さくなっていくことがわかるでしょう。

区間推定との違い

一方で、区間推定という手法もあります。

点推定だけでは不十分な場合は、この区間推定の手法がよく使われます。

区間推定の方が数学的に厳密な方法ですが、計算のコストは点推定よりも大きくなります。

点推定がある一つの値を推定値として採用していたのに対し、区間推定では母数が入る区間を推定します。

このような区間は、統計学では信頼区間と呼ばれています。

信頼区間がよく使われる例として、母平均の区間推定をする場合を考えてみましょう。

母平均の区間推定を行う場合「90%信頼区間」や「95%信頼区間」、「99%信頼区間」などと表記されることがよくあります。

例えば、95%信頼区間は「母集団から標本を抽出し、母平均の区間を推定する取り組みを100回繰り返したところ、そのうち95回はその区間に母平均が入ることが期待できる」という意味になります。

ここで注意したいのが、この信頼区間の95%というのは、母平均がその区間に含まれる確率を表しているわけではないことです。

母平均はまだ知られていないだけで、本来は既に決まっている値です。

したがって、95%信頼区間は「得られた標本のもとで推定された信頼区間の中に95%の確率で母平均が入る」という意味ではありませんので、注意が必要です。

また、この95%などの数字は信頼水準と呼ばれており自分で好きに設定することができます。

例えば、信頼水準90%の場合であれば、信頼区間の幅が狭くなりますが100回中10回は母平均が含まれない範囲を指定することになってしまうため、信頼度が下がります。

逆に、信頼水準99%の場合であれば、信頼度は上がりますが信頼区間の幅は広くなってしまいます。

このように信頼区間の幅と信頼度はトレードオフの関係になっており、どれくらいの精度を求めるのかによって信頼水準を適切な数値に設定することが重要です。

まとめ

点推定は値をピンポイントで母数の推定を行うのに対し、区間推定は範囲を指定してその中に母数が入っているとする推定方法でした。

点推定は一般的に理解しやすく計算コストが少ない場合が多く、その一方で区間推定は数学的な厳密性を持たせたい場合に向いています。

母数の推定を行う際には、2つの手法のメリット・デメリットを考慮したうえで、どちらが適切なのかを判断すると良いでしょう。

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-データ分析, 統計学
-, ,