この記事では統計学でよく使われる自由度という概念について解説します。
統計学において、自由度はとても重要な概念といえます。
特に母集団の情報について推測を行う推測統計学の分野においては、サンプリングを行う度に自由度が変化することから、慎重に検証を行う必要があります。
この記事を読むと、以下のことが分かるようになります!
この記事を読むと分かること
- 自由度とは
- 不偏分散の自由度がn-1になる理由
是非最後まで楽しんで読んでいただければ幸いです!
自由度とは
自由度について厳密に理解をするためには数式を使った説明をする必要がありますが、数学的にかなり高度な内容になります。
したがって、多くの統計学の参考書では自由度についての厳密な数学的解説が載っていないことがほとんどです。
この記事においても、難解な数式を使わなくても理解できるような解説を行いたいと思います。
自由度の定義
自由度とは、「観測されたデータのうち、自由に値を決めることのできるデータの数」のことです。
例えば、a,b,cというデータを使って平均値を求める場合を考えてみましょう。
平均値について特に値が決められていなければ三つの変数には自由に値を入れることができます。
この場合は自由度3となります。
一方、平均値があらかじめ決められている場合を考えてみます。
今回は平均値が4と決められていたとしましょう。
その場合、a,b,cのうち、2つの変数までは自由に値を入れることができます。
しかし、平均値が4と決まっているため、最後の1つについては2つの変数を決定した時点で値が自動的に決まってしまいます。
例えば、aに3、bに5を入れた場合は,cの値は自動的に4と決定されます。(これらデータの平均は4になります。)
この場合は、自由に値を入れられるデータの数が2つであるため、自由度は2となります。
このように、平均値があらかじめ決められているなどの制約条件が増えると自由度は小さくなっていきます。
したがって、自由度とは「サンプルサイズから制約条件の数を引いた数」と言い換えることもできます。
そして、推測統計学においてサンプリングを行って算出された標本平均を使うことは、上記の例でいう平均値をあらかじめ決定することに該当します。
つまり、それが制約条件となることから、母集団を推定して分散を求めるときは自由度を小さくして計算することが必要になってきます。
不偏分散やt分布の自由度がn-1である理由
統計学でよく目にする、不偏分散やt分布は自由度がn-1であることが知られています。
不偏分散とはサンプリングされたデータを使用して母集団の分散を推定するために使われる分散のことですが、数式で表すと以下のようになります。
一方、母集団について推定を行わず、サンプルのみについて考えた標本分散は以下のとおりです。
2つの式を見比べてみると、標本分散の分母はnですが、不偏分散の分母はn-1となっています。
これは、母集団の推定を行わない場合は自由度がnであり、母集団の推定を行う場合は自由度がn-1となるためです。
なぜ、不偏分散の自由度がn-1になるかというと、分子で偏差平方和を求める際に、推計値である標本平均が使われているためです。
つまり、この標本平均は制約条件の一つにあたるため、「自由に決めることができる値の数」が一つ減ることから、自由度はn-1と表されます。
なお、t分布やχ2分布では自由度n-1になることが知られていますが、F分布などでは自由度n-2になることが知られており、自由度は必ずしもn-1とは限らないことにも注意が必要です。
不偏分散が自由度n-1となる直感的な理解
上記では不偏分散の自由度がn-1になることを説明しましたが、不偏分散の分母がn-1になる必要があることについて直感的な説明をします。
例えば、あるサンプリングされたデータが変数X1、X2、…、X5であった場合を考えてみましょう。
これらの変数を数直線で表したところ、以下のようになった場合を考えます。
ここでは母平均をμ、標本平均をx̄と表しています。
当然ですが、標本平均はサンプリングされたデータを使用して求められた平均値なので、普通は母平均とは一致しません。
この例では、母平均よりも標本平均の方が大きくなっている場合を考えます。
標本平均の方が大きいということは、観測されたデータが母平均よりも全体的に数直線上の右側に寄っていることがわかります。
したがって、標本平均と各データの値の偏差平方和は、母平均との偏差を使って計算した場合よりも小さくなります。
そして、これは分散の分子で行われている計算にあたることから、標本平均を用いて推定を行った場合、母集団の分散を過小評価していることになります。
したがって、分散の分子をn-1とすることで算出される値が標本分散に比べて大きくなることから、推定値としては標本分散よりも不偏分散の方が母集団の分散に近くなることが直感的に理解できるでしょう。
まとめ
実務においては自由度について深く考えなくとも、不偏分散などのよく知られている数式どおりに計算をすれば、母集団の推定を行うことはできます。
しかし、その根本的な原理を理解しておくことで、サンプリングを複数回行うような場合でも計算式が理解しやすくなるはずです。
また興味のある方は、より学術的な統計学の文献などを読んで理解を深めてみてはいかがでしょうか。
↓この記事を読んだ方の多くは、以下の記事も読んでいます。