いきなりですが、皆さんは「とある統計学者がパン屋の不正を見抜いた話」をご存知でしょうか。
- パン屋がどんな悪いことしたの?
- パン屋の不正と統計学、どう関係あるの?
と疑問に思う方もおられるかもしれません。
この話は、バード・K・ホランド著作の「確率・統計で世界を読む」に紹介されていますが、逸話のようです。
しかし、正規分布のイメージをつかむのに最適な、興味深い話です。
パン屋がどんな不正をはたらいたか、どうやってその不正を見抜いたのかを学びながら、統計学の知識を深めていきましょう!
この記事を読むと、以下のことが分かるようになります!
この記事を読むと分かること
- ポアンカレの逸話
- 正規分布の使い方イメージ
ポアンカレとは
(引用)https://commons.wikimedia.org/wiki/File:Henri_Poincar%C3%A9-2.jpg?uselang=ja
ジュール=アンリ・ポアンカレ(1854-1912)は、フランスの数学者です。
位相幾何学の分野で、トポロジーの概念を発見し、ポアンカレ予想など、幾何学分野において大きな功績を残しました。
ポアンカレ予想
ポアンカレ予想は、アメリカのクレイ数学研究所が100万ドルの懸賞金をかけた7つの「ミレニアム問題」のうちの1つです。
のちに、ロシアの数学者ペレルマンによって、この証明が正しいことが確認され、ポアンカレ予想は発表からほぼ100年後に解決されました。
最後の万能学者
ポアンカレは、幾何学以外の幅広い分野でも功績を残しました。
数学、数理物理学、天体力学などで重要な基本原理を確立し、「最後の万能学者」とも呼ばれています。
しかし、それぞれの学位論文は正確ではないところも多く、ほかの数学者にその曖昧さを指摘されています。
これに対しポアンカレは「数学者とは不正確な図を見ながら、正確な推論のできる人間のことである」と述べており、直感を信じるタイプだったようです。
そんなポアンカレがパン屋の不正を見抜いた、というのはどんな話なのでしょうか。
ポアンカレがパン屋の不正を見抜いた話
ポアンカレは、あるパン屋で1000gのパンを毎日買っていました。
そのパンの重さを疑ったポアンカレは、パンの重さを記録していったのです。
1年後、パンの重さの分布をグラフにしたところ、きれいな正規分布ができあがりました。
(※正規分布についてはこちらの記事をご覧ください)
1000gのパンをつくるには、1000gより少し重くなったり、軽くなったり、当然してしまうものです。
ただ、10g、20gの小さな誤差はあっても、100gのような大きな誤差はなかなかおこりません。
つまり、重いパンも軽いパンも同じぐらいできて、平均値に近いパンが多くできる正規分布の形になります。
ただ、今回の問題はパンの重さの平均値です。1000gで売られていたにも関わらず、1年間記録したデータは950gだったのです。
「たまたま小さいパンを選んでいたのでは?」
「たまたま計量器が50g分ズレていた」
2,3個のパンならごまかせたかもしれませんが、1年間も記録していたともなると返す言葉がありません。
標本の数の大切さも分かるいい事例ですね。
改善されていないことをグラフで見抜く
さて、この話はまだ終わりではありません。
ポアンカレは、パン屋に注意はしたものの、その後もパンの重さを記録しつづけました。用心深いですね。
そのデータの分布をまたグラフにしてみたところ、正規分布ではなくなっていました。
左右対称ではなく、頂点は950gのまま。平均値は950gより少し重い。
きわめつけは軽いパンのデータがない、という不自然なグラフになっていたのです。
ポアンカレは、このグラフから以下のことを推測しました。
- パン屋は改善することなく950gのパンを作りつづけている。
- 指摘されないように、ポアンカレには大きなパンを渡している。
このグラフをもとに、ポアンカレはパンの重さが改善されていないことを見抜きました。
パン屋の主人はさぞかし驚いたことでしょう。
正規分布とは
「ポアンカレがパン屋の不正を見抜いた話」から学べることは、正規分布の形が崩れている場合、何らかの異常が起きているかもしれない、ということです。
自然界や世の中のさまざまな現象に当てはまる分布のため、正規分布とよばれています。
正規分布は統計学において、代表的かつもっとも重要な確率分布です。
(詳しく知りたい方は、統計学でよく聞く正規分布とは何かで解説していますのでご覧ください。)
ここでは簡単に解説します。
正規分布には、大きく分けて以下の2つの特徴があります。
正規分布の特徴
- 左右対称の釣鐘型をした確率分布
- 全体の何%を占めるかが「平均±標準偏差」で分かる
正規分布は左右対称の釣鐘型
正規分布は、左右対称の釣鐘型をした確率分布です。
横軸は確率変数、縦軸は確率密度。この釣鐘型のかたちは、平均値と標準偏差で決まります。
標準偏差とは、データが平均値の周辺でどれくらいばらついているかを表します。
データのばらつきが大きいとなだらかな山になり、ばらつきが小さいと尖った山になります。
全体の何%を占めるか「平均±標準偏差」で分かる
標準偏差がわかれば、その範囲にどれくらいのデータが含まれているかが分かります。
- 平均±標準偏差の範囲中に全体の約68%
- 平均±2×標準偏差の範囲中に全体の約95%
- 平均±3×標準偏差の範囲中に全体の約99.7%
以上の特徴を踏まえた上で、具体的な正規分布の例をみてみましょう。
正規分布である「偏差値」
偏差値とは、50を集団の平均値として、平均からどれくらいの差があるか表した数値です。
一般的なテストでは通常25~75の範囲におさまりますが、計算上、100以上や0を下回りマイナスになる場合もあります。
偏差値 | 上位何% |
75 | 0.62% |
70 | 2.28% |
65 | 6.68% |
60 | 15.87% |
55 | 30.85% |
50 | 50.00% |
45 | 69.15% |
40 | 84.13% |
35 | 93.32% |
30 | 97.72% |
25 | 99.37% |
偏差値は下記の式で計算されます。
偏差値=(得点―平均点)÷標準偏差×10+5
同じ点数でも、平均値と標準偏差が異なれば偏差値が変わってきます。
点数や順位にかかわらず、集団の中で自分の学力がどれくらいの位置にあるか知ることができるのが偏差値のメリットです。
偏差値62で上位10%、偏差値66で上位5%というのが正規分布から読み取れます。
(もっと詳しく知りたい方は、偏差値とは何?で解説してますのでご覧ください。)
正規分布ではない「平均年収」
平成29年国民生活基礎調査の概要によると、平成28年の1世帯当たり平均所得金額は、560.2万円でした。
年収別 | 割合(%) |
100万円以下 | 5.6 |
100万円超~200万円 | 12.3 |
200万円超~300万円 | 13.3 |
300万円超~400万円 | 13.8 |
400万円超~500万円 | 10.6 |
500万円超~600万円 | 8.9 |
600万円超~700万円 | 7.4 |
700万円超~800万円 | 6.2 |
800万円超~900万円 | 5.6 |
900万円超~1,000万円 | 3.6 |
こちらはヒストグラムのグラフになりますが、平均値が560.2万円に対して、中央値が442万円です。
その中央値より低い金額の幅はせまく、高い金額の幅は広くなっています。
正規分布の特徴で紹介した左右対称のグラフにはなりません。
正規分布はとても重要
ポアンカレは、正規分布をもとにパン屋がサイズをごまかして販売していることを見抜きました。
このように正規分布は解析に役立つため、多くのビジネスの現場でも活用されています。
工業製品の品質管理を行ったり、臨床検査で使われたり重要な役割を果たしています。
統計学を学ぶ上でも正規分布はとても重要になりますので、しっかり理解しておきましょう。
↓この記事を読んだ方の多くは、以下の記事も読んでいます。