統計雑学

シンプソンのパラドックスとは 概要や具体例を分かりやすく解説

こんにちは。統計ブロガーのにっしーです。

今回は、同じデータの分析にもかかわらず、少し見方を変えると分析結果が逆転してしまう「シンプソンのパラドックス」をご紹介していきます。

この記事を読むと、以下のことが分かるようになります!

この記事を読むと分かること

  • シンプソンのパラドックスとは
  • シンプソンのパラドックスの事例

最後まで楽しんで読んでください!

シンプソンのパラドックスとは?

シンプソンのパラドックスとは、1951年にE.H.シンプソンによって発表されたパラドックス(逆説)のことです。

具体的には、母集団と、母集団を分割した集団とでは、特徴や傾向が逆転してしまうことを指します。

なかなか言葉だけでは伝わりにくいと思いますので、具体例で考えてみましょう。

シンプソンのパラドックスの事例①テストの結果

とある高校で英語のテストを実施しました。

1組と2組の男女別の平均点を出すと、以下の通りになりました。

1組2組
  • 男子:3名が10点 平均点10点
  • 女子:1名が5点 平均点5点
  • 男子:1名が20点 平均点20点
  • 女子:7名が15点 平均点15点

この結果をみると、1組も2組も「男子の方が女子よりも平均点が高い」ということが分かります。

では、1組と2組の結果を合算したらどうなるでしょうか。

計算すると、以下の通りになります。

1組&2組
  • 男子:1名が20点、3名が10点 平均点12.5点
  • 女子:1名が5点、7名が15点 平均点13.75点

なんと、どちらのクラスも男子の方が平均点が高かったにもかかわらず、全体で見ると女子の方が平均点が高いという結果になりました。

つまり、母集団(1組&2組)と母手段を分割した集団(1組、2組)で結果が異なるということです。

これが、集計の仕方で結果が180度変わってしまうシンプソンのパラドックスの具体例です。

シンプソンのパラドックスの事例②新薬の効果検証

もう一つ具体例を見てみましょう。

例えば新型ウイルスαとβに対して、2つの新薬A、Bをそれぞれ試したい場合を想定します。

それぞれの実験結果は以下の通りになりました。

表1:新型ウイルスαへの効果

 効果あり効果なし合計
新薬A80(91%)8(9%)88(100%)
新薬B197(82%)42(18%)239(100%)

表2:新型ウイルスβへの効果

 効果あり効果なし合計
新薬A154(69%)70(31%)224(100%)
新薬B33(56%)26(44%)59(100%)

上記の表を見ると、新薬Aのほうが効果ありの割合が高いです。

これだけ見ると、新型ウイルスα、βのどちらに対しても新薬Aのほうが新薬Bよりも効果的である、と言ってしまいたくなります。

しかし、ここで新型ウイルスα、βのどちらのデータを合算してみます。

表:表1と表2を合算したデータ

 効果あり効果なし合計
新薬A234(75%)78(25%)312(100%)
新薬B230(77%)68(23%)298(100%)

そうすると、新薬Bのほうが効果的だという結果になってしまいました。

このように部分的な解釈と全体的な解釈で大きく変わるのがシンプソンのパラドックスです。

シンプソンのパラドックスが起きる原因

シンプソンのパラドックスが起きる原因はいたってシンプルです。

起きる原因は、「A/B > a/b」「C/D > c/d」がそれぞれ成り立っているからと言って、「A+C/B+D > a+c/b+d」が成立するとは限らないからです。

今回、新薬の例でいうと、数学的な解釈をすべきところに、新薬の効果という因果的な解釈を加えてしまったことで矛盾をはらんだ解釈になってしまったといえます。

まとめ

シンプソンのパラドックスから学べることは、全く同じデータであっても、集計方法などが少し変わるだけで解釈も変わってしまう可能性があるということです。

ただし、一概に部分的な解釈が正しい、全体的な解釈が正しい、などと決めることはできません。

どちらが適切かは、あくまで状況によって変わってくるからです。

そこで、適切な利用ができるようにするためには、データリテラシーが必要になってきます。

シンプソンのパラドックのようにデータのトリックに惑わされないよう、日ごろから背景なども意識しながらデータを見ることが大切です。

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

統計検定3級の重要用語一気読み!【統計検定3級のキホン】

たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

統計検定2級の学習にオススメのコンテンツまとめ!

[PR]※本サイトには、プロモーションが含まれています。

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-統計雑学
-