今回は、同じデータの分析にもかかわらず、少し見方を変えると分析結果が逆転してしまう「シンプソンのパラドックス」をご紹介していきます。
この記事を読むと、以下のことが分かるようになります!
この記事を読むと分かること
- シンプソンのパラドックスとは
- シンプソンのパラドックスの事例
最後まで楽しんで読んでください!
シンプソンのパラドックスとは?
シンプソンのパラドックスとは、1951年にE.H.シンプソンによって発表されたパラドックス(逆説)のことです。
具体的には、母集団と、母集団を分割した集団とでは、特徴や傾向が逆転してしまうことを指します。
なかなか言葉だけでは伝わりにくいと思いますので、具体例で考えてみましょう。
シンプソンのパラドックスの事例①テストの結果
とある高校で英語のテストを実施しました。
1組と2組の男女別の平均点を出すと、以下の通りになりました。
1組 | 2組 |
|
|
この結果をみると、1組も2組も「男子の方が女子よりも平均点が高い」ということが分かります。
では、1組と2組の結果を合算したらどうなるでしょうか。
計算すると、以下の通りになります。
1組&2組 |
|
なんと、どちらのクラスも男子の方が平均点が高かったにもかかわらず、全体で見ると女子の方が平均点が高いという結果になりました。
つまり、母集団(1組&2組)と母手段を分割した集団(1組、2組)で結果が異なるということです。
これが、集計の仕方で結果が180度変わってしまうシンプソンのパラドックスの具体例です。
シンプソンのパラドックスの事例②新薬の効果検証
もう一つ具体例を見てみましょう。
例えば新型ウイルスαとβに対して、2つの新薬A、Bをそれぞれ試したい場合を想定します。
それぞれの実験結果は以下の通りになりました。
表1:新型ウイルスαへの効果
効果あり | 効果なし | 合計 | |
新薬A | 80(91%) | 8(9%) | 88(100%) |
新薬B | 197(82%) | 42(18%) | 239(100%) |
表2:新型ウイルスβへの効果
効果あり | 効果なし | 合計 | |
新薬A | 154(69%) | 70(31%) | 224(100%) |
新薬B | 33(56%) | 26(44%) | 59(100%) |
上記の表を見ると、新薬Aのほうが効果ありの割合が高いです。
これだけ見ると、新型ウイルスα、βのどちらに対しても新薬Aのほうが新薬Bよりも効果的である、と言ってしまいたくなります。
しかし、ここで新型ウイルスα、βのどちらのデータを合算してみます。
表:表1と表2を合算したデータ
効果あり | 効果なし | 合計 | |
新薬A | 234(75%) | 78(25%) | 312(100%) |
新薬B | 230(77%) | 68(23%) | 298(100%) |
そうすると、新薬Bのほうが効果的だという結果になってしまいました。
このように部分的な解釈と全体的な解釈で大きく変わるのがシンプソンのパラドックスです。
シンプソンのパラドックスが起きる原因
シンプソンのパラドックスが起きる原因はいたってシンプルです。
起きる原因は、「A/B > a/b」「C/D > c/d」がそれぞれ成り立っているからと言って、「A+C/B+D > a+c/b+d」が成立するとは限らないからです。
今回、新薬の例でいうと、数学的な解釈をすべきところに、新薬の効果という因果的な解釈を加えてしまったことで矛盾をはらんだ解釈になってしまったといえます。
まとめ
シンプソンのパラドックスから学べることは、全く同じデータであっても、集計方法などが少し変わるだけで解釈も変わってしまう可能性があるということです。
ただし、一概に部分的な解釈が正しい、全体的な解釈が正しい、などと決めることはできません。
どちらが適切かは、あくまで状況によって変わってくるからです。
そこで、適切な利用ができるようにするためには、データリテラシーが必要になってきます。
シンプソンのパラドックのようにデータのトリックに惑わされないよう、日ごろから背景なども意識しながらデータを見ることが大切です。
↓この記事を読んだ方の多くは、以下の記事も読んでいます。