統計トピック

シンプソンのパラドックスとは 集計方法を変えるだけで分析結果が逆転する、不思議な統計学

▼運営者イチオシのデータサイエンススクールはこちらから!▼

テックアカデミー無料体験

~オススメポイント~

  1. 初心者が9割以上なので安心!
  2. オンライン完結なので、仕事終わりに学べる!
  3. 受講生に1人ずつ現役プロのメンターがつく!
  4. スクールにありがちなしつこい勧誘がないので安心(←ココ重要!)
こんにちは。統計ブロガーのにっしーです。

今回は、同じデータの分析にもかかわらず、少し見方を変えると分析結果が逆転してしまう「シンプソンのパラドックス」をご紹介していきます。

この記事を読むと、以下のことが分かるようになります!

この記事を読むと分かること

  • シンプソンのパラドックスとは
  • シンプソンのパラドックスの事例

最後まで楽しんで読んでください!

シンプソンのパラドックスとは?

シンプソンのパラドックスとは、1951年にE.H.シンプソンによって発表されたパラドックス(逆説)のことです。

具体的には、母集団と、母集団を分割した集団とでは、特徴や傾向が逆転してしまうことを指します。

なかなか言葉だけでは伝わりにくいと思いますので、具体例で考えてみましょう。

シンプソンのパラドックスの事例①テストの結果

とある高校で英語のテストを実施しました。

1組と2組の男女別の平均点を出すと、以下の通りになりました。

1組2組
  • 男子:3名が10点 平均点10点
  • 女子:1名が5点 平均点5点
  • 男子:1名が20点 平均点20点
  • 女子:7名が15点 平均点15点

この結果をみると、1組も2組も「男子の方が女子よりも平均点が高い」ということが分かります。

では、1組と2組の結果を合算したらどうなるでしょうか。

計算すると、以下の通りになります。

1組&2組
  • 男子:1名が20点、3名が10点 平均点12.5点
  • 女子:1名が5点、7名が15点 平均点13.75点

なんと、どちらのクラスも男子の方が平均点が高かったにもかかわらず、全体で見ると女子の方が平均点が高いという結果になりました。

つまり、母集団(1組&2組)と母手段を分割した集団(1組、2組)で結果が異なるということです。

これが、集計の仕方で結果が180度変わってしまうシンプソンのパラドックスの具体例です。

シンプソンのパラドックスの事例②新薬の効果検証

もう一つ具体例を見てみましょう。

例えば新型ウイルスαとβに対して、2つの新薬A、Bをそれぞれ試したい場合を想定します。

それぞれの実験結果は以下の通りになりました。

表1:新型ウイルスαへの効果

 効果あり効果なし合計
新薬A80(91%)8(9%)88(100%)
新薬B197(82%)42(18%)239(100%)

表2:新型ウイルスβへの効果

 効果あり効果なし合計
新薬A154(69%)70(31%)224(100%)
新薬B33(56%)26(44%)59(100%)

上記の表を見ると、新薬Aのほうが効果ありの割合が高いです。

これだけ見ると、新型ウイルスα、βのどちらに対しても新薬Aのほうが新薬Bよりも効果的である、と言ってしまいたくなります。

しかし、ここで新型ウイルスα、βのどちらのデータを合算してみます。

表:表1と表2を合算したデータ

 効果あり効果なし合計
新薬A234(75%)78(25%)312(100%)
新薬B230(77%)68(23%)298(100%)

そうすると、新薬Bのほうが効果的だという結果になってしまいました。

このように部分的な解釈と全体的な解釈で大きく変わるのがシンプソンのパラドックスです。

シンプソンのパラドックスが起きる原因

シンプソンのパラドックスが起きる原因はいたってシンプルです。

起きる原因は、「A/B > a/b」「C/D > c/d」がそれぞれ成り立っているからと言って、「A+C/B+D > a+c/b+d」が成立するとは限らないからです。

今回、新薬の例でいうと、数学的な解釈をすべきところに、新薬の効果という因果的な解釈を加えてしまったことで矛盾をはらんだ解釈になってしまったといえます。

まとめ

シンプソンのパラドックスから学べることは、全く同じデータであっても、集計方法などが少し変わるだけで解釈も変わってしまう可能性があるということです。

ただし、一概に部分的な解釈が正しい、全体的な解釈が正しい、などと決めることはできません。

どちらが適切かは、あくまで状況によって変わってくるからです。

そこで、適切な利用ができるようにするためには、データリテラシーが必要になってきます。

シンプソンのパラドックのようにデータのトリックに惑わされないよう、日ごろから背景なども意識しながらデータを見ることが大切です。

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

統計検定3級の重要用語一気読み!【統計検定3級のキホン】

たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

統計検定2級の学習にオススメのコンテンツまとめ!

データ分析を学びたい方へ

最後まで読んでいただきありがとうございます!管理人のにっしーです!

私は現在、フリーランスとしてデータ分析の仕事をしています。

しかし最初は、未経験スタートだったので、周囲との差もあり非常に大変な思いをしました。。

もし今転職をやり直すならば、あらかじめスクールに通って、ある程度知識を付けたうえで転職すると思います。

データ分析を仕事にしたい方は、一度データミックスの無料説明会に参加してみるのがオススメです!

国内最大級のデータ分析スクールならではの、様々なお話を聞くことができます!

話を聞くだけでも、自分のキャリアを考えるいいキッカケになると思いますよ!


▼無料で説明会に参加したい方は、以下のURLから!▼
無料オンライン説明会/講座開催中【datamix -データミックス-】
~オススメポイント~

  1. 実務で役立つスキルが身につく!
  2. 参加無料の説明会、体験会がある!
  3. スクールにありがちなしつこい勧誘がないので安心!(←ココ重要!)
  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計トピック
-