いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。
擬似相関は、”見せかけの相関”ともいわれる、うっかりしていると私たちが騙されてしまうような統計のトリックです。
今回は、
「そもそも擬似相関とは何か?」
「擬似相関には相関関係や因果関係はあるの?」
「どんな具体例があるの?」など、
擬似相関についてご紹介していきたいと思います。
警察官が増えると、110番通報が増える?
以下のデータは、各都道府県の警察官定員と刑法犯検挙件数の散布図です。
(警察庁:https://www.npa.go.jp/hakusyo/r01/honbun/html/vs300000.html)
このデータだけを見ると、数字のうえでは、警察官定員が多ければ多いほど刑法犯検挙件数も多くなる、いわば比例関係になっていることが分かります。
相関係数も約0.96となっており、かなり強い正の相関関係があることが分かります。
では、警察官定員と検挙件数の件数には因果関係があるのでしょうか。
もっと丁寧にいうと、「警察官の定員が増えたから検挙件数が増えた」のでしょうか。
そうすると、警察官定員が増えれば治安が悪くなる、というふうにも考えられます。
しかし、それは正しくありません。
なぜなら、相関関係はあっても、そこに因果関係がないと考えられるからです。
警察官の定員が多いのは、シンプルに人口が多い場所にたくさんの定員が割り当てられているからです。
人口が多ければ、その分犯罪を犯す人も増えていくことが考えられるため、検挙数が増えるのです。
つまり、警察官の定員と検挙件数の間に因果関係はなく、その間に「人口」という第3の変数が隠れていたのです。
こうして警察官定員と検挙件数に関連があるような、見せかけの相関が生まれるのです。
このような見せかけだけの相関のことを擬似相関といいます。
擬似相関について具体的に説明していきます。
擬似相関とは?
擬似相関とは、因果関係がないのに因果関係があるように見えてしまう(相関関係がある)ことです。
一見、因果関係がありそうに見えてしまうので、擬似相関という名前がついています。
(イメージとしては、「疑似因果」という方が正しいかもしれません。疑似相関でも相関関係はあるので。。)
そこには、第3の変数による影響がある場合も、第3の変数はなくたまたま相関がある場合もあります。
擬似相関は、見せかけの相関、擬相関、見かけ上の相関などの呼び方をすることあります。
さきほどの警察官の例も、散布図や相関係数だけを見ると一見関連しているように見えますが、実際にはそこに因果関係はありませんでした。
ところで、そもそも因果関係と相関関係はどう違うのか。
この点についても説明していきます。
因果関係と相関関係
因果関係と相関関係は似ているようで全く異なります。
まず因果関係とは、一方がもう一方に影響を与えているような関係のことを指します。
そして、相関関係とは、一方が増減すると、もう一方も増減するといった関係のことを指します。
警察官の例では、警察官の定員が増えたことが影響して検挙件数が増えたわけではないので、因果関係はないということになります。
ただ、数字だけを見ると、警察官定員が増えると検挙件数も増えるという傾向が見られたため、相関関係がありました。
そのため、みせかけの相関、擬似相関が生まれたのです。
擬似相関の例を紹介
さきほど警察官定員と検挙件数の疑似相関についてお伝えしました。
より疑似相関を知ってもらうために、ここからは分かりやすい疑似相関の例をいくつかご紹介します。
どれもなかなか身近な話なので、意外と身近なところにも擬似相関は隠れているかもしれないと感じるきっかけになればと思います。
年賀状を出す人ほど高収入?
年末頃に、年賀状を出す人ほど高収入というニュースを見ました。
しかし、「年賀状を出せば年収が上がるのか」と聞かれればそうではありませんよね。
一般的に、高齢者の方が年賀状文化になじみがあり、逆に若い方々は年賀状を出さない方も多いです。
つまり、ここには「年齢」という第3の変数が隠れているのです。
一般的に年齢が高い人ほど高い役職についていることも多く、その分年収も高いことが考えられます。
特に、現代の日本は年功序列の会社もまだまだ多いので。
そのため、年賀状を出す人ほど年収が高いという擬似相関が生まれるのです。
高血圧の人ほど年収が高い?
これも年賀状の例と似ていますね。
高血圧だから年収が高いのではなく、
高血圧の人は高齢者の方が多い。→高齢者の方が高い役職に就いていることが多く、年収が高い。
と言うことです。
こうして、高血圧の人ほど年収が高いと言う擬似相関が生まれるのです。
この場合も、第3の変数として「年齢」が隠れている事例です。
アイスクリームが売れるほど、熱中症が増える?
アイスクリームが売れれば、熱中症が増えるというデータがあります。
しかし、そこに因果関係はありません。
アイスクリームを食べるから熱中症になるわけではないですよね。
一般的に、アイスクリームは気温の高い夏の方がよく売れます。
また、熱中症も気温が高い夏に起こりやすいです。
そのため、この擬似相関の裏には「気温」と言う第3の変数が隠れているのです。
ビールが売れるほど、水難事故が増える?
これも有名な例です。
ビールが売れるせいで水難事故が増えているわけではありません。
ビールがよく売れる季節は夏です。
そして、海水浴や川遊び、などが活発になるのも夏です。
夏になれば、ビールもよく売れるし、海水浴に行く人も増えるので、ある意味当たり前です。
この場合、どちらも「季節」という第3の変数がそれぞれに影響を及ぼしており、擬似相関が生まれるのです。
育毛剤を使用する人は、老後ハゲることが多い?
「育毛剤を使用する人は老後ハゲることが多い」と聞くと、育毛剤に問題があるように聞こえるかもしれません。
しかし、そう結論づける前に考えるべきことがあります。
それは、そもそも「育毛剤を使っている人ってどんな人?」というところです。
そもそも育毛剤を使っている人は、髪の毛に悩んでいる方が多いです。
悩みのない方は育毛剤を使いませんよね。
つまり、育毛剤を使ったからハゲる訳ではなく、もともとハゲやすい方ばかりが育毛剤を利用しているので、そのような擬似相関が生まれるのです。
少子化が進むと、温暖化も進む?
昨今は、少子化が進んでおり、このままのペースで行くと2050年には日本人の人口が1億人を下回るという予想も出ています。
また、現在は少子化だけでなく地球温暖化も進んでおり、世界中で地球温暖化を防ぐためCo2排出量削減にも取り組まれています。
少子化も温暖化もどちらも進んでいるので、この二つには相関関係が見られます。
しかし、そこに因果関係はありませんよね。
少子化が進んでいるせいで地球温暖化が進んでいるわけではないからです。
つまり、この二つは「たまたま」相関関係があっただけです。
このように両者の間に、第3の変数(共通因子)が存在しないケースもあります。
図書館が多い町ほど犯罪が多い?
一般的に、図書館などの公共施設は、人口が多いところに充実しています。
そして犯罪についても一般的に人口が多ければ多いほど件数が多くなる傾向にあります。
そのため、犯罪と図書館の数の間には「人口」という第三の変数が隠れていたのです。
体重が重いほど年収が高い?
一般的に、年齢を重ねると、運動不足や基礎代謝の低下によって太りやすくなるといわれています。
そして、日本の企業は年功序列で給料が決まっているところも多いため、年齢が高いほど年収が高くなる傾向にあります。
つまり、体重と年収そのものには因果関係はないのですが、間に「年齢」という第三の変数が隠れているため、因果関係があるように見えてしまうのです。
髪が長いほど言語能力の発達度合いが高い
一般的に、男性より女性の方が言語発達能力が高いといわれています。
そして、髪の長さについても男性よりも女性の方が長い人が多いです。
つまり、髪の長さと言語能力の発達度合いには因果関係はないのですが、その間には「性別」という第三の変数が隠れていたのです。
車の販売額と車を使った自殺者数の数
車の販売額と、車を使った自殺の数には相関があるといわれています。
これだけ聞くと、「車はよくないのかも!」「販売中止にすべきだ!」という人もいるかもしれません。
しかし、結局は車の利用者数自体が増えたので、それに応じて自殺者数も増えたというだけで、そこに因果関係は見られません。
このように単純に人数が増えたらその分増えるようなこと、というのもよくある疑似相関の一つの例ですね。
なにか因果関係が考えられるような根拠がなければ、「単純に人数が増えたこと」が理由であることも多いので、注意しましょう。
(参考)https://www.tylervigen.com/spurious-correlations
まとめ
有名な言葉で「数字は嘘をつかないが、嘘つきは数字を使う」という言葉があります。
自分自身の考えを通したいがために、疑似相関のようなトリックを利用して、統計に関する知見のない人を騙すような人たちも世の中にはいます。
ですので、私たちに出来ることは、分析結果の背景まで考えられるような力、つまり統計リテラシーを身につけることです。
そのために統計学を学ぶことは非常に有効です。
世の中にあふれている様々な数字に騙されないよう、統計リテラシーを身につけて、数字と向き合っていきましょう!
↓この記事を読んだ方の多くは、以下の記事も読んでいます。
統計調査士をたった3日の勉強で取得した勉強法【オススメの参考書あり】