統計学

相関分析とは 利用場面や相関係数の求め方、読み取りの目安など徹底解説!

【お知らせ】kindleにて書籍を出版しました!

kindle unlimitedご登録の方は無料で読めるので、是非読んでみてください!
こんにちは!統計ブロガーのにっしーです!

今回は、データ分析の現場でも非常によく使われる基本的な統計手法の一つである「相関分析」について詳しくご紹介していきます。

是非この機会に知識を身につけておきましょう!

この記事を読むと分かること

  • 相関分析とは
  • 相関係数の特徴
  • 相関係数の計算方法
  • 相関係数の読み取り方
  • 相関係数の注意点
  • 散布図との関連性
  • 相関分析の利用場面

最後まで楽しんで読んでいただけますと幸いです!

相関分析とは

相関分析とは、2つのデータにおける関係性の強さを分析する手法です。

「定量データ×定量データ」の2つのデータの間の関連性を見る場合に用いられます。

相関分析と聞くと、「相関係数」という指標を思い浮かべる方も多いと思いますが、「相関係数」は相関分析のアウトプットの指標の一つになります。

相関係数の特徴

相関とは、2つの変数のデータ対が一直線上にのるような関係がある場合、2つの量的変数が完全に関連していることを表します。(=相関がある)

直線からの逸脱の度合いが強まるにつれ、変数間の関連性(相関)は薄くなる、ということです。

簡単にいうと、気温が上がれば、ビールがよく売れる、といったような比例・反比例の関係の強さを示します。

この場合、ビールと気温には相関関係がある、といういい方をします。

相関係数の計算方法

相関係数の計算方法は以下の通りです。

計算式で見ると難しいそうですが、要は xとyの共分散 ÷ xの標準偏差×yの標準偏差 ということです。

二変数の標準偏差で共分散を割っているのは、共分散が変数の単位に依存して変化してしまうのを修正するためです。

※共分散・・・それぞれ2変数の平均からの差の席の和をデータ数で割ったもの。共分散は平均から見て2つの変数がどういった傾向を示すのかというようなことを表現する式になります。

このように、分子である共分散がどういった傾向を示している変数なのかを理解すると、相関係数がどのようにして二変数間の関連性を表しているのかを理解することが出来ます。

相関係数の読み取り方について

相関係数の範囲は、ー1~+1を取ります。

相関係数の強さは、0の値から絶対値が1に近づくにつれて相関の強さが強くなるということを示し、-1であれば負の相関、+1であれば正の相関ということになります。

相関係数が0の場合は無相関である、変数間に直線的な関連は一切存在しないということになります。

相関係数の評価の目安は以下の通りです。

  • 0.0<|r|<0.2 ほとんど関係がない。0.0は無相関
  • 0.2<|r|<0.4 弱い関連がある
  • 0.4<|r|<0.7 中程度の関連がある
  • 0.7<|r|<1.0 強い関連がある

ただし、これらの評価基準は絶対的な基準ではありません。

使われる場面や目的によって読み取り方は変わるため、あくまで一般的な目安として利用するようにしてください。

Excelを使った相関分析の方法はこちらの記事が参考になります。

相関係数の注意点

相関係数には、利用するうえでの注意点がいくつかあるので、ご紹介します。

因果関係のない相関(見かけの相関)がある

相関係数を利用する際の注意点として、相関係数の絶対値が1に近くても、2つの変数の間に関連があるとは言い切れない場合があるということです。

そのような相関は以下のようなものがあります。

  • 見かけの相関 第3の変数による見かけの相関
  • 擬似相関:第3の変数の影響で、相関係数が見かけ異常に大きくなる。
  • 擬似無相関:第3の変数の影響で、2変数間の相関関係が見かけ上無相関になる。

例えば、アイスクリームの売上と熱中症患者数には相関がありますが、「アイスが売れたから熱中症になった!」というわけではありません。

アイスの売上が上がったのも、熱中症患者が増えたのも、それぞれ気温が影響しています。

暑ければアイスはよく売れますし、熱中症になる人も増えます。

このように相関係数だけ見ると高くても、実際には2変数間には関連がない場合もありますので、2つの変数間の相関を見るときには、第3の変数の影響を除いた上で考えなければなりません。

疑似相関や見かけの相関についての具体例は以下の記事でたくさん紹介していますので、もっと知りたいと思った方は是非読んでみてください!

疑似相関(見せかけの相関)の具体例11選!~警察官が増えると検挙数が増える!?~

ちなみに、第3の変数の影響を取り除いた相関係数のことを偏相関係数といいます。

数学的に言うと、「xとyの相関係数を見るときに、zからの影響をコントロールしたもの」というイメージです。

先述の見かけの相関のように、第3の変数が邪魔をしているケースがあるので、2つの変数間の相関を考える際は、第3の変数からの影響も考慮して考えなければなりません。

直線以外の関連も考えられる

例えば、紅茶、コーヒーなどの美味しさと温度で調査をすると、曲線の相関があるとになると予想されます。

(これらの飲み物は、熱いか冷たいものが好まれて、ぬるいものはあまりおいしくなさそうだと思います。)

このように、非線形関係の相関がある場合も考えられるため、正しく二変数間の関連を調べる際は相関係数だけではなく、散布図とあわせて考えることが重要になってきます。

相関係数は外れ値の影響を受ける

相関係数は、外れ値の影響を受ける指標です。

なぜなら、相関係数は計算式の一部に平均を含んでいるからです。

※相関係数の求め方は、以下の通り。

平均値は外れ値の影響を受ける指標であるため、その平均を使って計算している相関係数も外れ値の影響を受ける指標だということです。

平均値について、詳しくは以下の記事をご確認ください。

代表値とは 平均値・中央値・最頻値の違いや求め方を解説

そのため、相関分析をする際には、データに外れ値がないか確認することも重要です。

床面効果と天井効果

変数の取ることが出来る範囲に制限があると、相関係数に影響が及ぶこともあります。

これを天井効果、床面効果といいます。

例えば、0点~100点のテストがあったときに、本来もっと実力があるのに100点満点のために100点までの点数しかとることができないようなことを天井効果といいます。

逆に、どんなに勉強しなくても0点よりも下の点数は取りようがないようなことを床面効果といいます。

相関係数を活用する際には、床面効果、天井効果の影響も考慮することが大切です。

切断効果

切断効果とは、データの一部を取り出すと相関係数が変わってしまうことを意味します。

例えば、100点、80点、60点、40点、20点の5人の点数があったときに、5人の平均をとると60点になります。

しかし、標本調査で一部だけ取り出して調査することになったとします。

そこで、100点、80点、60点の人だけを取り出してしまうと、平均は80点になります。

平均が変わるということは、そのデータを使って別のデータとの相関係数を取ろうとすると、相関係数も変わってしまいます。

偏った範囲のデータしか得られていないといったことがないか、データ分析の際には注意することが必要です。

散布図との関連性

相関係数は、散布図から読み取った相関の程度を表す指標でもあります。

散布図だけでは、説明変数と目的変数の具体的な相関の強さまでは読み取れません。(おおまかには分かりますが。)

そこで、実際に関連の強さを表す相関係数を用いて、二変数間の相関の強さを数値で示します。

そうすることで、関連の強さを数値によって表現することができます。

相関分析の利用場面

相関分析は、マーケティングや社会調査をはじめとする様々な調査の場面で利用される分析です。

「定量データ×定量データ」の2つのデータの間の関連性を見るというのはシンプルな分析ですので、汎用性が高く、多くの場面で活用できる分析手法の一つです。

具体的にどのような場面で利用されるのか、解説していきます。

利用場面① サービス解約者の分析

自社のサービスを解約する人の解約有無情報と、顧客属性情報を利用し相関分析を実施。

そうすることで、どのような人がサービスの解約に至りやすいのか、傾向を発見し、解約防止の施策を考えていく。

利用場面② 販売データの分析

ある商品Aの販売データと購入者の属性を相関分析。

そうすることで、商品Aはどのような人が購入しやすいのか、把握できる。

その結果をもとに、購入しやすい人が集まる地域で精力的に商品Aの販売を決める、など。

まとめ

相関分析は、手軽に2種類の定量データ間の関連を見ることができる分析手法として、大変便利です。

ただし、相関係数が高くても一概に関連があるとは言えないという注意点もあります。

データリテラシーを身につけ多角的な視点で正しく活用することで、相関分析はビジネスにも役立つ大変心強い分析になることでしょう。

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

統計検定3級の重要用語一気読み!【統計検定3級のキホン】

たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

統計検定2級の学習にオススメのコンテンツまとめ!

▼▼▼データ分析を学んで、年収を上げませんか?▼▼▼
無料オンライン説明会/講座開催中【datamix -データミックス-】
~オススメポイント~
  1. ビジネスパーソン向けのスクールなので、実務で役立つスキルが身につく!
  2. 参加無料の説明会、体験会がある!
  3. 国内最大級のデータサイエンススクールなので安心!
  4. 専門実践教育訓練給付金 (最大70%還付)対象のコースあり!
  5. スクールにありがちなしつこい勧誘がないので安心!(←ココ重要!)
  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計学
-,