
いきなりですが、皆さんは単回帰分析という分析方法をご存じでしょうか。
Excelでも簡単にできて非常に便利な分析方法なのですが、統計学を学んでいない方ですとなかなかご存じでない方が多一かもしれません。
今回は、そんな回帰分析の中でも最も基本的な分析方法である「単回帰分析」について解説していきたいと思います!
覚えればビジネスの現場でもすぐに使えるようなすごく便利な分析方法なので、是非最後まで読んでみてください!
この記事を読むと分かること
- 単回帰分析ってなに?
- Excelで単回帰分析をする方法
- 出力結果の読み取り方
もくじ
単回帰分析とは?
原因から結果を予測する分析方法
近年、ビッグデータの活用といった「データを分析して将来を予測する」ということがトレンドになっています。
この将来を予測するための分析の1つが「回帰分析」です。
単回帰分析は、結果に影響を与える要因となる変数が1つであり、その1つの変数から結果を予測する方法です。
要因となる変数は「説明変数」や「独立変数」と呼ばれ、結果にあたる変数は「目的変数」などと呼ばれます。
例えば、全国の高校生の身長と体重のデータを使って、身長から体重を予測したい!という場合には、身長が「説明変数」、体重が「目的変数」となります。
単回帰分析の場合は、説明変数をx、目的変数をyとした時に、y = ax + bで表される式によって結果を予測していきます。
aとbには「回帰係数」と呼ばれる1つの値が入り、xにある値を入れると自動的にyの値が求まるようになっています。
先ほどの身長から体重を予測する際に、回帰分析を行った結果「y = 0.6x – 40」という式が求められたとします。
ある1人の生徒の身長が164cmだった時の体重を予測する際には、この式のxに164を代入することで、その生徒の体重がy=0.6×164 – 40=58.4[kg]であると予測されます。
相関分析との関係
先ほどの式を見て気づいた方もいるかもしれませんが、単回帰分析の一般式は、直線の式になっています。 aにあたる部分が直線の傾きで、bにあたる部分が切片になっていますね。
なぜ単回帰分析の一般式は、直線の式で表すことができるのでしょうか。
そこには相関が大きく関係しています!
相関分析は、2つの変数間にどの程度の関連があるのかを見る分析方法ですが、あくまで関連の強さを見ているだけなので、ある変数の値から別の変数の結果を予測することはできません。
上の図のように、散布図に直線を当てはめることで、2つの変数に関連があるのでは?というざっくりとした判断だけではなく、具体的な数値で変数間の関係を表すことができるようになります。
その結果、原因から結果を予測することができるようになるというのが単回帰分析です。
関連が見られそうなデータに直線を当てはめることで、結果を予測する手法だということは単回帰分析のポイントの1つです!
回帰分析の活用場面
回帰分析は科学の分野だけではなく、マーケティングなど様々な分野で活用されている解析手法です。
先ほど紹介したような身長と体重の関係など身近な場面でも使えますが、ある商品に費やした広告費が売上に影響しているか、年齢がある薬の効果に影響を与えているのかなど、非常に幅広い場面で活用されています。
ここからは気温と売上個数のデータを用いて説明をしていきますが、マーケティング領域以外にも活用されている、汎用性の高い解析手法だということは是非覚えてください!
Excelを使った回帰分析の具体的な手順
今回は、あるカフェのアイスコーヒーの売上個数と気温に関する仮想データを使って、実際に回帰分析を行ってみたいと思います!
まず、以下のような月ごとの平均気温とアイスコーヒーの売上個数のデータがあったとしましょう。
今回は、Excelを用いた回帰分析の手順を紹介します。
出力された結果をどのように見れば良いのかについても説明していくので、この記事を読みながら実際にExcelを動かしてみてください!
まずはデータの相関を見てみる
回帰分析を行う前に、まずはデータにどのような関連がありそうかx軸に平均気温、y軸にアイスコーヒーの売上個数を取った散布図を作成してみたいと思います。
Excelで散布図を作成するには、散布図を作成したいデータの範囲を選択し、「挿入→グラフ散布図」をクリックします。
軸やグラフのタイトルなど、細かい部分の体裁を整える必要はありますが、今回はそのまま進めていきます。
散布図を見ると、気温が上がるとアイスコーヒーの売上個数も上昇するという右肩上がりの傾向にありそうですね。
ここから、アイスコーヒーの売上個数には気温が影響しているのではないか?という仮説が立てられます。
散布図に直線の式を当てはめる
散布図に直線の式を当てはめて、右肩上がりの傾向を具体的な数値で示してみましょう。
Excelで散布図に直線の式を当てはめる方法はとても簡単です!
先ほど作成した散布図をクリックして、右上の+で書かれている「グラフ要素」のボタンを押します。
一番下に「近似直線」という選択肢があるので、チェックマークを付けると散布図から導かれる近似直線が引かれます。
先ほど紹介した回帰分析の一般式を出す場合には、「グラフ要素→その他のオプション→グラフに数式を表示する」のチェックボックスにチェックを付けると数式が出てきます。
今回の散布図から求められる回帰直線はy=42.362x-59.387という式で表されるので、気温が27℃だった場合には、x=27を代入してy=42.362×27-59.387=1084.387となり、アイスコーヒーは約1084個売れると予測されます。
分析ツールで当てはまりの良さを評価する
ところで、回帰係数の42.362という値や59.387という値は本当に正しい値と言えるのでしょうか。
回帰直線の当てはまりの良さや、本当に影響を与える変数によって予測をしているのかどうかを調べるために、Excelの分析ツールを用いて細かく分析していきたいと思います!
分析ツールはデータの右端に表示されているものですが、もし表示されていない場合には「ファイル→オプション→アドイン」の設定から分析ツールにチャックを入れてOKボタンを押すことで表示されるようになります。
分析ツールが表示されれば、あとは分析に用いる数値の範囲を入力していくだけです!
「データ→データ分析→回帰分析」の順に進んでいき、数値の範囲をドラッグすることで「入力先」に値の範囲を入力してOKを押します。
有意水準など細かい設定もありますが、今回はデフォルトの有意水準5%での検定を行った結果を出力します。
入力先には「X範囲」と「Y範囲」がありますが、X範囲が説明変数のデータの範囲、Y範囲が目的変数のデータの範囲にあたるので、今回の例ではX範囲に平均気温、Y範囲に売上個数のデータの範囲を指定します。
出力結果の読み取り方
分析ツールで回帰分析を行った結果は、別のExcelシートにこのように出力されます。
出力された結果は数字が並んでいて、解釈するのが難しそうですが、まずは「重決定R2」と「有意F」、「p値」を見ると良いと思います。
「重決定R2」は決定係数と呼ばれ、回帰直線全体の当てはまりの良さを表しています。
決定係数は0から1までの範囲を取り、1に近いほど回帰直線の当てはまりが良いことを示しています。
今回の例では決定係数が0.9を超えているので、散布図から引いた直線の当てはまりが非常良いことを示しています。
「有意F」は意味のある回帰直線が引けているかどうかを表しています。
有意Fの値が小さければ、結果に影響のある変数を用いた回帰直線が引けていると言うことができます。
最後に「p値」です。 ここでのp値は、それぞれの回帰係数が意味のある値かどうかを表しています。
P値が0.05以下であれば意味のある回帰係数であることを示しています。
回帰分析の出力結果を使った問題は、統計検定2級でほぼ毎回出題されています。
そのため、統計検定2級を受けるならば回帰分析の出力結果を正しく読み取るための対策は必須なので、是非この機会に覚えておきましょう!
まとめ
今回は回帰分析の中でも最も基本的な手法である「単回帰分析」について、Excelでの求め方を中心に解説していきました。
回帰分析自体はとても奥が深い分析手法です。
「関連がありそうなデータに対して原因から結果を予測する手法である」という基本を忘れずに勉強を進めていきましょう!
この記事を読んだ方にオススメの記事はこちら!