今回は、統計学における「外れ値」について解説します。
実務の現場でも、扱うデータによっては外れ値などの異常な値が含まれていることがよくあります。
外れ値はその後の分析結果に大きな影響を与えることから、その扱いには注意をしながら、データを処理していく必要があります。
この記事では、その外れ値について定義や特徴、対処方法などについて詳しく解説していきます!
是非この機会に外れ値の扱い方について知識を身につけておきましょう!
この記事を読むと分かること
- 外れ値の定義
- 外れ値の定義
- 外れ値の特徴
- 外れ値がもたらす影響
- 外れ値の判別方法
最後まで楽しんで読んでいただけますと幸いです!
外れ値とは
外れ値の定義
統計学でいう「外れ値」とは、他のデータと比較して極端に大きいまた小さい値のことです。
データを扱う実務において、外れ値は頻繁に観測される存在です。
外れ値の存在はその後に行う分析や統計解析の結果を歪めてしまい、本来得られるべき分析結果が得られなくなってしまう可能性があります。
しかしながら、外れ値が発生している原因が特定できていない場合は、単純に除外してしまうのも考え物であり、その値が外れ値かどうかは慎重に判断する必要があります。
外れ値の特徴
外れ値と似た概念に「異常値」があります。
例えば、100点満点のテストを受けた生徒たちの点数を学校の先生が集計しているときに、一部の生徒だけ「350点」や「-50点」との記入があったとします。
この場合、テストは0点より低いまたは100点より高い点数になることはありえないため、これらの値は明らかに記入・入力ミスであると判断することができます。
このように異常値とは、外れ値の一種ですが、その中でも値が外れている理由が明らかなものを指します。
ちなみに、このように微妙に意味が異なる外れ値と異常値ですが、英語ではどちらもOutlierと呼ばれており区別されていません。
外れ値がもたらす影響
データ分析を行う上で、外れ値の存在は後の分析結果に大きな影響をもたらします。
例えば、単純にそのデータから得られる平均値を計算した際には、外れ値が入っているために本来の平均値よりも小さくまたは大きく算出されてしまう可能性があります。
また、相関係数や回帰係数を算出する際にも、外れ値が原因でそれらの計算結果が引っ張られてしまい、本来の正しい係数やモデルが算出されない可能性もあります。
このように、実務において外れ値の存在はやっかいなものであり、除外すべきかどうかしっかり判断した上で作業を行って必要があります。
外れ値の判別方法
このように実務を行う上で悩みどころとなる外れ値ですが、その値が外れ値かどうかを作業者が主観で決めてしまうことは避けるべきでしょう。
外れ値を判別するのに統計学的に有効なテクニックがあるため、以下で紹介していきます。
簡単な検定
最も簡単な外れ値検定の方法では、外れ値が含まれているデータサンプルについて不偏標準偏差を計算し、以下のような統計量を算出して判断します。
(x1は観測値、μは平均値、σは不変標準偏差)
この統計量τについて、2や3などの閾値を設定し、それらを超えてしまう値については外れ値であると判断します。
スミルノフ=グラブス検定
上の簡単な検定よりもさらに厳密な判断をしたい場合は、スミルノフ=グラブス検定がおすすめです。
nをサンプルサイズ、検定の有意水準をαとしたときに、自由度n-2のt分布において α/n×100のパーセンタイル値をtとし、有意点を以下のように計算します。
ここで求められた有意点を用いて、上記の簡単な検定で使用した統計量τを使い検定を行います。
また、この検定は外れ値が出なくなるまで再帰的に繰り返し行うことも特徴的です。
つまり、1回目の検定で外れ値が一つ除外された場合、それを除いた残りの標本サイズで再度同様の検定を行い、最終的に外れ値が検出されなくなるまで繰り返し行います。
この方法は、何度も検定を繰り返すため作業コストがかかる方法ではありますが、厳密な判断が可能になる方法といえます。
トンプソン検定
トンプソン検定はスミルノフ=グラブス検定とは逆のことを行う検定です。
上記の簡単な検定で算出した統計量τを用いて、以下のようなtを計算したあとに自由度n-2のt分布を用いて検定を行います。
ちなみにこの検定は、nが十分大きいときにはスミルノフ=グラブス検定と同じ結果になります。
四分位範囲を使った方法
四分位範囲を使った簡単な外れ値検定もあります。
四分位範囲とは、第1四分位点から第3四分位点までの範囲を指しているため、第3四分位点-第1四分位点と計算することで求めることができます。
ここで求められた四分位範囲を用いて、例えば以下のようにして外れ値の閾値を設定します。
第3四分位点+四分位範囲×2
第1四分位点-四分位範囲×2
上記のような計算で求めた閾値を使い、その閾値を超えるまた下回る値を外れ値であると判断する方法です。
上の例では四分位範囲を2倍にしていますが、データの状況に応じて何倍にするかを調整するとよいでしょう。
この方法は標準偏差や標準化変量などを算出する必要がないため、計算コストの低い方法であると言えます。
まとめ
今回は、外れ値について詳しくご紹介しました。
実務において分析者の頭を悩ませがちな外れ値ですが、どこからの値が外れ値になるのかを判断するのは難しい作業だと思います。
今回紹介した検定を用いて、最適な方法で外れ値を判断していきましょう!
↓この記事を読んだ方の多くは、以下の記事も読んでいます。