統計学

代表値とは?平均値・中央値・最頻値の違いや求め方||今さら聞けない統計の基礎の基礎を分かりやすく解説

2021年2月7日

今回は、統計の基礎である代表値について解説していきます。

代表値は、統計検定3級でかなり問われやすいテーマですので、この機会にしっかり覚えておきましょう!

代表値とは?

何千何万とある、膨大なデータの特徴を

「一目で知りたい!」「簡潔に伝えたい!」となったとき、

皆さんならどうしますか。

おそらく真っ先に思い浮かぶのが、「グラフ化」ではないでしょうか。

たしかにグラフは、視覚的に特徴を捉えることが出来るので、

データの分布もイメージしやすく、非常に有効な手段だと言えます。

では、ノートや黒板がなく、グラフが書けない場面だったらどうしますか。

そう、そんなときは代表値を使えば良いのです。

代表値は、データ全体の特徴を表す(代表する)値のことです。

グラフ化よりも、さらにデータの特徴をシンプルに把握でき、簡潔に伝えることが出来る値です。

代表値の種類

代表値は、以下のように3種類に分かれます。

  • 平均値
  • 中央値
  • 最頻値

代表値は、データの特徴を表す方法として有効ですが、

つの代表値だけでは、データの特徴を表すには不十分な場合もあります。

そんなとき、ほかの代表値を組み合わせると、

より詳しくデータの特徴を把握することが出来るようになります。

それでは、それぞれの代表値について例を挙げながら説明していきます。

平均値(アベレージ)

平均値は、小学校で習うので大変有名ですね。

※平均には様々な種類がありますが、一般的に「平均」というと、算術平均のことを指します。

平均値は、「合計÷個数」で求めることができます。

具体例で考えてみましょう。

たとえば、

5人の学生がいたとします。

彼らの身長が、それぞれ

170cm、167cm、174cm、171cm、178cmだったとします。

そうすると、彼らの身長の平均値は

(170+167+174+171+178)÷5=172cm

ということになります。

このように考えると、平均値は文字通り、

ータ全体を平らに均(なら)した値

ということが分かります。

平均値のメリット・デメリット

平均値のメリットは、

全てのデータを対象に算出する代表値であ

という点です。

しかし、平均値にはデメリットもあります。

それは、

均値は外れ値の影響を受けやすい

という点です。

外れ値とは、極端に大きかったり小さかったりする値のことです。)

具体例で考えていきましょう。

たとえば子供が3人いるとします。

その子たちの毎月のお小遣いは、それぞれ300円、400円、500円です。

そうすると、お小遣いの平均は、

(300+400+500) ÷ 3 = 400円です。

そこへ、毎月1万円もらっているお金持ちのお坊ちゃんが加わりました。

すると、どうでしょう。

彼らのお小遣いの平均は、

(300+400+500+10,000) ÷ 4 = 2,800円となります。

4人中3人が、300~500円しかもらっていないのに、

一人ずば抜けて多くもらっている子が現れたことで、

平均値が一気に上がってしまいました。

これでは、データの特徴を表している値だとは、とても言えませんよね。

このようにデータの中に外れ値が含まれていると、その影響で正しいデータの特徴を表しにくくなることが、平均値のデメリットです。

中央値(メジアン)

中央値とは、データを

データを大きさ順に並べた時に中央に位置する値

のことです。

言葉のまんまですね。

具体例を挙げると、

4,1,5,3,2

という5つのデータがあったとします。

このデータを小さい順に並び替えると、

1,2,3,4,5 です。

つまり、この中で真ん中に位置する値は3なので、

中央値は「3」ということになります。

すごくシンプルですね。

では、このような場合はどうでしょう。

1,2,3,4,5,6 という6つのデータだった場合です。

この場合、データの真ん中といってもデータが偶数個のため、真ん中が分かりません。

このような場合は、真ん中に最も近い2つの値の平均値が、中央値となります。

つまり今回の場合、

1,2,3,4,5,6の中で真ん中に最も近い数字は3と4ですよね。

つまり、この2つの平均ということは

(3+4) ÷ 2 = 3.5 なので、中央値は「3.5」となります。

中央値のメリット・デメリット

中央値のメリットは、

外れ値の影響を受けにくいという点です。

先ほどの、子供3人のお小遣いの例を思い出してみましょう。

お小遣いが300円、400円、500円の3人の中央値は400円です。

ここに、お小遣い1万円お坊ちゃんが加わったとしたらどうでしょう。

それぞれのお小遣いは、300円、400円、500円、10,000円となるため、

真ん中に近い2つの値は400円と500円。

その平均をとることになるので、

中央値は450円ということになります。

先ほどの平均値では、お坊ちゃんが入ったことで400円から2,800円に跳ね上がってしまいましたが、

中央値では、400円が450円になって、多少の影響は受けているものの、その影響はかなり小さいですよね。

これが中央値のメリットです。

しかし、このメリットは、裏返すとデメリットでもあります。

それは、

データそれぞれの中身を十分に活用出来ていないからです。

たとえば、すごく難しいテストが実施されたとします。

それを受けた5人の結果は、

20点、23点、30点、37点、100点だったとします。

100点だけ明らかに突出している外れ値です。

ほかの子たちの点数と比べると、100点の子はすごく頭がいい、もしくはすごく努力したのかも・・・など、データから考えられます。

れ値は、平均を狂わせる要素でもありますが、

徴的なデータとして、それがあることを見逃してもなりません。

しかし、中央値だけでみると、真ん中の30点になるので、100点という突出した特徴を見逃してしまいます。

最頻値(モード)

最頻値とは、

その名の通り最も頻繁に現れる値のことです。

たとえば、以下のような数字10個のデータがあったとします。

2,8,7,1,4,7,3,9,5,7

この場合、7だけが3回出てきており、そのほかの数字は1回ずつしか出てきていません。

そのため、最も頻繁に現れる値、最頻値は「7」ということになります。

では、これがもし、

2,8,7,1,47,3,9,5,4

だったらどうでしょうか。

この場合、7と4が二回出てきており、そのほかの数字は一回ずつです。

そのため、最頻値は「4」と「7」ということになります。

最頻値のメリット・デメリット

最頻値のメリットは、中央値同様、

外れ値に強いという点です。

なんせ外れ値というくらいですから、めったに同じ値の外れ値は現れません。

そのため、最頻値として現れて分析の邪魔をしてくる、ということがありません。

しかし、そんな最頻値にもデメリットはあります。

1つは、最頻値が複数になる場合があることです。

平均値や、中央値は1つの値しかとりません。

しかし、最頻値はあくまで最も頻繁に現れた値なので、頻度が同じであれば、複数になり得るのです。

このことは、先ほど上で挙げた最頻値の例からも分かると思います。

代表値は、数多くのデータの特徴をなるべくシンプルに表すためのものでした。

もし、代表値である最頻値が、3個も4個も出てきたらぶれちゃいますよね。

代表がいくつもあると、代表としての意義が薄れます。

そのため、最頻値がたくさん出てきたら、

代表値としての有用性も薄れてしまうのです。

そして、もう一つのデメリットは、

データ数が少ないと使えないということです。

これは、平均値、中央値でも使った

「4人の子供のお小遣い」の例で考えてみましょう。

それぞれの子供の毎月のお小遣いは、

300円、400円、500円、10,000円でしたね。

この場合、300円も、400円も、500円も、10,000円も全て一度ずつしか出てきていません。

つまり、全てが最頻値となってしまいます。

これじゃ、代表値の意味がありませんよね。

データ数が少ないと、このようなことが起こりやすく、最頻値が使えなくなります。

「代表値」使用上の注意

先述のとおり、それぞれの代表値には、メリット・デメリットが存在します。

メリットデメリットが顕著になりやすいのは、

特徴的の分布やデータが現れた場合が多いです。

たとえば、下の図のような

山が一つ(単峰性)で左右対称の分布では

平均値,中央値,最頻値はほとんど同じ値になります。

そのため、どの代表値を使っても問題ないことが多いです。

しかし、次のような図だった場合はどうでしょうか。

山は一つですが、左にデータが偏っており(非対称)、右に裾(すそ)の長い分布です。

上のような図では、平均値が外れ値に引っ張られるため、

「最頻値,中央値,平均値」の順に並ぶことが多いです。

分布の形によって、代表値同士の大小関係も変わってくるということですね。

ここからも分かるとおり、

代表値はデータの特徴を表すうえで重要な指標の1つですが、

一つの代表値だけで「これがデータの特徴だ!」と断言するには少し力不足です。

そのため、そのほかの代表値と組み合わせながらデータの特徴を探っていく、

といった慎重さが大切になってきます。

まとめ

少し長くなってしまったので、

あらためて、3つの代表値をまとめましょう。

代表値の種類

  • 平均値・・・データ全体をならした値
  • 中央値・・・中央に位置する値
  • 最頻値・・・最も頻繁に現れる値

ポイント

  • 代表値にはそれぞれメリットデメリットがあるため、それらを考慮したうえで活用することが大切。
  • 代表値とはいえど、1つでデータの特徴を正しく捉えることは危険。
  • 複数の代表値を組み合わせて、正確なデータの特徴を捉えることが大切

今回出てきた3つの代表値は、どれも統計学では当たり前のように使われる言葉です。

この機会に是非覚えておきましょう!

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

【徹底公開】たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

【これさえあれば大丈夫】統計検定2級の学習にオススメのコンテンツまとめ!

【知らなきゃ損!?】統計検定2級はペーパー試験よりもCBT受験一択!その理由とは!?







  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計学
-, ,

Copyright© Nissy BLOG , 2021 All Rights Reserved Powered by AFFINGER5.