この記事では統計学でよく聞く要約統計量という言葉について解説します。
この記事を読むと、以下のことが分かるようになります!
この記事を読むと分かること
- 要約統計量とは
- 要約統計量の用途
- 主要な要約統計量の種類
是非最後まで楽しんで読んでいただければ幸いです!
要約統計量とは
要約統計量とは、データの分布の特徴を表す統計量を指します。
要約統計量を算出することで、データの偏りや形状などが分かるため、分析の初期段階においてデータの分布の特徴を把握する目的で算出します。
要約統計量の用途
要約統計量の用途は多岐にわたります。
たとえば、商品カテゴリ別に購入者の属性情報の要約統計量を算出したり、購入ニーズが高い顧客層を把握などがあります。
他にも、サービス利用履歴の要約統計量を算出し、特に解約が多いグループを特定し、解約抑止の戦略立案に活用するなど考えられます。
ビジネスの場では要約統計量の活用方法はとにかく幅が広く、それだけに社会人なら知っておきたい指標であると言えます。
特に、平均値だけでデータを見るなどすると、データの全貌を誤って解釈してしまう恐れもあるので、複合的な視点で要約統計量を活用するデータリテラシーも活用の際には大切になってきます。
主な要約統計量の種類
平均値
平均値は代表値の一つで、全データの総計値をデータ個数で割った値です。
データの特性をあらわす指標として、最もポピュラーな指標といえるでしょう。
例えば、1店舗当たりの売上や一人のあたりの利用回数といった「データの規模感」を把握する場合などで広く活用されています。
ただし、平均を使うには十分なデータ数が必要であり、また平均付近にデータが集まっていなければ、データの特徴を表すのに適した指標とは言えないデメリットもあります。
代表値とは?平均値・中央値・最頻値の違いや求め方||今さら聞けない統計の基礎の基礎を分かりやすく解説
標準偏差
標準偏差は、データのばらつき具合を知ることができます。
同じ平均値でもデータのばらつきによってデータの状態が大きく異なることもあるので、平均などと組み合わせてみたい指標です。
標準偏差は0に近づくほどばらつきが少なく、逆に値が大きいほどばらつきも大きいことを意味します。
ちなみに、標準偏差は分散の平方根でもあります。
データのばらつきを見る統計指標「標準偏差」と「分散」の違いは?計算方法や読み取り方など||今さら聞けない統計の基礎の基礎を分かりやすく解説!
変動係数
変動係数はデータのばらつき具合を知ることができます。
データのばらつきに関する指標はいろいろありますが、単位が異なるものや平均が異なり単純比較ができないものについてのばらつきの比較に用いられる指標です。
変動係数って何?計算方法や使い方など||今さら聞けない統計の基礎の基礎を分かりやすく解説!
歪度と尖度
歪度と尖度は、「データ分布の形状」を把握することができる指標です。
歪度は、分布の左右の対称性を表す数値です。
数字が0のときは左右対称な分布ということになります。
数値がプラスの時は右に裾が長い分布になり、逆にマイナスの時は左に裾が長い分布を意味します。
尖度は、分布の裾(スソ)の長さを表す数値です。
数値3が一般的ななだらかさの分布を意味します。
数値が3より大きい時は、先がとがっているような分布を意味し、逆に3より小さいときは先が丸い、よりなだらかな分布を意味します。
ざっくりいうと、歪度が分布の左右の偏りを表し、尖度が分布のとがり具合を表すというイメージですね。
中央値(メジアン)
中央値は代表値の一つで、「ちょうど真ん中のデータがどこにあるのか」を把握することができる指標です。
平均値の場合、外れ値の影響を受けやすいため、実態を把握する場合は、平均値の代わりに中央値が使われることがあります。
代表値とは?平均値・中央値・最頻値の違いや求め方||今さら聞けない統計の基礎の基礎を分かりやすく解説
最頻値(モード)
最頻値は代表値の一つで、「一番多いグループがどこにあるのか」を把握することができる指標です。
最頻値も外れ値の影響を受けにくい指標で、平均値や中央値などの他の代表値と組み合わせて使われることが多い指標です。
代表値とは?平均値・中央値・最頻値の違いや求め方||今さら聞けない統計の基礎の基礎を分かりやすく解説
まとめ
データを読み取るときには、データの特性を表す数値(平均値、中央値、最頻値など)だけでなく、データのばらつきを表す数値(標準偏差、分散など)を組み合わせて読み取ることで、より正しくデータを知ることができます。
偏った見方をしてしまい、誤ったデータの考察を導くことがないよう、常に多角的な視点からデータを見ることが大切です。
↓この記事を読んだ方の多くは、以下の記事も読んでいます。