統計学

四分位数とは 概要や活用イメージを分かりやすく解説

こんにちは!統計ブロガーのにっしーです!

今回のテーマは、四分位数です。

「四分位数」ということばは、平均値などとは違って、なかなか日常生活では聞き慣れないことばだと思います。

しかし、統計検定3級でもかなり頻出のテーマであり、また統計学の基礎として重要な範囲でもあります。

是非、この機会に覚えておきましょう!

この記事を読むと分かること

  • 四分位数とは
  • 四分位範囲とは
  • 四分位偏差とは

是非最後まで楽しんで読んでいただければ幸いです!

四分位数とは

四分位数(しぶんいすう)は、データを大きさ順に並べた時に、データを4等分する値のことです。

その4等分する値を小さい方から順番に、以下のように呼びます。

  • 第一四分位数(=小さい方から25%の位置)
  • 第二四分位数(=中央値)(=小さい方から50%の位置)
  • 第三四分位数(=小さい方から75%の位置)

英語では四分位数のことをQuartileと言うため、その頭文字をとって、それぞれ第一四分位数をQ1、第二四分位数をQ2、第三四分位数をQ3と表すこともあります。

また、第二四分位数は中央値と同意ですので、ここもしっかり覚えておきましょう。

四分位範囲

冒頭で、四分位範囲はその範囲にデータの半分が含まれているということを示す「ばらつきの指標」の一種と述べました。

これをより具体的にいうと、第一四分位数から第三四分位数までの範囲のことを指します。

つまり、「第三四分位数 − 第一四分位数」で求めることができます。

四分位範囲では、以下のようなことを言えます。

  • 大きければ大きいほど、データのばらつきが大きい
  • 小さければ小さいほど、データのばらつきが小さい

データの範囲自体は、最大値から最小値を求めれば出すことができますが、もしその中に一つだけとびぬけて大きいデータ(外れ値など)が含まれていたら、その影響を大きく受けてしまいます。

具体的に考えてみましょう。

たとえば、「1,2,3,4,5,6,7,8,100」というデータがあったとします。

この場合、100は外れ値となります。

ここで、「最大値-最小値」でデータの範囲を求めると、「100 - 1 = 99」となります。

ほとんどは8以下なのに、99になってしまうと、データ全体の特徴をうまく表現しているとはいえません。

そこで四分位範囲が役に立ちます。

同じデータについて四分位範囲を求めると、以下のように、四分位範囲は4となります。

 

このように、外れ値がある場合のばらつきを表す指標として、四分位範囲は有効です。

四分位偏差

四分位偏差は、データのばらつき具合を示す指標です。

求め方としては、(第三四分位数 - 第一四分位数) ÷ 2 です。

つまり、四分位範囲 ÷ 2 です。

読み取り方についても、四分位範囲と同様で以下のようなことがいえます。

  • 大きければ大きいほど、ばらつきが大きい
  • 小さければ小さいほど、データのばらつきが小さい

これだけ聞くと、「四分位範囲と何が違うの?」「なんで2で割ったの!?」と思う方もおられるかもしれません。

「四分位範囲」はQ3-Q1です。

この「四分位範囲」 を 2で割ると、その値がQ2(中央値)と比べてどの程度差があるのかを確認することが出来るようになります。

この点が、四分位範囲と四分位偏差の違いです。

四分位数、四分位範囲、四分位偏差の意義

四分位数が分かることで、四分位範囲と四分位偏差を求めることが可能になります。

四分位範囲は、その範囲にデータの半分が含まれているということを示す「ばらつきの指標」の一種です。

また四分位偏差は、偏差と言う位なので、こちらもデータのばらつき具合を示す指標の一つです。

分散や標準偏差、平均偏差など、データのばらつきを示す指標はほかにもありますが、

その中でも四分位範囲、四分位偏差を利用するメリットとしては、外れ値の影響を受けにくい指標であるという点です。

このように、四分位数を求めることは最終的に、データのばらつきや偏りの度合いを把握することにつながっていくということですね。

また、四分位数は、箱ひげ図を作成するときにも利用される値です。

箱ひげ図については、以下の記事をご覧ください。

箱ひげ図とは 正しい読み取り方やExcelでの作成方法とともに解説

まとめ

四分位数を求めることで、四分位範囲や四分位偏差などの外れ値に近いばらつきの指標を求めることができるようになります。

また、四分位数は、箱ひげ図というばらつきの指標を表したグラフを作成するときに必要となる値です。

全体の散らばり具合を知りたいときは、分散や標準偏差を使い、外れ値が含まれているデータのばらつきを見たいときは四分位範囲や四分位偏差を使う、といったように、目的に応じて指標を使い分けていきましょう!

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

統計検定3級の重要用語一気読み!【統計検定3級のキホン】

たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

統計検定2級の学習にオススメのコンテンツまとめ!

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-統計学
-, , ,