統計学

【コレだけでOK!】統計検定3級の重要用語一気読み!【統計検定3級のキホン】

こんにちは、Nissyです!

今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項をまとめてみました!

これを読むだけで統計検定3級に合格するためのキホンが分かるようになります!

これから勉強する人のとっかかりや、受験直前の復習などで役立てていただければ幸いです!

統計検定3級ってどんな試験?

統計検定3級は、高校卒業までの数学知識を活用して統計活用力を評価する試験です。

加えて、基本的な統計調査の知識についても問われます。

受験方法は、以下の2通りあります。

  • 紙の試験(年2回)
  • CBT方式(いつでも)←オススメ

CBT受験というのは、テストセンターでパソコンを使って受験する方式のこと。

テストセンターさえ空いていればいつでも好きなタイミングで受験できるので、大変オススメです!

統計検定3級に挑戦しよう!

統計検定3級は、全問選択式であり、一部常識的に分かる問題もあります。

また、2020年4月から合格点が70点→65点以上に変更され、より受かりやすくなりました。

ちなみに、合格率はおおよそ6~7割程度です。

ちゃんと対策をすればそれほど合格の難易度は高くありません。

是非この機会に取得しましょう!

統計検定3級は全て勉強しなくていい!

以下は、統計検定のHPの出題範囲を参考にまとめたものです。

これをみると

「出題範囲めちゃくちゃ多いやん!難しそう!」

と思うかもしれません。

しかし、ここには出題頻度が低い問題も含まれています。

また65点以上ということである程度間違えても大丈夫です。

何が言いたいかというと、統計検定3級は出題範囲を全て学ばなくても合格できる難易度の試験だということです

私自身、統計検定3級に合格したときには統計的な推測の箇所はほとんど理解していませんでした。

勿論、理解しているに越したことはありませんし、勉強しないことを勧めているわけでもありません。

しかし、出題範囲を完全に理解できていなくても、まずは挑戦してみるというのもアリだと思います。

統計検定3級の学習にオススメの参考書

用語の解説に入る前に、統計検定3級の学習にオススメの参考書を2冊だけご紹介します。

正直、ここで紹介する2冊さえあれば問題なく合格できます

その他にたくさんの参考書を買う必要はありません。

まず一冊目は王道中の王道、『統計検定3級公式過去問題集』です。


シンプルですが、こちらは解けば解くほどに合格率が上がっていきます。

試験当日までになるべく回数をこなしましょう。

そして2冊目は、結構意外なのですが、『統計調査士対策コンテンツ』超オススメです。

「統計検定3級対策なのになぜ統計調査士なの?」と思う方もおられるかと思います。

そもそもなのですが、統計調査士と統計検定3級は出題範囲がかぶっているところが多々あります

個人的な感触としましては、統計検定3級により深い公的統計の知識が加わった試験が「統計調査士」というイメージです。

ですので、統計調査士の対策をすることは統計検定3級の勉強になるのです。

そしてこの統計調査士対策コンテンツは、試験対策用に作られた本なので、かなりコンパクトに必要なところだけが凝縮してまとめられています。

後半に統計検定3級の範囲の用語がまとまって載っているので、それで勉強するとかなりスムーズに統計学の基礎を学ぶことができます。

もし統計検定3級を取得したあとに統計調査士に興味を持ったとしても、そのまま使えるのでお得ですね。

是非この二冊を手に入れて対策されることをオススメします。

さて、前置きが長くなってしまいましたが、これより重要用語の解説を始めます!

データの種類

データの種類は、大きく分けると以下の2種類があります。

データの種類

  • 質的データ・・・分類項目であり、数量として意味ない
  • 量的データ・・・数量として意味がある

質的データはあくまで分類そのもの

たとえば、性別、血液型、星座、電話番号などですね。

これらに数量としての意味はありません。

例えば、電話番号が「090-xxxx-5342」「090-xxxx-7867」などがあったときに、

「7867の方が数字が大きいから優れている!」ということはありませんよね。

これが、数量として意味がないということです。

一方、量的データには数量としての意味があります

身長178cmは、165cmよりも大きいです。

気温16℃は気温25℃よりも低いです。

量的データには、このように数字の大小に意味があります。

質的データを細分化すると、名義尺度、順序尺度に分けることが出来ます。

また、量的データを細分化すると、比尺度、間隔尺度に分けることが出来ます。

これらの尺度について説明していきます。

尺度一覧

  • 名義尺度・・・単に区別するだけ。順序に意味がない
  • 順序尺度・・・順序に意味がある
  • 比尺度・・・数値の間隔、大小に意味がある。0がなにもないことを意味する。
  • 間隔尺度・・・数値の間隔、大小に意味がある。0が何もないことを意味しない。

名義尺度は単純な分類

名義尺度の例としては、性別、血液型、電話番号などがあります。

順序に意味がないので、「A型の方がB型よりも優れている!」といったことはいえません。

一方、順序尺度は、その名の通り順序に意味があります

たとえば、順位、学年、満足度などです。

「1位は3位より順位が上」

「6年生は2年生よりも学年が上」

「満足度5は満足度1よりも満足度が高い」などのように、順序に意味があるからです。

比尺度は比例尺度、比率尺度とも言います

比尺度は、数値の間隔、大小に意味がありますが、0がなにもないことを意味するという特徴があります。

例えば、身長、体重、速度などが比尺度です。

身長cm、体重0kg、速度0kmはなにもありません。

一方、間隔尺度は、数値の間隔、大小に意味がある点は同じですが、0がなにもないことを意味しないというのが大きな特徴です。

また、数値の目盛りが等間隔であるという特徴もあります。

例えば、偏差値や気温なども間隔尺度の有名な例です。

偏差値0というのは偏差値がないことを意味しません。0という偏差値を意味しているからです。

(一般的に、偏差値は30~70くらいの値をとることが多いですが、理論上マイナスになったり、100をこえることも可能です。)

また、気温についても0度はなにもないわけではなく、0度という温度を意味しています。

(私たち人間が、たまたま水の凍る温度を0度と便宜的に決めただけなので。)

ここまでをまとめると以下のようになります。

このデータの種類については統計検定3級の序盤の問題でよく問われます。

しっかり覚えておきましょう!

統計調査について

統計検定3級では、統計調査の手法や基本用語についても問われます。

統計調査基本用語

母集団・・・調査対象となる全ての調査単位(世帯、企業、組織など)の集合

標本(サンプル)・・・母集団から選出した調査単位の集合のこと

標本抽出(サンプリング)・・・母集団から標本を抽出すること

無作為抽出(ランダムサンプリング)・・・ランダムに標本を抽出すること

全数調査・・・母集団の全ての調査単位を対象とする調査のこと

例)国勢調査、○○会社の全従業員の意識調査など

標本調査・・・母集団から抽出した標本を対象とする調査のこと

例)テレビの視聴率

グラフの読み取り

統計検定3級では、グラフの読み取りについても問われます。

出題範囲のグラフについて、特徴をそれぞれまとめてみました。

グラフの特徴

  • 棒グラフ・・・単純な量の大小の比較に適したグラフ
  • 折れ線グラフ・・・量の変化(推移)をみるのに適したグラフ
  • 円グラフ・・・データ全体の中の構成比をみるのに適したグラフ
  • 帯グラフ・・・データ全体の構成比の比較に適したグラフ
  • 積み上げ棒グラフ・・・合計の度数の比較に適したグラフ
  • レーダーチャート・・・複数の指標をまとめて確認するのに適したグラフ
  • バブルチャート・・・縦軸、横軸、点(バブル)の大きさで3種類のデータを表現する図。
  • ローソク足・・・値動きの推移を把握するのに適した図。FXや株価などの確認でよく使われる。
  • ヒストグラム・・・データの散らばり具合を確認するのに適した図
  • 散布図・・・2種類のデータの相関を確認するのに適した図。

状況に応じてどのグラフが適しているのか、を理解しておきましょう!

度数分布表

度数分布表は、データの最小値から最大値までの間をいくつかの階級に分類し、それぞれの階級に含まれる度数を示した表のこと

具体的には、以下のような表が度数分布表です。

なかには累積度数や累積相対度数が載ってないものもあったりしますが、それらも度数分布表です。

度数分布表の各用語を説明します。

度数分布表基本用語

  • 階級・・・データを整理するために用いる区間
  • 階級の幅・・・区間の幅
  • 階級値・・・階級の真ん中の値
  • 相対度数・・・「各階級の度数」÷「度数の合計」
  • 累積度数・・・その階級以下の度数を全て合計した値
  • 累積相対度数・・・「累積度数」÷「相対度数」or 「その階級以下の相対度数を全て合計した値」

度数分布表を使ってデータを整理すれば、データ全体の中で、どの部分のデータ数(度数)が多いのか、が簡単に把握できるようになります。

クロス集計表

クロス集計表は、2つのカテゴリーに属するデータを、それぞれのカテゴリーで分類し、データ数を集計できる便利な表です。

具体的には以下のようなものがクロス集計表です。

性別というカテゴリーと、好きな教科というカテゴリーそれぞれのデータ数(度数)が一目で確認できます。

上記のようなグラフは、左側の性別のカテゴリーが2つ、上側の教科のカテゴリーが5つなので、

2×5のクロス集計表

という言い方をします。

(カテゴリーの数によって変わります。)

代表値

代表値とは、データ全体の特徴を表す(代表する)値のことです。

具体的には、以下の3種類に分かれます。

平均値

その名の通り、データ全体を平らに均した(ならした)値のこと

私たちが小学生のころに習ってきた、「合計÷個数」の一般的な平均(正確には「算術平均」という)のことです。

平均値は、データ全体を使って導き出す代表値だという特徴があります。

そのため外れ値の影響を受けやすいというデメリットがあります。

※外れ値とは、他の値から大きく離れた値のこと。

例えば、年収100万円のフリーター4人の中に年収1兆円を超えるといわれているビルゲイツが1人加われば平均年収は爆上がりします。

平均値はこのように外れ値に弱い側面があります。

中央値

中央値は、データを大きさ順に並べた時に中央に位置する値のことです。

中央値は、データが奇数個の場合はシンプルに真ん中に位置するデータを選びます。

偶数個の場合は、真ん中に近い2つのデータの平均が中央値となります。

図にすると、以下の通りです。

中央値の特徴は、外れ値の影響を受けにくいことです。

先ほどの例で、年収100万円のフリーター4人の中に年収1兆円を超えるといわれているビルゲイツが加わったとしても中央値は変わりません。

最頻値

最頻値はその名の通り、最も頻繁に観測される値のことです。

こちらも中央値同様、外れ値の影響を受けにくいという特徴があります。

一方、データ数が少ないと活用できない(しにくい)、最頻値が複数になる可能性もあるというデメリットもあります。

数分布表においては最も度数の大きい階級の階級値が最頻値となる。

四分位数、四分位範囲

四分位数とは、データを大きさ順に並べた時に、データを4等分する値のことです。

言葉では伝わりにくいところなので図を見てみましょう。

ちなみに四分位数は

  • 第1四分位数・・・Q1
  • 第2四分位数・・・Q2
  • 第3四分位数・・・Q3

と表すことも多いので覚えておきましょう。(Qはquartileの略)

第二四分位数は中央値と同じ意味です。

また、データのばらつき度合いをはかる指標の一つとして、四分位範囲があります。

四分位範囲はデータの約半分がどれだけの範囲にあるのかを確認できる指標です。

計算方法は以下の通り

四分位範囲 = 第3四分位数 ー 第1四分位数

また、四分位偏差という値もあり、計算方法は以下の通りです。

四分位偏差 = 四分位範囲 ÷ 2

特に四分位範囲はよく問われるので覚えておきましょう!

箱ひげ図

箱ひげ図とは、データのばらつき具合や5数要約を直感的に把握できる図のことです。

※5数要約・・・最小値、第一四分位数、中央値、第三四分位数、最大値のこと。

ちなみに、統計学では「範囲 = 最大値 ー 最小値」で求めます。

こちらもよく問題で活用する計算式なので、覚えておきましょう!

標準偏差、分散

標準偏差、分散を一言でいうと “データのばらつき“ のことです。

データのばらつきとはなんなのかという点も含めて身近な例で考えてみましょう。

例)5教科のテストのクラス別平均点

こちらの表を見る限り、なんとなくBクラスの平均点の方がばらついているのは分かると思います。

しかし、相手にデータのばらつき度合いを示すときに「みたらわかるじゃないですか!」では非常に説得力に欠ける主観的な解釈だと思います。

そんなときに、ばらつきの度合いを数値で客観的に表せるのが分散や標準偏差なのです!

標準偏差、分散の求め方

まず分散の計算方法は以下の通りです。(「平均からのズレ」の二乗の平均)

一見難しそうな式ですが、要は

①平均とのズレ(偏差)を求める

②ズレの2乗の平均を求める 

の2つの計算をしているだけなんです!

平均とのずれを求めているのは、

「ばらつきの度合いを知るためには、平均値との乖離具合の合計を求めればばらつきの大きさがわかるんじゃね?」

というイメージです。

また、偏差を二乗しているのは、プラスマイナスが相殺しあって0になるのを防ぐためです。

さて、実際に先ほどのテストの例で計算してみましょう。

①平均とのズレを求める

平均点はどちらも50点です。上記点数から50点を引いてみましょう。

そうすると、以下のようになりました。

②ズレの2乗の平均を求める 

ここからは「ズレの二乗」の平均 を求めます。

Aクラス→{(-10)²+(-5)²+0+(5)²+(10)²}/5 = 50

Bクラス→{(-50)²+(-40)²+0+(40)²+(50)²}/5 = 1640

そうすると、Aクラスの分散は50、Bクラスの分散は1640となり、「Bクラスの方がばらつきが大きい」という事実を数字で示すことが出来ました!

標準偏差と分散の違い

標準偏差と分散はどちらも同じばらつき度合いを表す指標ですが、一体何が違うのでしょうか。

それは、標準偏差は分散の平方根ということです。

標準偏差の計算式は以下の通りです。

さきほどの分散の計算式に√をつけただけですね。

でもなぜ分散に√を付けただけの指標がわざわざあるのでしょうか。

その理由は、標準偏差には分散のデメリットをなくす特徴があるからです。

分散は、計算の過程で2乗しています。

そのため、単位も変わってしまうというデメリットがあります。

例えば、身長(㎝)の話をしているのに、分散を求めると㎝²になってしまいます。

そうすると、イメージもつきにくいし違和感も残ります。

そのため、「分散に平方根を付けたら元の単位に戻せるやん!」という考えで出来たのが標準偏差なのです!

標準偏差は現在多くの場所で活用されており、身近なところでは学力の偏差値の計算にも標準偏差は活用されています。

相関係数

相関係数とは、2変数間の関連の強さを数値化したものです。

計算式は以下の通り。

文字がたくさんあってややこしそうな式ではありますが、よくみると意外とシンプルです。

xとyの共分散 ÷ xの標準偏差×yの標準偏差

ということです。

相関係数の特徴

相関係数の読み取り方はかなり頻出です。絶対に覚えておきましょう!

  • 相関係数の読み取り方

    • 正の相関が強いと相関係数が1に近づく
    • 負の相関が強いと相関係数が-1に近づく
    • 相関係数が1 又は-1 のときは完全相関という
    • 相関係数が0 の付近は相関がないといえる

相関についての注意点

相関関係=因果関係ではないという点に注意が必要です。

例えば、アイスクリームの売り上げと、水難事故には相関関係があります。

というのも、ここには第三の変数として、気温が関係しています。

アイスクリームは気温が高いほど売れやすくなります。

また、気温が高いほどプールや海に行く人が増えるので水難事故も増えます。

その結果、アイスクリームが売れるにつれて水難事故増えているように見えてしまうのですが、実際のところ因果関係(アイスクリームが売れたから水難事故が増えたというわけではない。逆もしかり)はないのです。

このように、相関係数が高くなるため因果関係がありそうに見えるが実際には関係がないようなものを擬似相関(擬相関)といいます。

変動係数

変動係数は、2つの異なるデータのばらつきの度合いを表す指標です。

計算式は以下の通りです。

一見ややこしそうに見えますが、

要は

「標準偏差 ÷ 平均」

ということですね。

いたってシンプルです。

変動係数は以下のような場合に活躍します。

例1 単位が異なる場合

  • 身長 : 平均 170cm  標準偏差 4.6cm 変動係数0.027
  • 体重 : 平均 61kg   標準偏差 2.8kg 変動係数0.045

身長と体重は、単位が異なるため単純に標準偏差の大小で比較が出来ません。

このような場合に変動係数が役に立ちます。

上記例の変動係数をみると、体重の方が値が大きいので、すなわち体重の方が身長よりもばらつきが大きいということいえます。

例2 平均値が異なるケース

  • 管理職の年収  : 平均年収 2000万円  標準偏差 450万円 変動係数 0.225
  • 一般社員の年収 : 平均年収 300万円  標準偏差 100万円 変動係数 0.33

一般社員の平均年収は管理職の平均年収に比べて平均値が小さいため、単位が同じでも標準偏差の単純比較では適切な解釈が出来ません。

上記例では、標準偏差の値のみ見ると管理職の方がばらつきが大きいということになります。

しかし、変動係数を求めると、実は一般社員の方がばらつきが大きいといえることが分かりました。

最後に

本記事では解説していませんが、

あとは統計検定3級合格には

確率は高校レベルの基礎までわかっていれば大丈夫です。

あとは、条件付き確率については下記記事をご確認いただければと思います。

統計検定2級超頻出テーマ「条件付き確率」の問題を簡単に解くとっておきの方法!

また、統計的推測については、私自身理解していない状態で合格できたので今回は載せませんでした。

(希望があれば、追加で書こうと思います。)

最後まで読んでいただきありがとうございました。







  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計学

Copyright© Nissy BLOG , 2021 All Rights Reserved Powered by AFFINGER5.