こんにちは!統計ブロガーのにっしーです!
今回は、統計調査でよく活用される無作為抽出(ランダムサンプリング)についてご紹介します!
無作為抽出について分かると、アンケート調査など、社会調査を考える際に大変役に立ちます。
是非この機会に学んでおきましょう!
この記事を読むと分かること
- 無作為抽出とは何か
- 無作為抽出の種類
- 色々な活用事例
是非最後まで楽しんで読んでいただければ幸いです!
無作為抽出(ランダムサンプリング)とは
無作為抽出(ランダムサンプリング)とは、あるデータ群から一部のデータ(サンプル)を無作為(ランダム)に抽出する行為です。
無作為抽出は、データ数が膨大なデータ群に対してよく用いられます。
データを無作為に抽出することは、あるデータを一定の確率で選ぶことと同義であるため、無作為抽出は確率抽出とも呼ばれます。
なお、あるデータ群からデータを代表する特徴を持ったサンプルを抽出する、無作為抽出とは真逆の抽出方法を「有意抽出」と呼びます。
無作為抽出のメリット
無作為抽出を利用すると、データ数が膨大なデータ群の分析を楽に行なえます。
無作為抽出を適切に行えれば、膨大なデータ数を持つデータ群の性質を一部のデータを調べるだけで把握可能です。
ただし、データ抽出に人間の意思や何かしらの意図が絡んでしまうと、適切な無作為抽出を行えず分析の質が落ちてしまう可能性もあります。
無作為抽出のデメリット
無作為抽出したデータに対する分析結果と、データ群全てに対して分析を行った結果に誤差が生じる可能性があります。
無作為抽出されたデータはあくまで元データの一部であるため、適切に無作為抽出を行えても質の高い分析結果が得られない場合があるでしょう。
また、無作為抽出という作業自体が難しいというデメリットもあります。
データの無作為抽出を試みても、どこかで自分や他人の意思、意図がデータ抽出に反映されてしまう可能性があります。
無作為抽出の種類
ここからは、無作為抽出の手法の種類について解説します。
取り扱うデータ群の規模や性質の種類に応じて、これから解説する無作為抽出方法を使い分けます。
単純無作為抽出法
単純無作為抽出法とは、乱数を用いてデータ群からデータの一部を抽出する方法です。
単純無作為抽出法は非常にシンプルな方法であるため、扱いが容易で精度や誤差の評価も簡単です。
ただしデータ群の一覧が必要で、データ抽出に時間やコストがかかるというデメリットもあります。
系統抽出法
系統抽出法とは、通し番号をつけたデータ群に対して1つ目の抽出対象をランダムに選び、それ以降のデータを一定間隔で抽出する方法です。
系統抽出法を活用すると、抽出されるデータの1つ目が決まれば他の抽出されるデータも確定するため、データ抽出の手間を減らせます。
しかし、データ群の並び順自体に周期や偏りがあると、抽出されるデータにも偏りが見られる可能性があります。
クラスター抽出法(集落抽出法)
クラスター抽出法とは、データ群から小規模なデータのまとまりであるクラスターを生成し、データ抽出を行う手法です。
クラスター抽出法の手順は以下のとおりです。
- データ群をクラスターに分割する
- 生成したクラスター群の中から、一部のクラスターを無作為に抽出する
- 抽出したクラスターに含まれているデータ全てに対して、分析を行う
クラスター抽出法は、小さなデータのまとまりが元々見られるようなデータ群に対して有効です。
ただし、無作為に抽出したクラスター同士にデータの偏りが見られる可能性もあります。
層別抽出法
層別抽出法とは、データ群をあらかじめいくつかのグループに分け、それぞれのグループから必要な数のデータを無作為に抽出する方法です。
層別抽出法の手順は以下のとおりです。
- データ群の大まかな特徴(男女比、年齢、職業など)をあらかじめ把握、特徴に従ってグループ分けを行う
- それぞれのグループから抽出したいデータ数を決める
- 2で決めた数だけ、それぞれのグループから無作為にデータを抽出する
層別抽出法は、分布に大きな偏りがあるデータ群に対して有効です。
ただし、層別抽出法を活用するためには、事前にデータ群の構成情報を把握する必要があります。
二相抽出法
二相抽出法とは、構成情報がわからないデータ群に対して層別抽出法を適用させる方法です。
二相抽出法の手順は以下のとおりです。
- データ群の中から一部のデータを抽出する
- 抽出したデータの構成情報を調べる
- 調べた構成情報に基づいて、1で抽出したデータに層別抽出を行う
二相抽出法を用いると、あらゆるデータ群に対して層別抽出を行えます。
しかし、二相抽出法は二段階のデータ抽出を必要とするため、最終的に抽出されるデータ数が小さくなる可能性があります。
多段抽出法
多段抽出法とは、データ群のグループ分けとデータの無作為抽出を繰り返してデータ抽出を行う方法です。
多段抽出法の手順は以下のとおりです。
- データ群をいくつかのグループに分ける
- 生成したグループから一部のグループを無作為に選ぶ
- 選んだグループに含まれるデータから一部のデータを無作為に選ぶ
- 3の手順を繰り返す
多段抽出法を用いると、膨大なデータ数を一括で扱う必要がありません。
そのため、データ数が膨大なデータ群に対して有効です。
ただし、データ抽出完了までの工程が多いため、データ抽出までに時間がかかります。
また、層化抽出法と多段抽出法を組み合わせた方法のことを層化多段抽出法と呼びます。
確率比例抽出法
確率比例抽出法とは、複数のデータ群からデータ抽出を行う際に用いられる方法です。
確率比例抽出法の手順は以下のとおりです。
- それぞれのデータ群のデータ数を確認する
- それぞれのデータ群の大きさと、抽出するデータ数の大きさの比が等しくなるように、各データ群からデータを無作為に抽出する
確率比例抽出法は、複数のデータ群から抽出したデータ同士を比べる際に役立ちます。
そのため、複数の地域情報を取り扱う市場調査などでよく利用されます。
無作為抽出の活用例
ここからは、無作為抽出の活用例を紹介します。
テレビ・ラジオの視聴率調査
テレビ・ラジオの視聴率調査は、日本国内全ての世帯に対して行われているわけではありません。
日本国内の世帯から一部の世帯を無作為に選出し、選出された世帯に対して視聴率調査が行われています。
視聴率の調査方法については以下の記事で詳しく説明しています!
無作為抽出だけでなく、標本調査や区間推定など統計学を楽しく学べる内容なので、気になった方は是非読んでみてください!
商品の品質管理
工場などで製造される製品は、全てが商品として市場に出回るわけではありません。
製品が作られた後にチェックされた結果、不良品として廃棄されるものもあります。
製造される製品の中に不良品がどの程度含まれているかを調べるために行われるのが、製品の無作為抽出です。
メーカーは定期的に製品の無作為抽出を行い不良品の割合を調べ、そのデータを商品の品質管理や品質改善に活用します。
アンケート調査
調査対象となる母数が多いアンケート調査に、無作為抽出はよく用いられます。
ある年代や職業を対象にアンケート調査する際、それらの特徴に合致する人物全てにアンケートを取ることは現実的ではありません。
そのため、アンケート対象と中から無作為に人物を選出し、選出された人々に対してアンケートを実施します。
なお、アンケート調査対象を選ぶ際、注意していても人間の意思や意図が介入してしまうことが多いです。
そのため、アンケート調査で無作為抽出を活用するためには、一定以上のスキルが必要とされます。
まとめ
本記事では、無作為抽出についての概要やメリット、デメリット、無作為抽出手法の種類、無作為抽出の活用例を解説しました。
無作為抽出は、膨大なデータの分析を楽にする手法です。
そのため、仕事などで膨大なデータを扱うような人には必須となる手法でしょう。
膨大なデータ群のデータ分析を行いたいと考えている方は、無作為抽出について学んでみてはいかがでしょうか?
また、本記事を読んで統計学やデータ処理について興味を持った方は、ぜひ深く学んでみてください。
この記事を読んだ方にオススメの記事はこちら!