統計トピック

【統計の落とし穴】データに潜むウソを見抜くコツまとめ!情報社会をサバイブするために必要なデータリテラシーを身につけよう!

平成29年総務省の情報通信白書で”ビッグデータ利活用元年”という言葉が出てきました。

それほどに現代はデータの利活用に重きを置かれている時代であり、

今や私たちの身の回りはたくさんのデータであふれています。

そして、今後もデータが増え続けていくのは間違いないでしょう。

そんな世の中にあふれているデータですが、それらのデータは必ずしも正しいものとは限りません。

なかには、自らの主張を通したいがために、あえてウソのデータ・分析結果を使う人もいます。

(有名な言葉で「数字はウソをつかないが、嘘つきは数字を使う」という言葉があります。)

また、悪気はなくても、誤ったデータ、分析結果となってしまっているケースもあります。

正しいデータや正しくないデータが入り混じった世の中を生き抜くには、そのデータが信頼に足るものなのか見抜くためのデータリテラシーが必要になってきます。

今回は、データリテラシーとして、世の中に蔓延るデータのウソを見破るためのコツをいくつかご紹介します。

データ分析の具体的な方法は明記されているか

まずチェックすべき項目として、その分析対象がどのような条件で収集されどのような方法で導き出されているのかが明記されているかどうかを確認しましょう。

分析方法などが明記されていない場合、自分たちの都合のいいようにデータを使っている可能性も考えられます。

例えば、「令和元年(2019年)家計の金融行動に関する世論調査[単身世帯](金融広報中央委員会)」によると、20代の平均貯蓄額は106万円となっていました。

しかし、20代の平均貯蓄額の中央値をみると、5万円でした。

つまり、外れ値である一部の富裕層によって平均が引き上げられたことで、このようなデータが出てしまうのです。

この場合の平均貯蓄額106万円はウソのデータではありませんが、実態を正しく示しているとも言えません。

20代は貯蓄が多いという風にいいたければ平均値を使うし、少ないと見せたければ中央値が使われるのです。

いいデータは、どちらも記載されていることです。

正しくサンプリングされているか

正しくサンプリングされているかはデータの信頼性を判断するうえで、非常に重要な要素です。

サンプリングとは、調査を行う際に母集団(全体)から調査対象となる標本を一部抜き出すことを意味します。

例えば、「渋谷で100人に聞き取り調査」と書いてあったとしても、男性100人に聞くのと、女性100人に聞くのとでは、結果が変わってくる可能性があります。

そのため、「渋谷の20代男女100人に聞き取り調査(男性50名女性50名)」など細かくサンプルの内容を書かれており、その内容も極端な偏りがないものの方が、調査の信頼性が高いといえます。

グラフに潜む巧妙な罠

数字だけでなく、グラフを使ってデータの解釈をねじ曲げる事例もあります。

例えば、以下の画像を見てください。

以前ネットで話題になった画像ですが、某予備校の合格実績です。

グラフや矢印を見ると、合格実績は年々増えているように見えます。

しかし、数字の部分をよく見ると・・・

いや、2015年→2016年で減ってるやないかい!!!

そうです!

遠近法を使ってあたかも増えているように見せていたのです。

ここまで来ると逆に面白いですが、実際にこのようにデータを自分たちの都合の良いように解釈させようとすることはよくあることです。

もしかしたら私たちも気づかない間に不正なデータ・情報をつかまされているかもしれないのです。

グラフをみるときは、軸が適切になっているかは確認の必須項目です。

追試可能性があるか

分析結果は、他の人が実施したときにも再現できるかどうか(追試可能性)が非常に重要です。

例えば、小保方さんのSTAP細胞の騒動が分かりやすいのですが、

彼女はSTAP細胞が出来たと発表しました。

ただ、発表後に再現できなかったためにウソだと非難されてしまいました。

本当にSTAP細胞が作れたのか、作れなかったのか、私たちには分かりません。

少なくとも、再び作れていれば、その信頼はゆるぎないものになっていたでしょうし、嘘かどうか論争も起こらなかったのではないかと思います。

このように、追試可能性があるかどうかというのは、分析結果の信憑性に大きく変わってくる重要な要素なのです。

第三の変数による影響

たとえば、交通事故は女性よりも男性のほうが件数が多いといわれています。

しかし、だから男性のほうが女性よりも運転が下手だ!とは言えません。

なぜなら、そもそも一般的に女性よりも男性のほうが運転する機会が多いからです。

つまり、交通事故件数と性別に関連があるのではなく、性別と運転する距離・機会の多さなどに関連があり、

そして運転する距離や機会の多さと交通事故件数に関連があると考えたほうが自然です。

このように一見直接関連するように見えて、間に第三の変数が潜んでいることがあります。

今回の例では、運転する距離のことを第三の変数と呼びます。

データの関連性を見るとき、このような第三の変数が隠れていないかを確認することも重要です。

最後に

データが溢れる世の中になったからこそ、そこに正しくないデータが出てくるのもごく自然なことです。

だからこそ、自分を守るためにデータリテラシーが必要なのです。

データリテラシーとは、「データを読み、処理し、分析し、議論する」能力のこと。(マサチューセッツ工科大学の定義より)

データがあふれる現代をサバイブするうえで、データリテラシーはもはや欠かせないものになっています。

データリテラシーを身につけて、情報社会の波にのまれないよう、乗り越えていきましょう!

【徹底公開】たった3日で統計調査士を取得した勉強法をご紹介!【統計検定】

【これさえあれば大丈夫】統計検定2級の学習にオススメのコンテンツまとめ!

【副業デビュー】超初心者向けWordPressブログの始め方!【完全版】







  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-統計トピック

Copyright© Nissy BLOG , 2021 All Rights Reserved Powered by AFFINGER5.