KH Coder

KHCoder講座⑨jaccard係数とは?計算方法や読み取り方など 語と語のつながりの強さを表す!

2022年1月3日

▼運営者イチオシのデータ活用特化型のスクールはこちらから!▼


【説明会無料】これからデータ分析を学びたい方にオススメのオンラインスクール

~オススメポイント~

  1. 年間2200名の社会人が受講している日本屈指のデータサイエンススクールなので安心!
  2. データサイエンスの基礎や、Excelでのデータ分析など講座の種類が豊富!
  3. 参加無料の説明会、体験会がある!
  4. スクールにありがちなしつこい勧誘がない(←ココ重要!)

KH Coderの分析の設定欄でよく出てくる”jaccard係数”

「聞いたことはあるけど意味はよく分からない」

「jccard係数ってどうやって求められてるの?」

「分析にどう活かすの」

そんな疑問に答えるべく、jaccard係数について解説していきます!

jaccard係数とは

jaccard係数は、「語と語の関連性(共起性)の強さを表す指標」の一つです。

ちなみに、jaccard係数以外の語と語との関連の強さを表す指標としては、「コサイン距離」や「Simpson係数」などがあります。

特に、共起ネットワークを作成するときに、語が多すぎると図が少し見にくくなってしまうことがあります。

そんなときは、jaccard係数を「0.2以上」のように設定します。

そうすると、その条件に当てはまるものしか表示されなくなり、見た目がスマートになります。

濃い情報のみを残せるということですね。

jaccard係数の設定は必要に応じて活用すると便利です。

jaccard係数の読み取り方

jaccard係数は、1に近ければ近いほど関連性が強く、0に近ければ近いほど関連性が弱くなります。

文章によっても変わってくるので、一概にいくら以上で関連が強いと言い切ることが難しい指標ではありますが、あえて例を挙げるとすると以下の通りです。

  • 0.1 → 関連がある
  • 0.2 → 強い関連がある
  • 0.3 → とても強い関連がある

(参考)http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1313&mode=allread#1316

ただ、jaccard係数は相対的に評価するための指標だということを認識しておくことが大切です。

例えば、jaccard係数0.5以上の関連性がいくつも見られるような文章であれば、 jaccard係数0.3という関連の強さはそれほど重要なモノではないかもしれないからです。

jaccard係数の計算方法

実際に自分の手でjaccard係数を計算するということはないかもしれませんが、その計算方法は知っておいて損はないと思います。

jacard係数の計算式は、以下の通りです。

【2つの語X、Yがともに出現する程度を表す式】

少し分かりにくいかもしれないので図で説明します。

「 X∩Y 」は図で書くとこんなイメージ

つまり、「XかつY」ということですね。

そして、「 X∪Y 」は図で書くとこんなイメージ

つまり、「XまたはY」ということですね。

まとめると、jaccard係数は、

「語Xと語Yが同時に出現した数」 ÷ 「語Xと語Yのどちらか一方でも出現した数」 ということです。

jaccard係数を使えば、分析の幅が広がるので、覚えておくと便利です!

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座①KHCoderのインストールの方法 見ながら動かすだけ!

KH Coder講座⑦対応分析 散布図で関係性を把握!

KHCoder講座⑧表記揺れの対処法 データクレンジング

データ分析を学びたい方へ

最後まで読んでいただきありがとうございます!管理人のにっしーです!

私は現在、フリーランスとしてデータ分析の仕事をしています。

しかし最初は、未経験スタートだったので、周囲との差もあり非常に大変な思いをしました。。

もし今転職をやり直すならば、あらかじめスクールに通って、ある程度知識を付けたうえで転職すると思います。

データ分析を仕事にしたい方は、一度データミックスの無料説明会に参加してみるのがオススメです!

話を聞くだけでも、自分のキャリアを考えるいいキッカケになると思いますよ!


▼無料で説明会に参加したい方は、以下のURLから!▼
 

>>【データミックス】データサイエンティスト育成スクールの無料説明会参加
 

~オススメポイント~

  1. 年間2200名の社会人が受講している日本屈指のデータサイエンススクールなので安心!
  2. データサイエンスの基礎や、Excelでのデータ分析など講座の種類が豊富!
  3. 参加無料の説明会、体験会がある!
  4. スクールにありがちなしつこい勧誘がない(←ココ重要!)
  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-KH Coder
-, ,