KH Coder

KHCoder講座⑨jaccard係数とは 計算方法や読み取り方を分かりやすく解説

KH Coderの分析の設定欄でよく出てくる”jaccard係数”

「聞いたことはあるけど意味はよく分からない」

「jccard係数ってどうやって求められてるの?」

「分析にどう活かすの」

そんな疑問に答えるべく、jaccard係数について解説していきます!

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

jaccard係数とは

jaccard係数は、「語と語の関連性(共起性)の強さを表す指標」の一つです。

ちなみに、jaccard係数以外の語と語との関連の強さを表す指標としては、「コサイン距離」や「Simpson係数」などがあります。

特に、共起ネットワークを作成するときに、語が多すぎると図が少し見にくくなってしまうことがあります。

そんなときは、jaccard係数を「0.2以上」のように設定します。

そうすると、その条件に当てはまるものしか表示されなくなり、見た目がスマートになります。

濃い情報のみを残せるということですね。

jaccard係数の設定は必要に応じて活用すると便利です。

jaccard係数の読み取り方

jaccard係数は、1に近ければ近いほど関連性が強く、0に近ければ近いほど関連性が弱くなります。

文章によっても変わってくるので、一概にいくら以上で関連が強いと言い切ることが難しい指標ではありますが、あえて例を挙げるとすると以下の通りです。

  • 0.1 → 関連がある
  • 0.2 → 強い関連がある
  • 0.3 → とても強い関連がある

(参考)http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1313&mode=allread#1316

ただ、jaccard係数は相対的に評価するための指標だということを認識しておくことが大切です。

例えば、jaccard係数0.5以上の関連性がいくつも見られるような文章であれば、 jaccard係数0.3という関連の強さはそれほど重要なモノではないかもしれないからです。

jaccard係数の計算方法

実際に自分の手でjaccard係数を計算するということはないかもしれませんが、その計算方法は知っておいて損はないと思います。

jacard係数の計算式は、以下の通りです。

【2つの語X、Yがともに出現する程度を表す式】

少し分かりにくいかもしれないので図で説明します。

「 X∩Y 」は図で書くとこんなイメージ

つまり、「XかつY」ということですね。

そして、「 X∪Y 」は図で書くとこんなイメージ

つまり、「XまたはY」ということですね。

まとめると、jaccard係数は、

「語Xと語Yが同時に出現した数」 ÷ 「語Xと語Yのどちらか一方でも出現した数」 ということです。

jaccard係数を使えば、分析の幅が広がるので、覚えておくと便利です!

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座①KHCoderのインストールの方法 見ながら動かすだけ!

KH Coder講座⑦対応分析 散布図で関係性を把握!

KHCoder講座⑧表記揺れの対処法 データクレンジング

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-KH Coder
-, ,