KH Coderの分析の設定欄でよく出てくる”jaccard係数”
「聞いたことはあるけど意味はよく分からない」
「jccard係数ってどうやって求められてるの?」
「分析にどう活かすの」
そんな疑問に答えるべく、jaccard係数について解説していきます!
▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼
▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼
jaccard係数とは
jaccard係数は、「語と語の関連性(共起性)の強さを表す指標」の一つです。
ちなみに、jaccard係数以外の語と語との関連の強さを表す指標としては、「コサイン距離」や「Simpson係数」などがあります。
特に、共起ネットワークを作成するときに、語が多すぎると図が少し見にくくなってしまうことがあります。
そんなときは、jaccard係数を「0.2以上」のように設定します。
そうすると、その条件に当てはまるものしか表示されなくなり、見た目がスマートになります。
濃い情報のみを残せるということですね。
jaccard係数の設定は必要に応じて活用すると便利です。
jaccard係数の読み取り方
jaccard係数は、1に近ければ近いほど関連性が強く、0に近ければ近いほど関連性が弱くなります。
文章によっても変わってくるので、一概にいくら以上で関連が強いと言い切ることが難しい指標ではありますが、あえて例を挙げるとすると以下の通りです。
- 0.1 → 関連がある
- 0.2 → 強い関連がある
- 0.3 → とても強い関連がある
(参考)http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1313&mode=allread#1316
ただ、jaccard係数は相対的に評価するための指標だということを認識しておくことが大切です。
例えば、jaccard係数0.5以上の関連性がいくつも見られるような文章であれば、 jaccard係数0.3という関連の強さはそれほど重要なモノではないかもしれないからです。
jaccard係数の計算方法
実際に自分の手でjaccard係数を計算するということはないかもしれませんが、その計算方法は知っておいて損はないと思います。
jacard係数の計算式は、以下の通りです。
【2つの語X、Yがともに出現する程度を表す式】
少し分かりにくいかもしれないので図で説明します。
「 X∩Y 」は図で書くとこんなイメージ
つまり、「XかつY」ということですね。
そして、「 X∪Y 」は図で書くとこんなイメージ
つまり、「XまたはY」ということですね。
まとめると、jaccard係数は、
「語Xと語Yが同時に出現した数」 ÷ 「語Xと語Yのどちらか一方でも出現した数」 ということです。
jaccard係数を使えば、分析の幅が広がるので、覚えておくと便利です!
▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼
▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼
↓この記事を読んだ方の多くは、以下の記事も読んでいます。