KH Coder

KHCoder講座⑨jaccard係数とは?計算方法や読み取り方など【語と語のつながりの強さを表す!】

2021年2月7日

KH Coderの分析の設定欄でよく出てくる”jaccard係数”

「聞いたことはあるけど意味はよく分からない」

「jccard係数ってどうやって求められてるの?」

「分析にどう活かすの」

そんな疑問に答えるべく、jaccard係数について解説していきます!

jaccard係数とは

jaccard係数は、「語と語の関連性(共起性)の強さを表す指標」の一つです。

ちなみに、jaccard係数以外の語と語との関連の強さを表す指標としては、「コサイン距離」や「Simpson係数」などがあります。

特に、共起ネットワークを作成するときに、語が多すぎると図が少し見にくくなってしまうことがあります。

そんなときは、jaccard係数を「0.2以上」のように設定します。

そうすると、その条件に当てはまるものしか表示されなくなり、見た目がスマートになります。

濃い情報のみを残せるということですね。

jaccard係数の設定は必要に応じて活用すると便利です。

jaccard係数の読み取り方

jaccard係数は、1に近ければ近いほど関連性が強く、0に近ければ近いほど関連性が弱くなります。

文章によっても変わってくるので、一概にいくら以上で関連が強いと言い切ることが難しい指標ではありますが、あえて例を挙げるとすると以下の通りです。

  • 0.1 → 関連がある
  • 0.2 → 強い関連がある
  • 0.3 → とても強い関連がある

(参考)http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1313&mode=allread#1316

ただ、jaccard係数は相対的に評価するための指標だということを認識しておくことが大切です。

例えば、jaccard係数0.5以上の関連性がいくつも見られるような文章であれば、 jaccard係数0.3という関連の強さはそれほど重要なモノではないかもしれないからです。

jaccard係数の計算方法

実際に自分の手でjaccard係数を計算するということはないかもしれませんが、その計算方法は知っておいて損はないと思います。

jacard係数の計算式は、以下の通りです。

【2つの語X、Yがともに出現する程度を表す式】

少し分かりにくいかもしれないので図で説明します。

「 X∩Y 」は図で書くとこんなイメージ

つまり、「XかつY」ということですね。

そして、「 X∪Y 」は図で書くとこんなイメージ

つまり、「XまたはY」ということですね。

まとめると、jaccard係数は、

「語Xと語Yが同時に出現した数」 ÷ 「語Xと語Yのどちらか一方でも出現した数」 ということです。

jaccard係数を使えば、分析の幅が広がるので、覚えておくと便利です!

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座①KHCoderのインストールの方法【見ながら動かすだけ!】

KH Coder講座②分析データの準備【データクレンジングのポイント】

KH Coder講座③抽出語リスト【キーワードを抽出して分析!】







  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-KH Coder
-, ,

Copyright© Nissy BLOG , 2021 All Rights Reserved Powered by AFFINGER5.