KH Coder

KHCoder講座⑨jaccard係数とは?計算方法や読み取り方など 語と語のつながりの強さを表す!

【お知らせ】kindleにて書籍を出版しました!

kindle unlimitedご登録の方は無料で読めるので、是非読んでみてください!

KH Coderの分析の設定欄でよく出てくる”jaccard係数”

「聞いたことはあるけど意味はよく分からない」

「jccard係数ってどうやって求められてるの?」

「分析にどう活かすの」

そんな疑問に答えるべく、jaccard係数について解説していきます!

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

jaccard係数とは

jaccard係数は、「語と語の関連性(共起性)の強さを表す指標」の一つです。

ちなみに、jaccard係数以外の語と語との関連の強さを表す指標としては、「コサイン距離」や「Simpson係数」などがあります。

特に、共起ネットワークを作成するときに、語が多すぎると図が少し見にくくなってしまうことがあります。

そんなときは、jaccard係数を「0.2以上」のように設定します。

そうすると、その条件に当てはまるものしか表示されなくなり、見た目がスマートになります。

濃い情報のみを残せるということですね。

jaccard係数の設定は必要に応じて活用すると便利です。

jaccard係数の読み取り方

jaccard係数は、1に近ければ近いほど関連性が強く、0に近ければ近いほど関連性が弱くなります。

文章によっても変わってくるので、一概にいくら以上で関連が強いと言い切ることが難しい指標ではありますが、あえて例を挙げるとすると以下の通りです。

  • 0.1 → 関連がある
  • 0.2 → 強い関連がある
  • 0.3 → とても強い関連がある

(参考)http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=1313&mode=allread#1316

ただ、jaccard係数は相対的に評価するための指標だということを認識しておくことが大切です。

例えば、jaccard係数0.5以上の関連性がいくつも見られるような文章であれば、 jaccard係数0.3という関連の強さはそれほど重要なモノではないかもしれないからです。

jaccard係数の計算方法

実際に自分の手でjaccard係数を計算するということはないかもしれませんが、その計算方法は知っておいて損はないと思います。

jacard係数の計算式は、以下の通りです。

【2つの語X、Yがともに出現する程度を表す式】

少し分かりにくいかもしれないので図で説明します。

「 X∩Y 」は図で書くとこんなイメージ

つまり、「XかつY」ということですね。

そして、「 X∪Y 」は図で書くとこんなイメージ

つまり、「XまたはY」ということですね。

まとめると、jaccard係数は、

「語Xと語Yが同時に出現した数」 ÷ 「語Xと語Yのどちらか一方でも出現した数」 ということです。

jaccard係数を使えば、分析の幅が広がるので、覚えておくと便利です!

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座①KHCoderのインストールの方法 見ながら動かすだけ!

KH Coder講座⑦対応分析 散布図で関係性を把握!

KHCoder講座⑧表記揺れの対処法 データクレンジング

▼▼▼データ分析を学んで、年収を上げませんか?▼▼▼
無料オンライン説明会/講座開催中【datamix -データミックス-】
~オススメポイント~
  1. ビジネスパーソン向けのスクールなので、実務で役立つスキルが身につく!
  2. 参加無料の説明会、体験会がある!
  3. 国内最大級のデータサイエンススクールなので安心!
  4. 専門実践教育訓練給付金 (最大70%還付)対象のコースあり!
  5. スクールにありがちなしつこい勧誘がないので安心!(←ココ重要!)
  • この記事を書いた人

Nissy

同志社大学卒。 人事・経理、コンサルを経験し、現在はWebマーケティングやSEOライター、ブログ運営など、幅広い活動をしています。 【保有資格】 統計検定2級 統計調査士 ビジネス統計スペシャリスト ウェブ解析士 GAIQ(GoogleAnalytics個人認定資格) 全日本SEO協会認定SEOコンサルタント

-KH Coder
-, ,