KH Coder

KH Coder講座④KWICコンコーダンスとは 概要や分析手順を分かりやすく解説

今回の記事のテーマはKWICコンコーダンスです。

前回の記事では、抽出語リストを作成しました。

そうすると次に確認すべきなのは、抽出語リストを作ったときに上位に出てきた語が実際にどのような文章の中で使われているのかです。

それを簡単に調べることが出来るのが、KWICコンコーダンスという機能です。

今回は、そんなKWICコンコーダンスの使い方について紹介していきます。

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

KWICコンコーダンス=原文参照機能

KWICは、「Keyword in context」の略で、コンコーダンス(concordance)は「用語索引」のこと。

つまり、KWICコンコーダンスは「前後の文脈を含めて、文中でキーワードが使われている場所を表示する機能」のことです。

KWICコンコーダンスを使うことで、抽出語リストだけでは分からない詳細な情報を手に入れることが出来ます。

まずは、検索するキーワードを決めます。

今回は、前回の抽出語リストの記事で分かった、『人間失格』で最も多く現れた語「自分」で検索することにしましょう。

検索するキーワードを決めたら、

「ツール」「抽出語」「KWICコンコーダンス」とクリックしていきます。

そうすると、以下のような画面が現れます。

まず、「抽出語」の欄にキーワードを入力しましょう。

そして、そのほかは一旦デフォルトのままで、検索ボタンをクリックします。

すると、以下のような検索結果が出てきます。

あっというまに原文参照ができました!非常に便利な機能ですね。

(※デフォルトでは、キーワードの前後24語が出てくるようになっていますが、もっと前後の語数を変えて、分析しやすくすることも出来ます。)

れでキーワードがどんな文脈の中で使われているのか、一目で分かるようになりました。

しかし、この検索結果だけでは何を見たらいいのかあまりよく分からない・・・と思う方もおられるかもしれません。

たしかに、KWICコンコーダンスを出したものの、ヒット数や前後の語数がこれだけ多いと、結局「自分」という語が一体他のどんな語と結びつきが強いのかよく分かりにくいというのは、もっともです。

そこで出てくるのが、コロケーション統計です。

コロケーション統計を使えば、キーワードと関連の強い語を簡単に確認することが出来ます。

コロケーション統計

「急に難しそうな言葉が出てきた・・・」と思うかもしれませんが、そんなことはないので安心して下さい。

コロケーションとは、「二つ以上の単語の慣用的なつながり。連語関係。(goo辞書より)のことです。

つまりKWICコンコーダンスで検索したキーワードと関わりの強いキーワードの統計をとることが、コロケーション統計なのです。

実際には、キーワードの周辺に多く現れた語とその回数を集計しています。

このコロケーション統計の手順ですが、

実は、先ほどのKWICコンコーダンスの画面からすぐに見ることが出来ます。

右下に「集計」というボタンがあります。

こちらをクリックしてみましょう。

すると早速、コロケーション統計の画面が出てきました!

これで、「自分」と関連の強いキーワードを探すことが出来ました。

「自分」と一緒に使われている語として、「ない」「ぬ」「ん」という否定助動詞が上位を占めていることから、一般的な『人間失格』のイメージ通り、かなりネガティブな記述が多いのではないかと考えられます。

しかし、「ない」と「自分」が組み合わさっていても、必ずしもネガティブ表現だとは言い切れません。

もしこれらが、「貧しくない自分」「見た目が悪くない自分」などの使われ方が多かったならば、否定助動詞を使ったポジティブ表現となります。

つまり、関連の強いキーワードがどのような使われ方をしているかも調べることが大切です。

それについても見ていきましょう。

もう一度、コロケーション統計の画面を出します。

結果の表の中に、左、右と数字が組み合わさって書かれています。

ここでいう左右は、「自分」というキーワードからみて右か左かということです。

数字は、キーワードと離れている語数を示しています。

例えば、左1にカウントされているのは、「~ない自分」という使われ方をしているということです。

実際に「ない」の左1の例が一つあるので、どんな使われ方をしているか見てみましょう。

KWICコンコーダンスの画面に戻って、「追加条件」をクリックします。

すると、以下のような画面が出てきますので、追加条件1の位置をクリックして「左1」を選択し、抽出語に「ない」を入力します。

場合によっては品詞や活用形も入力しますが、今回は使用例が一つなのでこれで「OK」をクリックします。

すると、「ない自分」という形で使われている例が出てきました。

「ない自分」だけでは、ポジティブな意味合いで使われているのか、ネガティブな意味合いで使われているのかは分かりませんでした。

しかし、KWICコンコーダンスで調べたことによって、「たかが、高等学校の一生徒に過ぎない自分」という使われ方をしていることが分かりました。

「~に過ぎない」という表現は、程度の低さを強調する表現なので、「自分」という語と組み合わさったとき、ネガティブな表現であると捉えてよいでしょう。

このようにして、今度は「ない」「ぬ」「ん」などの語と関連の強い語を調べると、さらに面白い結果が分かるかもしれません。

次回の記事では、そのあたりを含めた分析をしていきましょう!

最後に

「『人間失格』がネガティブな表現の多い小説だということは、わざわざ調べなくても分かるだろ!」

そう思う方もおられるかもしれません。

しかし大切なのは、「何を根拠にしているかを示す」ということです。

「俺が読んだ感覚では、ネガティブな表現が多かったぞ!」と他の人に言われても、あまり説得力がありませんよね。

しかし、このような分析結果をもとにして、ネガティブな表現が多いということを根拠とともに聞くことが出来れば、非常に納得できると思いませんか。

つまり、実際にデータ分析をすることで、主観ではなく、客観的な根拠を持って発言をすることが可能になるのです。

データ分析では、誰もが予想だにしなかった驚愕の結果が出ることもありますが、むしろほとんどの場合は、予想通りの結果に終わることが多いです。

しかし、予想通りの結果になったからと言って、それは決して無駄な分析ではありません。

予想通りの結果でも、データ分析がなければ、そこには客観的な根拠がないからです。

「当たり前のことに根拠を持たせる」ということもデータ分析の持つ重要な役割だと私は考えています。

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座③抽出語リスト キーワードを抽出して分析!

KH Coder講座⑤共起ネットワークの作成方法 直感的分かりやすさNo.1!

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-KH Coder
-, ,