KH Coder

KH Coder講座③抽出語リストとは 概要や活用イメージを分かりやすく解説

今回は、KHCoderを使った抽出語リストの出力方法をご紹介します。

抽出語リストの出力方法は、大きく分けて以下の2種類あります。

  • KHCoder画面上に表示させる方法
  • Excelシートに出力する方法

それでは、それぞれの出力方法について解説していきます。

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

KH Coder画面上に表示させる方法

まず、ツールバーから、「抽出語」「抽出語リスト」を選択します。

そうすると、頻度順に、それぞれの抽出語、それに対応した「品詞」、「出現回数」が一覧となった抽出語リストが出てきます。

デフォルトでは、上位100語が表示されます。

KHCoderでは、動詞や形容詞などの活用形になっている語は、基本の語に戻してから抽出しています。

抽出語の左にある「+」マークをクリックすると、活用形ごとの出現頻度も確認できます。

また、「フィルタ設定」を押すと、「品詞による語の選択」という画面が出てきて、特定の品詞で絞り込んでの抽出も可能です。

Excelシートに出力する方法

まず、ツールバーから、「抽出語」「抽出語リスト」「Excel出力」を選択します。

すると、以下のような画面が出てきます。

Excelシートに出力する場合は、抽出語リストの形式を以下の3種類のなかから選ぶことが出来ます。

  • 品詞別・・・品詞体系別に、出現回数のから順番に、すべての抽出語を確認できます。
  • 頻出150語・・・出現頻度上位150語が、50語×3列で出力されます。
  • 1列・・・品詞区分に関係なく、出現回数順で、リストが作成されます。

目的に応じて使い分けてください。

形式を選択したら、「記入する数値」で出現回数を、「出力する形式」で「Excel」を選択し、OKを押せば、出力されます。

※Excelに出力する場合も、「抽出語リスト」の画面で「フィルタ設定」から品詞を絞り込んだ抽出も可能です。

~「 品詞別」での出力イメージ~

~「頻出150語」の出力イメージ~

~「1列」の出力イメージ~

もとは膨大なテキストデータでしたが、KHCoderの抽出語リストを使うと、あっという間にそれぞれの語の出現回数が分かりました!

しかし、これはあくまで出現した回数を集計しただけで、これだけではまだ『人間失格』の特徴はほとんど掴めません。

そこで次は、抽出語リストで得られたデータを活用して、さらに『人間失格』の文章の特徴を探っていく方法をご紹介します!

▼▼▼【初心者にオススメ】KHCoderオフィシャルガイドブック▼▼▼

▼▼▼【初~中級者にオススメ】KHCoderを開発した先生の著書!▼▼▼

↓この記事を読んだ方の多くは、以下の記事も読んでいます。

KH Coder講座②分析データの準備 データクレンジングのポイント

KH Coder講座④KWICコンコーダンス キーワードの出現場所を簡単に確認!

[PR]※本サイトには、プロモーションが含まれています。

データサイエンティスト育成スクール「データサイエンスアカデミー」

Allegro|データサイエンススクールの初回面談申込

  • この記事を書いた人

にっしー

フリーランス3年目の29歳。 専門統計調査士など、統計に関する資格を複数保有。 自分が数学苦手だった文系だからこそ書ける、分かりやすい情報発信を心がけています。 著書『これから学ぶ人のための統計学超入門』 寄稿実績『知識ほぼゼロからデータ分析の専門家になる(週刊東洋経済)』、『50歳からの学び直し入門 (インターナショナル新書)』(一部)

~人気記事~

1

リスキリングの流れもあり、最近注目度が高まりつつあるデータサイエンス。 データサイエンスは独学で学ぶには少しハードルが高 ...

2

こんにちは!統計ブロガーのにっしーです! 今回は、統計学のキホンを学ぶのに最適な統計検定3級を爆速で取るための重要事項を ...

3

データサイエンススクールがオススメな理由 昨今、データサイエンスを学びたいという人が急増しています。 しかし、データサイ ...

4

こんにちは。統計ブロガーのにっしーです! 「統計学」というとみなさんはどのようなイメージがあるでしょうか。 なんだか少し ...

5

いきなりですが、皆さんは擬似相関という言葉をご存じでしょうか。 擬似相関は、”見せかけの相関”ともいわれる、うっかりして ...

-KH Coder
-, ,