今回は、テキストマイニングについてご紹介します。
私たちが今生きている世界には、「言葉」があふれています。
今読んでいるこのブログだってその一つです。
そんな世の中にあふれる言葉(テキスト)を分析することが出来れば、いろんなことが分かりそうな気がしませんか。
実際に言葉を分析する技術があり、その技術のことをテキストマイニングと呼びます。
そこで今回は、テキストマイニングではどんなことが分かるのかを簡単にまとめてみました!
この記事を読むと分かること
- テキストマイニングとは
- テキストマイニングのオススメツール
是非最後まで楽しんで読んでいただければ幸いです!
テキストマイニングとは
テキストマイニングとは、文章を集めて、分析して、その特徴をつかむ技術のことです。
私は趣味でミュージシャンの歌詞を分析したりしていますが、これもテキストマイニングの一つです。
例)Mr.Childrenの歌詞分析結果
そのほかにも、以下のように様々な言葉の分析が可能です。
テキストマイニングの分析対象の例
- 小説
- Amazonなどのネットショッピングの口コミ
- 映画レビュー
- 転職口コミサイト
- TwitterやLINE、Facebook、InstagramなどのSNS
- 漫才師の台本
- 記述式アンケートの回答
つまり、言葉のあるところにはテキストマイニングの可能性が無限に広がっているということです。
オススメのテキストマイニングツール
テキストマイニングを行うためのツールはいくつかあります。
ここからは、有名どころと、その特徴についてご紹介していきます。
R
統計ソフトのRでもテキストマイニングを行うことができます。
ワードクラウドや対応分析、共起ネットワークなど、基本的なテキストマイニングの手法は一通りできるようになっています。
ただし、利用には少しプログラミングの知識が必要になってくるので、プログラミング初心者の方にとっては少しハードルが高く感じるかもしれません。
ユーザーローカル
ユーザーローカルというWebサイトでもテキストマイニングができます。
ワードクラウドや単語出現頻度、共起キーワード、2次元マップ、係り受け解析、階層的クラスタリングなどの分析結果を見ることができます。
プログラミングも不要なので、テキストマイニングのイメージを知りたい方、軽く分析してみたいという場合にはオススメです。
ただし、データの前処理などは別のテキストエディタなどを使ってあらかじめ行う必要があります。
※ユーザーローカルさんには別での前処理ツールも存在するようです。
https://textmining.userlocal.jp/
KH Coder
KH Coderは、立命館大学の樋口耕一先生が開発したテキストマイニングのフリーソフトです。
ちなみにKH Coderの名前は、開発者の「K=Kawabata」「H=Higuchi」という名前が由来といわれています。
プログラミングの知識があまりない私でも気軽に使うことができて、前処理から細かい分析まで行うことができるので、一番オススメのテキストマイニングツールです。
また、他にも以下のような様々なメリットがあります。
- 開発者が定期的に講習会を開いている
- 定期的なアップデート
- プログラミングが不要
また、当ブログではKHCoderの使い方についてインストール方法から実際の分析方法まで詳しく説明しています。
完全無料で詳しい分析まで出来るので、気になった方は是非読んでみてください!
【KHCoder講座一覧】
- KH Coder講座①KHCoderのインストールの方法 見ながら動かすだけ!
- KH Coder講座②分析データの準備 データクレンジングのポイント
- KH Coder講座③抽出語リスト キーワードを抽出して分析!
- KH Coder講座④KWICコンコーダンス キーワードの出現場所を簡単に確認!
- KH Coder講座⑤共起ネットワークの作成方法 直感的分かりやすさNo.1!
- KH Coder講座⑥階層的クラスター分析 データをグループ分けして特徴を掴む!
- KH Coder講座⑦対応分析 散布図で関係性を把握!
- KHCoder講座⑧表記揺れの対処法 データクレンジング
- KHCoder講座⑨jaccard係数とは?計算方法や読み取り方など 語と語のつながりの強さを表す!
最後に
KHCoderやユーザーローカルなどの様々なツールが出てきて、プログラミング不要でテキストマイニングができる時代になりました。
私たちが日ごろ何気なく使っている言葉も、分析してみると、面白い特徴や傾向などが見られるかもしれません。
人類に言葉がある以上、テキストマイニングの可能性は無限大です!
是非、皆さんもテキストマイニングツールを使って、身の回りの言葉を分析してみてください!