おすすめの無料テキストマイニングツール・ソフト

無料で使えるおすすめのテキストマイニングソフトを3つご紹介します。

AIテキストマイニング

ブラウザで簡単にワードクラウドなどが描ける便利なツールです。無料で使用でき、ユーザー登録する(メールアドレスを登録する)と使える機能が増えます。商用利用も可能です。しかし、利用時にはクレジットなどの表記が必要です。

KHCoder

使用するためにはパソコンにインストールする必要があります。学術分野で広く利用されているソフトです。商業利用も可能です。

2023年12月からソフトウェアとして販売されるようになったため、無料でインストールできなくなっています。いちおう無料版も用意されていますが、機能はかなり制限されています。

MTMineR

Rを使ったテキストマイニング専用のソフトです。GUIがあるため、プログラムの知識(Rの知識)がなくても使えます。こちらもPCにインストールする必要があります。商業利用も可能です。

現在、ソフトはダウンロードできなくなっています。

比較

ここでは3つのソフトをご紹介します。いずれも無料で使用できます。PythonやExcelで形態素解析から始めるよりも、簡単にできます。

比較表
名称環境文字数文章比較
AIテキストマイニング WEB20万字以下2つ
KH Coder PC制限なし制限なし
MTMineR PC制限なし制限なし

手軽なツール

インストールなどの手間を省き文章を分析する場合はユーザーローカルのAIテキストマイニングがおすすめです。ユーザー登録すると全機能を無料で使えます。ユーザー登録も無料です。なお、結果をメディアなどに記載する場合は、ユーザーローカルに利用通知が必要です。

AIテキストマイニングでできること

文章を貼り付けるだけで、分析ができます。利用可能な主な分析手法は次の通りです。

  1. ワードクラウドの作成
  2. 複合語(安倍内閣など)の判定も可能で精度が高いです。

  3. 共起キーワード
  4. 一文の中で一緒に使われた単語をマップにします。

  5. 2次元マップ
  6. 単語の類似度を二次元座標にマッピングします。

  7. 係り受け解析
  8. 文節の修飾関係を明らかにしてくれます。

  9. 階層的クラスター分析
  10. 似ている単語をグループ分けします。

  11. 感情分析
  12. 文章のポジティブ、ネガティブなどを判定してくれます。

  13. 文章要約
  14. 入力した文章を要約してくれます。

分析例

1週間分の日記をAIテキストマイニングで解析した結果を紹介します。下の画像はワードクラウドの結果です。1週間のキーワードが一目瞭然になっていると思います。

もうひとつの画像は、感情分析の結果です。ワードクラウドと同じ日記のテキストデータを分析しています。下の画像は、感情の推移を表しております。

本格的なソフト

文字数制限なしでいろんな文章を分析する場合はフリーのテキストマイニングツールKH Coderがおすすめです。このソフトはパソコンへのインストールが必要となります。Windows版のインストールはとても簡単です。

AIテキストマイニングで比較できる文章は2つです。一方KH Coderは、たくさんの種類の文章を比較可能です。例えば、青空文庫の小説で、太宰治、芥川龍之介、新美南吉…といったように、多種の文章を一度に分析できます。

KH Coderは商業利用であっても自由に使うことができると明記されています。

KH Coderでできること

主な分析手法は次の通りです。

  1. KWICコンコーダンス
  2. 単語や品詞を指定して文章を検索できます。どのように単語が使われたのか確認しやすくなっています。

  3. 対応分析
  4. AIテキストマイニングの2次元マップと同じように、単語をマッピングしてくれます。2次元マップとは計算手法が違います。

  5. 共起ネットワーク
  6. AIテキストマイニングの共起キーワードと同じです。KH Coderは計算手法や設定を変更できます。

  7. ベイズ学習による分類
  8. 単純ベイズ分類器による学習データの作成と分類が可能です。

  9. コーディング・ルール
  10. andやorなどを組み合わせて独自の集計ができます。この集計結果を使用して、対応分析なども可能です。

分析例

映画のレビューを分析した結果を紹介します。
下の画像は、「ヱヴァンゲリヲン新劇場版」のシリーズ作品を分析し、共起ネットワークを描いています。序、破、Qという3作品のタイトル(赤い四角のプロット)と特徴を表す言葉が結びついています

もう一つの画像は、興行収入TOP5の映画のレビューをKH Coderで解析した結果です。下の画像は、形容詞を対応分析でプロットした結果となります。映画のタイトルの近くにある言葉が映画の特徴となっています

機械学習も可能なソフト

教師なし学習の階層的クラスター分析や対応分析、教師あり学習のランダムフォレスト、サポートベクターマシンなど、機械学習の手法が豊富です。実際に使用するまでには、形態素解析ツールMecabなどのインストール、パスの設定などが必要となり、やや手間が多いです。

KH Coderよりも、MTMineRの方が解析手法の選択肢が多いです。例えば、形態素解析ツール、分析に使用する文章の特徴データ(単語、品詞、単語の組み合わせ、特徴語など)、解析手法、とそれぞれ選択が可能です。

MTMineRはソフトに同梱のReadme.txtに、"統計的テキスト解析・マイニングの勉強・教育・研究を主な目的とした方々のため、無償で本ツールを公開する。"とあり、無償であることが明記されています。

MTMineRでできること

利用可能な主な分析手法は次の通りです。

  1. 文章の基礎データの出力
  2. ひらがなや漢字などの数、文長、品詞の頻度、単語の組み合わせ(n-gram)など、様々な文章のデータを出力可能です。

  3. ヒートマップ
  4. MTMineRはヒートマップの作成が可能です。分析例で紹介しています。

  5. 階層的クラスター分析
  6. 単語ではなく、文章でクラスタリングが可能です。AIテキストマイニングなどとは、結果が異なります。

  7. サポートベクターマシン
  8. 精度の高い教師あり学習のひとつです。

分析例

青空文庫にある吉川英治の「三国志」を分析した結果を紹介します。
吉川英治「三国志」は1から12巻まであります。下の画像は、三国志の登場人物の出現頻度を各巻ごとにグラフ化しています。

もう一つの画像は、小説を分類した結果です。クラスター分析を行うと、下の画像のような樹形図を描くことができます。 図をみると、一番上の分岐で、左右に2つのグループに分かれていることがわかります。右側はさらに2つに別れています。このように辿っていくと、グループは、大きく5つのグループに分かれていることがわかります。この5つのグループの中に作者が分類されています。

この記事のまとめ

最後に、ここで紹介したテキストマイニングツールの特徴をまとめておきたいと思います。KH CoderおよびMTMineRは現在、無料での利用が難しくなっています。

テキストマイニングソフトの特徴
名称特徴
AIテキストマイニング手軽に文章の分析ができる
KH Coder 大量のデータを分析できる
MTMineR いろんな方法で分析できる

参考論文

MTMineRの開発者の論文です。文章の特徴について、MTMineRを使って分析してます。

Previous Post