おすすめの無料テキストマイニングツール・ソフト
無料で使えるおすすめのテキストマイニングソフトを3つご紹介します。
AIテキストマイニング
ブラウザで簡単にワードクラウドなどが描ける便利なツールです。無料で使用でき、ユーザー登録する(メールアドレスを登録する)と使える機能が増えます。商用利用も可能です。しかし、利用時にはクレジットなどの表記が必要です。
KHCoder
使用するためにはパソコンにインストールする必要があります。学術分野で広く利用されているソフトです。商業利用も可能です。
2023年12月からソフトウェアとして販売されるようになったため、無料でインストールできなくなっています。いちおう無料版も用意されていますが、機能はかなり制限されています。
MTMineR
Rを使ったテキストマイニング専用のソフトです。GUIがあるため、プログラムの知識(Rの知識)がなくても使えます。こちらもPCにインストールする必要があります。商業利用も可能です。
現在、ソフトはダウンロードできなくなっています。
比較
ここでは3つのソフトをご紹介します。いずれも無料で使用できます。PythonやExcelで形態素解析から始めるよりも、簡単にできます。
名称 | 環境 | 文字数 | 文章比較 |
---|---|---|---|
AIテキストマイニング | WEB | 20万字以下 | 2つ |
KH Coder | PC | 制限なし | 制限なし |
MTMineR | PC | 制限なし | 制限なし |
手軽なツール
インストールなどの手間を省き文章を分析する場合はユーザーローカルのAIテキストマイニングがおすすめです。ユーザー登録すると全機能を無料で使えます。ユーザー登録も無料です。なお、結果をメディアなどに記載する場合は、ユーザーローカルに利用通知が必要です。
AIテキストマイニングでできること
文章を貼り付けるだけで、分析ができます。利用可能な主な分析手法は次の通りです。
- ワードクラウドの作成
- 共起キーワード
- 2次元マップ
- 係り受け解析
- 階層的クラスター分析
- 感情分析
- 文章要約
複合語(安倍内閣など)の判定も可能で精度が高いです。
一文の中で一緒に使われた単語をマップにします。
単語の類似度を二次元座標にマッピングします。
文節の修飾関係を明らかにしてくれます。
似ている単語をグループ分けします。
文章のポジティブ、ネガティブなどを判定してくれます。
入力した文章を要約してくれます。
分析例
1週間分の日記をAIテキストマイニングで解析した結果を紹介します。下の画像はワードクラウドの結果です。1週間のキーワードが一目瞭然になっていると思います。
もうひとつの画像は、感情分析の結果です。ワードクラウドと同じ日記のテキストデータを分析しています。下の画像は、感情の推移を表しております。


本格的なソフト
文字数制限なしでいろんな文章を分析する場合はフリーのテキストマイニングツールKH Coderがおすすめです。このソフトはパソコンへのインストールが必要となります。Windows版のインストールはとても簡単です。
AIテキストマイニングで比較できる文章は2つです。一方KH Coderは、たくさんの種類の文章を比較可能です。例えば、青空文庫の小説で、太宰治、芥川龍之介、新美南吉…といったように、多種の文章を一度に分析できます。
KH Coderは商業利用であっても自由に使うことができると明記されています。
KH Coderでできること
主な分析手法は次の通りです。
- KWICコンコーダンス
- 対応分析
- 共起ネットワーク
- ベイズ学習による分類
- コーディング・ルール
単語や品詞を指定して文章を検索できます。どのように単語が使われたのか確認しやすくなっています。
AIテキストマイニングの2次元マップと同じように、単語をマッピングしてくれます。2次元マップとは計算手法が違います。
AIテキストマイニングの共起キーワードと同じです。KH Coderは計算手法や設定を変更できます。
単純ベイズ分類器による学習データの作成と分類が可能です。
andやorなどを組み合わせて独自の集計ができます。この集計結果を使用して、対応分析なども可能です。
分析例
映画のレビューを分析した結果を紹介します。
下の画像は、「ヱヴァンゲリヲン新劇場版」のシリーズ作品を分析し、共起ネットワークを描いています。序、破、Qという3作品のタイトル(赤い四角のプロット)と特徴を表す言葉が結びついています。
もう一つの画像は、興行収入TOP5の映画のレビューをKH Coderで解析した結果です。下の画像は、形容詞を対応分析でプロットした結果となります。映画のタイトルの近くにある言葉が映画の特徴となっています。


機械学習も可能なソフト
教師なし学習の階層的クラスター分析や対応分析、教師あり学習のランダムフォレスト、サポートベクターマシンなど、機械学習の手法が豊富です。実際に使用するまでには、形態素解析ツールMecabなどのインストール、パスの設定などが必要となり、やや手間が多いです。
KH Coderよりも、MTMineRの方が解析手法の選択肢が多いです。例えば、形態素解析ツール、分析に使用する文章の特徴データ(単語、品詞、単語の組み合わせ、特徴語など)、解析手法、とそれぞれ選択が可能です。
MTMineRはソフトに同梱のReadme.txtに、"統計的テキスト解析・マイニングの勉強・教育・研究を主な目的とした方々のため、無償で本ツールを公開する。"とあり、無償であることが明記されています。
MTMineRでできること
利用可能な主な分析手法は次の通りです。
- 文章の基礎データの出力
- ヒートマップ
- 階層的クラスター分析
- サポートベクターマシン
ひらがなや漢字などの数、文長、品詞の頻度、単語の組み合わせ(n-gram)など、様々な文章のデータを出力可能です。
MTMineRはヒートマップの作成が可能です。分析例で紹介しています。
単語ではなく、文章でクラスタリングが可能です。AIテキストマイニングなどとは、結果が異なります。
精度の高い教師あり学習のひとつです。
分析例
青空文庫にある吉川英治の「三国志」を分析した結果を紹介します。
吉川英治「三国志」は1から12巻まであります。下の画像は、三国志の登場人物の出現頻度を各巻ごとにグラフ化しています。
もう一つの画像は、小説を分類した結果です。クラスター分析を行うと、下の画像のような樹形図を描くことができます。 図をみると、一番上の分岐で、左右に2つのグループに分かれていることがわかります。右側はさらに2つに別れています。このように辿っていくと、グループは、大きく5つのグループに分かれていることがわかります。この5つのグループの中に作者が分類されています。


この記事のまとめ
最後に、ここで紹介したテキストマイニングツールの特徴をまとめておきたいと思います。KH CoderおよびMTMineRは現在、無料での利用が難しくなっています。
名称 | 特徴 |
---|---|
AIテキストマイニング | 手軽に文章の分析ができる |
KH Coder | 大量のデータを分析できる |
MTMineR | いろんな方法で分析できる |
参考論文
MTMineRの開発者の論文です。文章の特徴について、MTMineRを使って分析してます。