形態素解析のやり方【Web茶まめ・UniDic-MeCabなど】

形態素解析の簡単なやり方をご紹介します。形態素解析にはブラウザで手軽にできるツールがあります。

ブラウザ

ブラウザ(WEBサイトを閲覧するために使うソフト)で動作する形態素解析ツールです。インストールに必要がなく、手軽に形態素解析ができます。

Web茶まめ

入力したテキストやアップロードしたテキストを形態素解析してくれるツールです。
出力形式はHTML(ブラウザに表示)、csv、Excelなどを選ぶことができます。

UniDic-MeCab

テキストの形態素解析が可能です。「Web茶まめ」との違いは、複合名詞やサ変動詞を解析できる点です。

UniDicは形態素解析に用いる辞書の名前です。形態素解析ツールで有名なMeCabもUniDicを使用しています。

複合名詞

伊藤内閣、伊藤総理などが複合名詞となります。
複合名詞を判定しない場合、「伊藤」「内閣」が別々の単語として処理されます。

サ変動詞

「する」「した」などが結びついて動詞になる名詞をサ変動詞と呼びます。

「感動した」を解析した場合、サ変動詞判定ありだと、「感動し」が一つの単語となります。
なしの場合は、「感動」と「し」が単語として判定されます。

サ変動詞はサ変名詞と呼ばれることもあります。

PCインストール

パソコンにインストールして使用するツールです。

MeCab

代表的な形態素解析ツールです。

cmdでの実行

Windowsにインストールし、環境変数を設定すれば、cmd(コマンドプロンプト)で実行できます。
下の画像は実行例です。

コマンドプロンプトでMeCab

ChaSen

ChaSenも有名な形態素解析ツールです。MeCabと同様、windowsのcmdで実行できます。
下の画像は実行例です。

ChaSenコマンドプロンプト
Next Post Previous Post