形態素解析のやり方【Web茶まめ・UniDic-MeCabなど】
形態素解析の簡単なやり方をご紹介します。形態素解析にはブラウザで手軽にできるツールがあります。
ブラウザ
ブラウザ(WEBサイトを閲覧するために使うソフト)で動作する形態素解析ツールです。インストールに必要がなく、手軽に形態素解析ができます。
Web茶まめ
入力したテキストやアップロードしたテキストを形態素解析してくれるツールです。
出力形式はHTML(ブラウザに表示)、csv、Excelなどを選ぶことができます。
UniDic-MeCab
テキストの形態素解析が可能です。「Web茶まめ」との違いは、複合名詞やサ変動詞を解析できる点です。
UniDicは形態素解析に用いる辞書の名前です。形態素解析ツールで有名なMeCabもUniDicを使用しています。
複合名詞
伊藤内閣、伊藤総理などが複合名詞となります。
複合名詞を判定しない場合、「伊藤」「内閣」が別々の単語として処理されます。
サ変動詞
「する」「した」などが結びついて動詞になる名詞をサ変動詞と呼びます。
「感動した」を解析した場合、サ変動詞判定ありだと、「感動し」が一つの単語となります。
なしの場合は、「感動」と「し」が単語として判定されます。
サ変動詞はサ変名詞と呼ばれることもあります。
PCインストール
パソコンにインストールして使用するツールです。
MeCab
代表的な形態素解析ツールです。
cmdでの実行
Windowsにインストールし、環境変数を設定すれば、cmd(コマンドプロンプト)で実行できます。
下の画像は実行例です。
ChaSen
ChaSenも有名な形態素解析ツールです。MeCabと同様、windowsのcmdで実行できます。
下の画像は実行例です。