MTMineRの特徴と使い方
無料で使えるテキストマイニングツールMTMineRの特徴と使い方を紹介します。
これまでは同志社大学のドメインで公開されていましたが、現在は別のドメインで公開されています。
特徴
MTMineRはサポートベクターマシンなどの高度な機械学習をGUI上で実行できます。
詳細な特徴は下記の記事にまとめています。無料のテキストマイニングソフトKH Coderなどと比較しています。
使い方
基本的な使い方は以下のPDFファイルが参考になります。
- マニュアル
MTmineRのマニュアルです。ソフト解凍時に手に入るマニュアルです。
階層的クラスタリング
MTMineRでは、Rのhierarchical clusteringというタブで、クラスター分析を実行できます。
例えば、下図のようなデンドログラムを描くことができます。
この図を出力するまでに、次の手順が必要になります。
- ファイルの読み込み
- 形態素解析
- n-gramの出力
- R実行画面に移動
- Hierarchical Clusteringを実行
1.ファイルの読み込み
最初に紹介したマニュアルの20枚目が参考になります。
ファイルの読み込みは、<Add New Files>を押し、ファイルを選択し、<Confirm>を押す、という流れです。
2.形態素解析
最初に紹介したMTMineRを用いたテキストマイニング演習のスライドの19枚目が参考になります。
形態素解析する時は、<File>などがあるメニューから<Data Format>を選択し<Tagged Text>を選択します。
マニュアルでは、21枚目から23枚目までが、形態素解析の解説になっています。
3.n-gramの出力
演習の方のPDFファイルの、スライド23と24枚目に記載があります。
マニュアルは24~26枚目です。
4.R実行画面に移動
演習の36枚目です。
マニュアルは39と40枚目の説明がわかりやすいです。
ここでRを実行するためのGUIを立ち上げます。
5.Hierarchical Clusteringを実行
ここで、クラスター分析を実行する前に、通常は、演習の36枚目にあるように、相対頻度データに変換します。
マニュアルの42枚目でも紹介されています。
相対データに変換したらRun Rの画面にある<Select Data>で、相対頻度に変換したデータを選びます。
クラスター分析は<Unsupervised>タグの<Hierarchical Clustering>で実行できます。
下の画像のように、<Variables>と<Subset>からデータを選び、<OK>を押すと、デンドログラムが表示されます。
とりあえず、右向きの丸い青いボタンを押すと、全てのデータが、右側のボックスに移動するはずです。
ウィンドウサイズを大きくすると全てのコマンドがみえるようになります。
その他
応用編
項目 | 内容 |
---|---|
Cond-n-gramで複合語を抽出 | 総理官邸などの複合語を抽出 |
語と品詞を組み合わせた検索 | 助詞などの品詞を指定して語を検索 |
体言止めの抽出 | 句点の直後を出力し手動で分析 |
Condi-n-gramで複合語を抽出
指定したタグが含まれる文節の中から、特定のタグを取り除いて集計する方法です。
これはCaboChaなどで形態素処理を行ったデータが対象となります。Data FormatでParserを指定します。
手順は次の通りです。
- Condi-n-gramタブを選択します。
- Ngram TypeはUnigramを選択します。
- Selecting POSを押下し、現れたウィンドウで名詞を選択しConfirmを押します。
- Remove POSで現れたウィンドウで取り除きたい記号、読点、句点と助詞を選択しConfirmを押します。
- Pointed POS Processingを押します。
以上の作業により、複合語が抽出されます。表示された語がすべて複合語というわけではなく、固有名詞や一般名詞も含まれています。
語と品詞を組み合わせた検索
形態素処理済みのデータを対象として、の<連体化助詞>といったキーワードで検索ができます。
- Markタブを選択します。
- PleaseinputKeywordの窓に、 の<連体化助詞>などを入力します。<>は大文字です。
- Cutoffを設定します。
- Processingを押します。
取り扱うデータの品詞名で入力しないと、正しい結果が得られません。
平テキストをMTMineRで形態素処理する場合は、タグ命名の画面が現れます。この命名に従って、<>内を入力します。
体言止めの抽出
形態素処理済みのデータを対象として、。<句点>で検索します。
- Markタブを選択します。
- PleaseinputKeywordの窓に、 。<句点>を入力します。
- Cutoffを設定します。比率を算出するのが目的なので、0を指定します。
- Processingを押します。
出力される結果は、名詞以外も含まれています。
MTMineRだけでは完結しないので、結果をファイルに出力し、エクセルなどで集計します。