ワードクラウドの作り方【MTMineR】
MTMineRで下の画像のようなワードクラウドを無料で作成する方法をご紹介します。
やり方
データの読み込みから、ワードクラウドの出力まで、一連の流れをご説明します。
①データの読み込みと係り受け解析
分析するデータを読み込み、係り受け解析を行います。
- <Add New Files...>を選択
- <Confirm>を押す
- <Pos Renam...>を押す
選択するとファイルを選ぶ画面が現れますので、データのファイルを選択します。
Please rename POS:という画面が現れます。ここで品詞の名前を選択できます。そのままでよければ<Confirm...>を押します。
データの読み込みと係り受け解析は、以上で完了です。
最初、MTMeinRを立ち上げたら<Data Format>で<Parser>を選んで下さい。係り受け解析には、Cabochaのインストールが必須となります。形態素解析のデータでもワードクラウドは作成できますが、複合語の処理が簡単にできるため係り受け解析のデータでワードクラウドをつくります。
②単語を出力
複合語を考慮した単語を出力します。
- <Condi-n-gram>のタブを選択
- <Ngram Type:>で<Unigram>を選択
- <File in row/column:>で<in column>を選択
- <Selecting POS...>を押す
- <Remove POS...>を押す
- <PoinetedPOS Processing...>を押す
現れた画面で分析したい品詞を選びます。ここで選択しているのはひとつの文章に登場する品詞です。ここでは名詞を選びました。選んだら<Confirm...>を押します。
現れた画面で取り除きたい品詞を選びます。<Selecting POS...>で選んだ品詞を含む文章から取り除きたい品詞を選びます。具体的には、句点、読点、記号、助詞、助動詞などを選びます。
これで単語が出力されます。<Cutoff>はデータのサイズに合わせて、適宜設定が必要となります。
③Rでワードクラウドを作成
出力した単語をRでワードクラウドにします。
- メニューの<R>で<Process Outputs In This Tab>を選択
- Set Data Nameの画面で名前を入力
- Run Rの画面で、<Plots>のタブの<WordCloud>を選択
- <Variables>の下にあるボックスからデータを選択
- 一番上の青い右向きのアイコンを押す
- 上から三番目の青い右向きのアイコンを押す
- <wordCloud2>にチェックを入れる
- 画面下の<OK>を押す
入力後、<OK>を押すと、三つの画面が立ち上がります。
Windowsと同じように、ctrl+左クリック、shift+左クリックで、複数選択ができます。
<Variables>の下にあるボックスのデータを<Picked>に移動します。使用する共起度のデータを選ぶことができます。処理が重くなるので、データは1000個ぐらいに抑えています。
<Subset>の下にあるボックスのデータを<Picked>に移動します。ファイルが複数ある場合は、使用するデータを選ぶことができます。
上記手順で、ワードクラウドがインターネットブラウザに出力されます。<shape>を変えると、いろんなデザインのワードクラウドを描くことができます。
結果
MTMineRのワードクラウドは、下のような画像も出力できます。このワードクラウドは、読みこんだデータをグループに分けています。<WordCloud>の画面で、<comparison.cloud>にチェックを入れて使用します。<Groups:>と<Groups Names:>に入力も必要です。
このワードクラウドは、太宰治、芥川龍之介、森博嗣、マゼンタの小説について、作者別に作成しています。
- MTMineR
左メニューの●文節で、MTMineRの構文解析について解説しています。Co-occurrence(文節の共起)や、<Selecting POS...>と<Remove POS...>の処理について説明が記載されています。複合語については、下記のとおりです。
例えば、mecabで「自然言語処理を行う」を形態素解析すると「自然」「言語」「処理」「を」「行う」に分解され、名詞を集計すると「自然」「言語」「処理」が集計される。一方cabochaで文節分解を行うと「自然言語処理を」「行う」に分解される。名詞を含む文節の中から助詞を取り除くことにより「自然言語処理」が一つの項目として集計することができる。
引用--●文節4. Condi-n-gram(条件付きの文節のn-gram)