ワードクラウドの作り方【MTMineR】

MTMineRで下の画像のようなワードクラウドを無料で作成する方法をご紹介します。

文豪や現代作家の小説をワードクラウドで可視化した結果

やり方

データの読み込みから、ワードクラウドの出力まで、一連の流れをご説明します。

①データの読み込みと係り受け解析

分析するデータを読み込み、係り受け解析を行います。

  1. <Add New Files...>を選択
  2. 選択するとファイルを選ぶ画面が現れますので、データのファイルを選択します。

  3. <Confirm>を押す
  4. <Pos Renam...>を押す
  5. Please rename POS:という画面が現れます。ここで品詞の名前を選択できます。そのままでよければ<Confirm...>を押します。

データの読み込みと係り受け解析は、以上で完了です。
最初、MTMeinRを立ち上げたら<Data Format>で<Parser>を選んで下さい。係り受け解析には、Cabochaのインストールが必須となります。形態素解析のデータでもワードクラウドは作成できますが、複合語の処理が簡単にできるため係り受け解析のデータでワードクラウドをつくります

MTMineRデータファイル読み込み・係り受け解析画面

②単語を出力

複合語を考慮した単語を出力します。

  1. <Condi-n-gram>のタブを選択
  2. <Ngram Type:>で<Unigram>を選択
  3. <File in row/column:>で<in column>を選択
  4. <Selecting POS...>を押す
  5. 現れた画面で分析したい品詞を選びます。ここで選択しているのはひとつの文章に登場する品詞です。ここでは名詞を選びました。選んだら<Confirm...>を押します。

  6. <Remove POS...>を押す
  7. 現れた画面で取り除きたい品詞を選びます。<Selecting POS...>で選んだ品詞を含む文章から取り除きたい品詞を選びます。具体的には、句点、読点、記号、助詞、助動詞などを選びます。

  8. <PoinetedPOS Processing...>を押す

これで単語が出力されます。<Cutoff>はデータのサイズに合わせて、適宜設定が必要となります。

MTMineR単語出力画面

③Rでワードクラウドを作成

出力した単語をRでワードクラウドにします。

  1. メニューの<R>で<Process Outputs In This Tab>を選択
  2. Set Data Nameの画面で名前を入力
  3. 入力後、<OK>を押すと、三つの画面が立ち上がります。

  4. Run Rの画面で、<Plots>のタブの<WordCloud>を選択
  5. <Variables>の下にあるボックスからデータを選択
  6. Windowsと同じように、ctrl+左クリック、shift+左クリックで、複数選択ができます。

  7. 一番上の青い右向きのアイコンを押す
  8. <Variables>の下にあるボックスのデータを<Picked>に移動します。使用する共起度のデータを選ぶことができます。処理が重くなるので、データは1000個ぐらいに抑えています。

  9. 上から三番目の青い右向きのアイコンを押す
  10. <Subset>の下にあるボックスのデータを<Picked>に移動します。ファイルが複数ある場合は、使用するデータを選ぶことができます。

  11. <wordCloud2>にチェックを入れる
  12. 画面下の<OK>を押す

上記手順で、ワードクラウドがインターネットブラウザに出力されます。<shape>を変えると、いろんなデザインのワードクラウドを描くことができます。

MTMineRワードクラウド出力画面

結果

MTMineRのワードクラウドは、下のような画像も出力できます。このワードクラウドは、読みこんだデータをグループに分けています。<WordCloud>の画面で、<comparison.cloud>にチェックを入れて使用します。<Groups:>と<Groups Names:>に入力も必要です。

このワードクラウドは、太宰治、芥川龍之介、森博嗣、マゼンタの小説について、作者別に作成しています。

MTMineRワードクラウド(comparison.cloud)
  • MTMineR
    左メニューの●文節で、MTMineRの構文解析について解説しています。Co-occurrence(文節の共起)や、<Selecting POS...>と<Remove POS...>の処理について説明が記載されています。複合語については、下記のとおりです。

例えば、mecabで「自然言語処理を行う」を形態素解析すると「自然」「言語」「処理」「を」「行う」に分解され、名詞を集計すると「自然」「言語」「処理」が集計される。一方cabochaで文節分解を行うと「自然言語処理を」「行う」に分解される。名詞を含む文節の中から助詞を取り除くことにより「自然言語処理」が一つの項目として集計することができる。

引用--●文節4. Condi-n-gram(条件付きの文節のn-gram)

Next Post Previous Post