ワードクラウドの作り方【MTMineR】

2024/03/01

MTMineRで下の画像のようなワードクラウドを無料で作成する方法をご紹介します。

文豪や現代作家の小説をワードクラウドで可視化した結果

やり方

データの読み込みから、ワードクラウドの出力まで、一連の流れをご説明します。

①データの読み込みと係り受け解析

分析するデータを読み込み、係り受け解析を行います。

＜Add New Files...＞を選択

選択するとファイルを選ぶ画面が現れますので、データのファイルを選択します。

＜Confirm＞を押す
＜Pos Renam...＞を押す

Please rename POS:という画面が現れます。ここで品詞の名前を選択できます。そのままでよければ＜Confirm...＞を押します。

データの読み込みと係り受け解析は、以上で完了です。
最初、MTMeinRを立ち上げたら＜Data Format＞で＜Parser＞を選んで下さい。係り受け解析には、Cabochaのインストールが必須となります。形態素解析のデータでもワードクラウドは作成できますが、複合語の処理が簡単にできるため係り受け解析のデータでワードクラウドをつくります。

②単語を出力

複合語を考慮した単語を出力します。

＜Condi-n-gram＞のタブを選択
＜Ngram Type:＞で＜Unigram＞を選択
＜File in row/column:＞で＜in column＞を選択
＜Selecting POS...＞を押す

現れた画面で分析したい品詞を選びます。ここで選択しているのはひとつの文章に登場する品詞です。ここでは名詞を選びました。選んだら＜Confirm...＞を押します。

＜Remove POS...＞を押す

現れた画面で取り除きたい品詞を選びます。＜Selecting POS...＞で選んだ品詞を含む文章から取り除きたい品詞を選びます。具体的には、句点、読点、記号、助詞、助動詞などを選びます。

＜PoinetedPOS Processing...＞を押す

これで単語が出力されます。＜Cutoff＞はデータのサイズに合わせて、適宜設定が必要となります。

③Rでワードクラウドを作成

出力した単語をRでワードクラウドにします。

メニューの＜R＞で＜Process Outputs In This Tab＞を選択
Set Data Nameの画面で名前を入力

入力後、＜OK＞を押すと、三つの画面が立ち上がります。

Run Rの画面で、＜Plots＞のタブの＜WordCloud＞を選択
＜Variables＞の下にあるボックスからデータを選択

Windowsと同じように、ctrl+左クリック、shift+左クリックで、複数選択ができます。

一番上の青い右向きのアイコンを押す

＜Variables＞の下にあるボックスのデータを＜Picked＞に移動します。使用する共起度のデータを選ぶことができます。処理が重くなるので、データは1000個ぐらいに抑えています。

上から三番目の青い右向きのアイコンを押す

＜Subset＞の下にあるボックスのデータを＜Picked＞に移動します。ファイルが複数ある場合は、使用するデータを選ぶことができます。

＜wordCloud2＞にチェックを入れる
画面下の＜OK＞を押す

上記手順で、ワードクラウドがインターネットブラウザに出力されます。＜shape＞を変えると、いろんなデザインのワードクラウドを描くことができます。

結果

MTMineRのワードクラウドは、下のような画像も出力できます。このワードクラウドは、読みこんだデータをグループに分けています。＜WordCloud＞の画面で、＜comparison.cloud＞にチェックを入れて使用します。＜Groups:＞と＜Groups Names:＞に入力も必要です。

このワードクラウドは、太宰治、芥川龍之介、森博嗣、マゼンタの小説について、作者別に作成しています。

MTMineR
左メニューの●文節で、MTMineRの構文解析について解説しています。Co-occurrence（文節の共起）や、＜Selecting POS...＞と＜Remove POS...＞の処理について説明が記載されています。複合語については、下記のとおりです。

例えば、mecabで「自然言語処理を行う」を形態素解析すると「自然」「言語」「処理」「を」「行う」に分解され、名詞を集計すると「自然」「言語」「処理」が集計される。一方cabochaで文節分解を行うと「自然言語処理を」「行う」に分解される。名詞を含む文節の中から助詞を取り除くことにより「自然言語処理」が一つの項目として集計することができる。

引用--●文節４. Condi-n-gram（条件付きの文節のn-gram）

ワードクラウドの作り方【MTMineR】

やり方

①データの読み込みと係り受け解析

②単語を出力

③Rでワードクラウドを作成

結果

Categories

Hashtag