文節ネットワークと共起ネットワークの作り方【MTMineR】

テキストマイニングソフトMTMineRで文節ネットワーク、及び、共起ネットワークをつくる方法をまとめています。

MTMineR文節ネットワーク

上図は、ある映画のレビューをMTMineRで分析した結果です。

文節ネットワーク

文節のネットワークは、係り受け解析の結果をもとに作成します。単語の共起ネットワークとは異なり、複合語を自然に処理できます

やり方

データの読み込みから、ネットワークを出力するところまで、一連の流れをご説明します。

①データの読み込みと係り受け解析

分析するデータを読み込み、係り受け解析を行います。この説明では、txtファイルを読み込みます。

  1. <Add New Files...>を選択
    選択するとファイルを選ぶ画面が現れますので、データのファイルを選択します。

  2. <Confirm>を押す

  3. <Pos Renam...>を押す
    Please rename POS:という画面が現れます。ここで品詞の名前を選択できます。そのままでよければ<Confirm...>を押します。

データの読み込みと係り受け解析は、以上で完了です。最初、MTMeinRを立ち上げたら<Data Format>で<Parser>を選んで下さい。また、Cabochaのインストールが必須となります。

MTMineRデータファイル読み込み

②共起度を出力

続いて、共起度を出力します。

  1. <Co-occurrence>のタブを選択

  2. <Selecting POS...>を押す
    現れた画面で分析したい品詞を選びます。ここで選択しているのはひとつの文章に登場する品詞です。選んだら<Confirm...>を押します。

  3. <Remove POS...>を押す
    現れた画面で取り除きたい品詞を選びます。<Selecting POS...>で選んだ品詞を含む文章から取り除きたい品詞を選びます。

  4. <PoinetedPOS Processing...>を押す

これで共起度が出力されます。なお、<Co-occurrence>の<Pattern>は品詞、<Word>は単語となります。また、<Function>の<Dependency>は係り受け先を考慮し、<Co-occurrence>は係り受け先を無視するという設定です。

MTMineR共起度出力

③Rでネットワークを作成

出力した共起度をRでグラフにします。

  1. メニューの<R>で<Process Outputs In This Tab>を選択

  2. Set Data Nameの画面で名前を入力
    入力後、<OK>を押すと、三つの画面が立ち上がります。

  3. Run Rの画面で、<Network>のタブを選択

  4. 一番上の青い右向きのアイコンを押す
    <Variables>の下にあるボックスのデータを<Picked>に移動します。使用する共起度のデータを選ぶことができます。

  5. 上から三番目の青い右向きのアイコンを押す
    <Subset>の下にあるボックスのデータを<Picked>に移動します。ファイルが複数ある場合は、使用するデータを選ぶことができます。

  6. 画面下の<OK>を押す

これで文節ネットワークが出力されます。初めて使用する時はパッケージのインストールが必要となります。

MTMineR文節ネットワーク作成

結果

MTMineRのネットワークには3つの出力形式があります。上の画像の<Output>にある項目です。<plot>は通常の画像出力ですが、<visNetwork>はネットブラウザで、ネットワークを描いてくれます。また、<tkplot>は、下の動画のように、配置を変えたり、ひとつひとつの節点を自分で好きなように動かすことができます。

共起ネットワーク

MTMineR共起ネットワーク

上図は、ある映画のレビューをMTMineRで分析した結果です。

やり方

データの読み込みから、ネットワークを出力するところまで、一連の流れをご説明します。

①データの読み込みと形態素解析

分析するデータを読み込み、形態素解析を行います。この説明では、txtファイルを読み込みます。

  1. <Add New Files...>を選択
  2. 選択するとファイルを選ぶ画面が現れますので、データのファイルを選択します。

  3. <Confirm>を押す
  4. <Pos Renam...>を押す
  5. Please rename POS:という画面が現れます。ここで品詞の名前を選択できます。そのままでよければ<Confirm...>を押します。

データの読み込みと形態素解析は、以上で完了です。
最初、MTMeinRを立ち上げたら<Data Format>で<Tagged Text>を選んで下さい。なお、ChaSenを使用する場合には、別途ChaSenのインストールが必須となります。

MTMineRファイルの読み込み・形態素解析

②共起度を出力

続いて、共起度を出力します。

  1. <Co-occurrence>のタブを選択
  2. <Selecting POS...>を押す
  3. 現れた画面で分析したい品詞を選びます。名詞、形容詞、副詞がおすすめです。選んだら<Confirm...>を押します。

  4. <PoinetedPOS Processing...>を押す

これで共起度が出力されます。
なお、<Cutoff>の推奨値が0になっているようにみえますが、0にするとデータがあまり多すぎて、MTMineRが落ちる場合があります。ネットワークを描く際にも、データが多過ぎると、かなり時間がかかります。数回しか登場しない言葉は切り捨ててしまって問題ありません

MTMineR共起度出力

③Rでネットワークを作成

出力した共起度をRでグラフにします。

  1. メニューの<R>で<Process Outputs In This Tab>を選択
  2. Set Data Nameの画面で名前を入力
  3. 入力後、<OK>を押すと、三つの画面が立ち上がります。

  4. Run Rの画面で、<Network>のタブを選択
  5. <Variables>の下にあるボックスからデータを選択
  6. Windowsと同じように、ctrl+左クリック、shift+左クリックで、複数選択ができます。

  7. 一番上の青い右向きのアイコンを押す
  8. <Variables>の下にあるボックスのデータを<Picked>に移動します。使用する共起度のデータを選ぶことができます。処理が重くなるので、データは200個ぐらいに抑えています。

  9. 上から三番目の青い右向きのアイコンを押す
  10. <Subset>の下にあるボックスのデータを<Picked>に移動します。ファイルが複数ある場合は、使用するデータを選ぶことができます。

  11. 画面下の<OK>を押す

これで共起ネットワークが出力されます。初めて使用する時はパッケージのインストールが必要となります。
なお、<Number of features>でネットワークに描くデータの数を調整できます。ネットワーク分析では、<Feature Extraction Method>などを変更し最良な結果を探していきます

MTMineR共起ネットワーク作成

結果

MTMineRのネットワークには3つの出力形式があります。上の画像の<Output>にある項目です。<plot>は通常の画像出力ですが、<visNetwork>はネットブラウザで、ネットワークを描いてくれます。また、<tkplot>は、下の動画のように、配置を変えたり、ひとつひとつの節点を自分で好きなように動かすことができます。

Next Post Previous Post