KHCoderのクラスター分析のやり方・抽出語と文章

KHCoder「クラスター分析」についてご紹介します。
クラスター分析を使えば単語や文章をグループにまとめることができます。

抽出語のクラスター分析

KHCoderによるクラスター分析(抽出語)の結果は下図の通りです。
クラスター分析で全ての単語をグループにまとめることができます。

前処理実行後、<ツール><抽出語><階層的クラスター分析>を押下すると、実行画面が現れます。

KHCoderクラスター分析

文章のクラスター分析

KHCoderは文章をクラスターに分類できます。
文章はH5(見出し、エクセルファイル1行のデータ)、段落(改行で区切られた文)、文(句点で区切られた文)を指定できます。

クラスターの結果は外部変数に取り込むこともできます。

前処理実行後、<ツール><文章><クラスター分析>を押下すると、実行画面が現れます。

結果の画面

文章のクラスター分析は、結果が下の画面のように出力されます。

KHCoder文章クラスター分析

クラスターの特徴語

クラスターをハイライトし(上の画像ではクラスター4がハイライトされている)、<特徴語>を押すと関連語検索画面が出力されます。

この画面で、クラスターの特徴語(共起語)や頻度を確認できます。<共起ネット>を押下すれば、画面に表示されている言葉だけの共起ネットワークを描くこともできます。

下の画像は助詞や助動詞も含まれています。<フィルタ設定>を押せば品詞の取捨選択も可能です。

KHCoderの関連語検索

コーディングルール・ファイル、*順接、*逆接……はクラスター分析とは関係ありません。

外部変数

「文章のクラスター分析」の画面で<分類結果の保存>を押せば、クラスターを外部変数に取り込めます。
外部変数に取り込むことができれば、共起ネットワークや対応分析で使えるようになります。

下の画像は文章のクラスター分析の結果を共起ネットワークで出力した結果です。

クラスター分析と共起ネットワーク

クラスター分析に用いるデータ

KHCoderのクラスター分析は単語が対象です。
単語ではなく、品詞のBigramなどでクラスター分析を行いたい場合は、フリーテキストマイニングソフトMTMineRを使います。

下の画像は、MTMineRでクラスター分析を実行した結果です。文体特徴をデータとして、太宰治、芥川龍之介、マゼンタを分類しています。

MTMineRはテキストデータのファイルを分けることで著者別などの分析が可能になります。

MTMineRによる小説のクラスター分析
Next Post Previous Post