KHCoderのクラスター分析のやり方・抽出語と文章

KHCoder「クラスター分析」についてご紹介します。
クラスター分析を使えば単語や文章をグループにまとめることができます。

抽出語のクラスター分析

KHCoderによるクラスター分析（抽出語）の結果は下図の通りです。
クラスター分析で全ての単語をグループにまとめることができます。

前処理実行後、＜ツール＞＜抽出語＞＜階層的クラスター分析＞を押下すると、実行画面が現れます。

KHCoderは文章をクラスターに分類できます。
文章はH5（見出し、エクセルファイル1行のデータ）、段落（改行で区切られた文）、文（句点で区切られた文）を指定できます。

クラスターの結果は外部変数に取り込むこともできます。

前処理実行後、＜ツール＞＜文章＞＜クラスター分析＞を押下すると、実行画面が現れます。

文章のクラスター分析は、結果が下の画面のように出力されます。

クラスターをハイライトし（上の画像ではクラスター4がハイライトされている）、＜特徴語＞を押すと関連語検索画面が出力されます。

この画面で、クラスターの特徴語（共起語）や頻度を確認できます。＜共起ネット＞を押下すれば、画面に表示されている言葉だけの共起ネットワークを描くこともできます。

下の画像は助詞や助動詞も含まれています。＜フィルタ設定＞を押せば品詞の取捨選択も可能です。

コーディングルール・ファイル、＊順接、＊逆接……はクラスター分析とは関係ありません。

「文章のクラスター分析」の画面で＜分類結果の保存＞を押せば、クラスターを外部変数に取り込めます。
外部変数に取り込むことができれば、共起ネットワークや対応分析で使えるようになります。

下の画像は文章のクラスター分析の結果を共起ネットワークで出力した結果です。

KHCoderのクラスター分析は単語が対象です。
単語ではなく、品詞のBigramなどでクラスター分析を行いたい場合は、フリーテキストマイニングソフトMTMineRを使います。

下の画像は、MTMineRでクラスター分析を実行した結果です。文体特徴をデータとして、太宰治、芥川龍之介、マゼンタを分類しています。

MTMineRはテキストデータのファイルを分けることで著者別などの分析が可能になります。