KHCoderのクラスター分析のやり方・抽出語と文章
KHCoder「クラスター分析」についてご紹介します。
クラスター分析を使えば単語や文章をグループにまとめることができます。
抽出語のクラスター分析
KHCoderによるクラスター分析(抽出語)の結果は下図の通りです。
クラスター分析で全ての単語をグループにまとめることができます。
前処理実行後、<ツール><抽出語><階層的クラスター分析>を押下すると、実行画面が現れます。
文章のクラスター分析
KHCoderは文章をクラスターに分類できます。
文章はH5(見出し、エクセルファイル1行のデータ)、段落(改行で区切られた文)、文(句点で区切られた文)を指定できます。
クラスターの結果は外部変数に取り込むこともできます。
前処理実行後、<ツール><文章><クラスター分析>を押下すると、実行画面が現れます。
結果の画面
文章のクラスター分析は、結果が下の画面のように出力されます。
クラスターの特徴語
クラスターをハイライトし(上の画像ではクラスター4がハイライトされている)、<特徴語>を押すと関連語検索画面が出力されます。
この画面で、クラスターの特徴語(共起語)や頻度を確認できます。<共起ネット>を押下すれば、画面に表示されている言葉だけの共起ネットワークを描くこともできます。
下の画像は助詞や助動詞も含まれています。<フィルタ設定>を押せば品詞の取捨選択も可能です。
コーディングルール・ファイル、*順接、*逆接……はクラスター分析とは関係ありません。
外部変数
「文章のクラスター分析」の画面で<分類結果の保存>を押せば、クラスターを外部変数に取り込めます。
外部変数に取り込むことができれば、共起ネットワークや対応分析で使えるようになります。
下の画像は文章のクラスター分析の結果を共起ネットワークで出力した結果です。
クラスター分析に用いるデータ
KHCoderのクラスター分析は単語が対象です。
単語ではなく、品詞のBigramなどでクラスター分析を行いたい場合は、フリーテキストマイニングソフトMTMineRを使います。
下の画像は、MTMineRでクラスター分析を実行した結果です。文体特徴をデータとして、太宰治、芥川龍之介、マゼンタを分類しています。
MTMineRはテキストデータのファイルを分けることで著者別などの分析が可能になります。