テキストマイニングの対応分析とは【わかりやすく解説】
対応分析は多変量解析のひとつです。コレスポンデンス(correspondence)分析とも呼ばれます。たくさんのデータを少ないデータにまとめる分析手法です。
概要
対応分析は質的データ(アンケートでよく見かける満足度や性別、血液型など)の分析に適した多変量解析です。
類似手法
対応分析には、似たような分析手法がいくつかあります。
主成分分析
対応分析と似たような分析に、主成分分析という多変量解析の分析手法があります。これは、量的データ(長さ、質量など)に用いる手法です。
数量化Ⅲ類
数量化Ⅲ類という、対応分析と同じ目的で、使用される分析手法もあります。これは、データが0、1の場合に用いる手法です。例えば、アンケートで、好きもしくは嫌い、という選択肢を設けた場合、好き=1、嫌い=0として、数量化Ⅲ類で分析します。
テキストマイニングの場合、文章に出現する単語の数と、例えば、小説のジャンルなどでデータをまとめ、分析すると、単語とジャンルの関連性を図にしてくれます。
できること
対応分析を行うと、散布図を描くことができます。
事例
下の画像は、小説に登場する単語のジャンルとの関連性を対応分析で調べた結果です。
画像をみると、異世界ファンタジーの近くに『魔法』や『強い』という言葉が配置されています。また、現代ドラマの近くには『先生』という言葉がみえます。これらは、ジャンルに特徴的な言葉であるといえます。
恋愛やラブコメや、SF、現代ファンタジー、ホラーの距離が近いことから、これらのジャンルは、ひとつのグループとしてみることもできます。
原理
単語の出現数と、文章のタイトルやジャンルなどのデータについて、相関係数が最大となるように計算します。
参考文献
- 計量テキスト分析における対応分析の活用.pdf
KH Coderの開発者の方が対応分析について解説しています。 - コーパス言語学研究における多変量解析手法の比較.pdf
副題は『主成分分析vs.コレスポンデンス分析』です。テキストマイニングにおける主成分分析と対応分析(コレスポンデンス分析)の違いを解説しています。 - <研究ノート>対応分析によるデータ解析.pdf
※リンクをクリックするとPDFファイルがダウンロードされます - 社会システム分析のための統合化プログラム14-コレスポンデンス分析・数量化Ⅲ類-.pdf
どちらも対応分析について数式を用いた詳しい解説があります。