テキストマイニングの対応分析とは【わかりやすく解説】

対応分析は多変量解析のひとつです。コレスポンデンス(correspondence)分析とも呼ばれます。たくさんのデータを少ないデータにまとめる分析手法です。

概要

対応分析は質的データ(アンケートでよく見かける満足度や性別、血液型など)の分析に適した多変量解析です。

類似手法

対応分析には、似たような分析手法がいくつかあります。

主成分分析

対応分析と似たような分析に、主成分分析という多変量解析の分析手法があります。これは、量的データ(長さ、質量など)に用いる手法です。

数量化Ⅲ類

数量化Ⅲ類という、対応分析と同じ目的で、使用される分析手法もあります。これは、データが0、1の場合に用いる手法です。例えば、アンケートで、好きもしくは嫌い、という選択肢を設けた場合、好き=1、嫌い=0として、数量化Ⅲ類で分析します。

テキストマイニングの場合、文章に出現する単語の数と、例えば、小説のジャンルなどでデータをまとめ、分析すると、単語とジャンルの関連性を図にしてくれます。

できること

対応分析を行うと、散布図を描くことができます

事例

下の画像は、小説に登場する単語のジャンルとの関連性を対応分析で調べた結果です。

画像をみると、異世界ファンタジーの近くに『魔法』や『強い』という言葉が配置されています。また、現代ドラマの近くには『先生』という言葉がみえます。これらは、ジャンルに特徴的な言葉であるといえます。

恋愛やラブコメや、SF、現代ファンタジー、ホラーの距離が近いことから、これらのジャンルは、ひとつのグループとしてみることもできます

KHCoderによる対応分析

原理

単語の出現数と、文章のタイトルやジャンルなどのデータについて、相関係数が最大となるように計算します。

参考文献

Next Post Previous Post