KHcoderの対応分析について【軸の解釈など】
テキストマイニングツールKHCoderの対応分析についてまとめています。
対応分析はたくさんのデータを少ないデータにまとめる多変量解析のひとつです。コレスポンデンス分析とも呼ばれます。
KHcoderの対応分析とは
下記リンク先の文献で、KHCoderの開発者が対応分析について解説しています。
対応分析の軸の解釈
下の画像は、日本興行収入ランキング上位5作品の映画レビュー(ネットの口コミ)を分析した結果です。この結果の軸の解釈について、ご説明させて頂きます。
画像では、横軸は成分1、縦軸は成分2という表記になっています。多変数のデータを新しい変数にまとめ寄与度の大きい変数が成分1、次点が成分2です。
なお、この画像に付置されている単語はレビューに使われた形容詞となっています。
横軸の解釈
横軸は作品の対象という解釈を与えました。
右にいくほど大人向け、逆に左へ行くと子供向けです。
これはタイタニックとアナと雪の女王が両極にあることをヒントに軸を解釈した結果です。千と千尋、君の名は、劇場版鬼滅の刃は、万人向けという解釈になります。
形容詞をみても、右側は醜い、苦しい、恐ろしいというネガティブな言葉が多いのに対して、左側は可愛い、明るいという単語が並んでいます。これらの単語は作品の雰囲気を表していますが、これを、作品の対象というように拡大解釈しています。
縦軸の解釈
縦軸は興奮度です。これも、両極にある千と千尋と鬼滅の刃の映画の内容から解釈しています。
KHCoderの外部変数
KHCoderの外部変数は、分析対象とするテキスト以外の文や単語などになります。例えば、下記のような記述csvファイルの場合、性別や年齢が外部変数となります。
最初のファイル読み込みで、分析対象とするテキストを選択できます。下の例の場合、性別や年齢を形態素解析の対象にすることも可能です。
アンケート | 性別 | 年齢 |
---|---|---|
例文です | 男性 | 20代 |
例文です | 女性 | 20代 |
例文 | 男性 | 30代 |
…… | 男性 | 20代 |
…… | 女性 | 30代 |
外部変数と対応分析
下の画像も映画のレビューをKHCoderで分析した結果です。シリーズ物の映画のタイトルを外部変数にしています。
対応分析の結果、外部変数の周囲に、その映画の特徴を表す言葉が布置されています。
分析している映画は興行収入上位の人気映画(ヱヴァンゲリヲン新劇場版の第1作目から第3作目)です。