テキストマイニングによる歌詞分析【KHCoder・米津玄師】

テキストマイニングによる歌詞分析のやり方や、KHCoderというソフトを使った歌詞の分析結果をご紹介します。

はじめに

歌詞分析には、歌詞のテキストデータとテキストマイニングソフトが必要になります。
テキストマイニングソフトはフリーのKHCoder以外に、MTMineR、AIテキストマイニングなどがあります。

準備

KHCoderで分析を始める前の準備です。

テキストデータの収集

歌詞のテキストデータを集める必要があります。歌詞はネットで簡単に調べることができます。しかし、著作権侵害対策のためコピーができず、収集は容易ではありません。

著作権について

ネット上の歌詞のコピーしても著作権侵害にはなりません。
KHCoderなどテキストマイニングソフトによる分析や、分析結果の公表も侵害ではありません。

ただし、集めた歌詞を公開すると侵害になります。たとえ一部であっても、JASRACに訴訟を起こされる場合があります。
違法に公開されたデータの使用も違法になります。

歌詞の引用もJASRACの訴訟対象になる可能性があります。

歌詞データの注意点

KHCoderは句点を1文、改行を段落として処理します。

例えば、下記の文章は、「今日は晴れです」と「明日は雨です」が1文になります。

今日は晴れです。明日は雨です。

一方、下記の歌詞は、「今日は晴れです 明日は雨です」が1文になります。

今日は晴れです 明日は雨です

分析対象

この記事では米津玄師の楽曲を分析します。タイトルは表の通りです。20曲あります。

タイトルタイトル
馬と鹿海と幽霊
打上花火アイネクライネ
灰色と青vivi
メランコリーキッチンPale Blue
フラミンゴorion
ピースサインNANIMONO
パプリカMAD HEAD LOVE
サンタマリアLoser
ゴーゴー幽霊船Lemon
感電FlowerWall

共起ネットワーク

KHCoderで出力した共起ネットワークは下の画像のようになります。

米津玄師歌詞分析(共起ネットワークの結果)

分析について

共起ネットワークは、言葉がどのようにして使われたかがわかります。

画像の「きっと」に注目すると、「まだ終わらない」「永遠」「変わる」というフレーズと一緒に使われていることがわかります。

フレーズの共起ネットワーク

画像の上の方にある「パッ」「光る」「花火」「咲く」のネットワークは『打上花火』の歌詞を意味しています。
左隣の「匂い」「胸」「離れる」「残る」は『Lemon』の歌詞です。

特徴語のネットワーク

それぞれの楽曲の特徴語で共起ネットワークを描くと、下の画像のようになります。

米津玄師歌詞分析

分析について

タイトルと結びついている言葉は、その曲の特徴を表しています。
例えば、『Lemon』は「光」が特徴語の1つです。

言葉を囲む丸の色は結びつくタイトルの数量によって変わります。
「今」は、『Lemon』『Flower Wall』『Loser』『灰色と青』の4つ楽曲と結びつき、色はやや濃い緑です。一方、「光」は『Lemon』だけで、色はオレンジです。

対応分析

KHCoderで出力した対応分析は下の画像のようになります。

米津玄師歌詞(対応分析の結果)

分析について

横軸(成分1)と縦軸(成分2)に解釈を加え分析します。軸の10.86%や9.2%はデータをどれだけ捉えているかを意味します。10%は低いです。

この記事のまとめ

KHCoderによる歌詞分析のやり方と、米津玄師の楽曲を対象にした分析結果をご紹介しました。
KHCoderのベイズ学習を使えば歌詞の著者推定ができます。自分で書いた歌詞が誰に似ているか、ということも分析できます。

Next Post Previous Post