テキストマイニングによる歌詞分析【KHCoder・米津玄師】
テキストマイニングによる歌詞分析のやり方や、KHCoderというソフトを使った歌詞の分析結果をご紹介します。
はじめに
歌詞分析には、歌詞のテキストデータとテキストマイニングソフトが必要になります。
テキストマイニングソフトはフリーのKHCoder以外に、MTMineR、AIテキストマイニングなどがあります。
準備
KHCoderで分析を始める前の準備です。
テキストデータの収集
歌詞のテキストデータを集める必要があります。歌詞はネットで簡単に調べることができます。しかし、著作権侵害対策のためコピーができず、収集は容易ではありません。
著作権について
ネット上の歌詞のコピーしても著作権侵害にはなりません。
KHCoderなどテキストマイニングソフトによる分析や、分析結果の公表も侵害ではありません。
ただし、集めた歌詞を公開すると侵害になります。たとえ一部であっても、JASRACに訴訟を起こされる場合があります。
違法に公開されたデータの使用も違法になります。
歌詞の引用もJASRACの訴訟対象になる可能性があります。
歌詞データの注意点
KHCoderは句点を1文、改行を段落として処理します。
例えば、下記の文章は、「今日は晴れです」と「明日は雨です」が1文になります。
今日は晴れです。明日は雨です。
一方、下記の歌詞は、「今日は晴れです 明日は雨です」が1文になります。
今日は晴れです 明日は雨です
分析対象
この記事では米津玄師の楽曲を分析します。タイトルは表の通りです。20曲あります。
タイトル | タイトル |
---|---|
馬と鹿 | 海と幽霊 |
打上花火 | アイネクライネ |
灰色と青 | vivi |
メランコリーキッチン | Pale Blue |
フラミンゴ | orion |
ピースサイン | NANIMONO |
パプリカ | MAD HEAD LOVE |
サンタマリア | Loser |
ゴーゴー幽霊船 | Lemon |
感電 | FlowerWall |
共起ネットワーク
KHCoderで出力した共起ネットワークは下の画像のようになります。
分析について
共起ネットワークは、言葉がどのようにして使われたかがわかります。
画像の「きっと」に注目すると、「まだ終わらない」「永遠」「変わる」というフレーズと一緒に使われていることがわかります。
フレーズの共起ネットワーク
画像の上の方にある「パッ」「光る」「花火」「咲く」のネットワークは『打上花火』の歌詞を意味しています。
左隣の「匂い」「胸」「離れる」「残る」は『Lemon』の歌詞です。
特徴語のネットワーク
それぞれの楽曲の特徴語で共起ネットワークを描くと、下の画像のようになります。
分析について
タイトルと結びついている言葉は、その曲の特徴を表しています。
例えば、『Lemon』は「光」が特徴語の1つです。
言葉を囲む丸の色は結びつくタイトルの数量によって変わります。
「今」は、『Lemon』『Flower Wall』『Loser』『灰色と青』の4つ楽曲と結びつき、色はやや濃い緑です。一方、「光」は『Lemon』だけで、色はオレンジです。
対応分析
KHCoderで出力した対応分析は下の画像のようになります。
分析について
横軸(成分1)と縦軸(成分2)に解釈を加え分析します。軸の10.86%や9.2%はデータをどれだけ捉えているかを意味します。10%は低いです。
この記事のまとめ
KHCoderによる歌詞分析のやり方と、米津玄師の楽曲を対象にした分析結果をご紹介しました。
KHCoderのベイズ学習を使えば歌詞の著者推定ができます。自分で書いた歌詞が誰に似ているか、ということも分析できます。