ワードクラウドとは?テキストマイニングとの違い
ワードクラウドについてご紹介します。ワートクラウドはテキストマイニングの一種です。
ワードクラウドとは
ワードクラウドは文章(レポート、演説、SNSなどの様々なテキストデータ)に登場する単語の頻度を数え上げて視覚化した画像です。ワードクラウドでは、通常、頻度の多い単語の文字サイズが大きくなります。
単語を数えるだけではありますが、日本語は英語のようにスペースで区切られていないため、単語を区切る(分かち書きする)のが難しいです。ただ、分かち書きをするソフト(形態素解析ソフトと呼ばれます)を使えば、簡単にできます。
類語
ワードクラウドの類語にはタグクラウドや重み付きリストなどがあります。タグクラウドは、ブログなどのウェブサイトでよくみかけます。それぞれの記事に設定したタグ(ジャンル分類のような機能を果たす)の数に応じて、タグの表示を大きくしたりします。頻度という重みのついたリスト、と呼んだ方がわかりやすい方もいるかもしれません。
参考画像
下の画像は小説をテキストデータとしてワードクラウドを出力しています。太宰治、芥川龍之介、森博嗣、マゼンタというのは作者名です。
下画像のように、ワードクラウドに大きく描かれる言葉(登場回数が多い単語)は文章の特徴を表します。
テキストマイニングとの違い
ワードクラウドのようにして文章を可視化し分析することをテキストマイニングと呼びます。テキストマイニングは分析手法の総称で、ワードクラウドは具体的な手法の一つです。
使い方(活用方法)
ワードクラウドは頻繁に登場する言葉を大きく生じしています。そのため、テキストデータが何に言及したのかを分析することができます。キーワードを抽出するともいえるかもしれません。単なる頻度であるならば、リストで表示することもできます。しかし、表で示すよりも視覚化した方がわかりやすく、インパクトもあります。
よく使われるのは政治家の演説(所信表明演説など)です。政治家が何に言及したのかを分析するため、テキストマイニングが使われます。たとえば、経済対策という言葉がワードクラウドに大きく表れれば、その政治家は経済対策という言葉を頻繁に使ったということがわかります。
経済対策という言葉を使ったから経済対策に力を入れている、とは言い切れないため、経済対策という言葉をひとつの切り口として使い、どのような内容が語られているのかを分析する必要があります。
その他、ツイッターなどのSNSの分析にも使われます。投稿者が何に言及しているのか、どういったジャンルに興味をもっているのか、などが分析できます。
分析が困難な場合
冒頭で紹介したワードクラウドは小説を対象にしています。しかし、ワードクラウドによる小説の分析は難しいです。
上図に登場している単語は「自分」「お母さま」「河童」などの登場人物名です。確かに登場人物は小説の特徴といえるかもしれませんが、読者が物語を通じて感じとる内容ではありません。このワードクラウドでは、太宰治の「斜陽」や「走れメロス」などを分析対象に含んでいますが、作品のテーマや作者の意図などがわかる単語はほぼ登場していないといえます。
エウロパ、西之園、加部谷なども人の名前です。
事例
日経新聞の「キーワードでたどる新型コロナ」や朝日新聞の「所信表明の特徴を分析」でワードクラウドが使われています。
仕組み
テキストデータを単語に分解し、単語の数量を数え上げることで、ワードクラウドが作成されます。
単語に分解する作業は形態素解析ツールで行われます。MeCab(めかぶ)というツールが有名です。MeCabは無料で使用できます。
テキストマイニングとの違い
ワードクラウドはテキストマイニングの一種です。テキストマイニングでは、分かち書きした単語(単語群、単語の頻度リスト)を使って、様々な分析を行います。ワードクラウドの他には、共起ネットワーク、対応分析などが有名です。
作り方
冒頭で紹介したワードクラウドはMTMineRというフリーソフトを使いました。このソフトでは、入力した文章にラベル(太宰治や芥川龍之介など)を付与することができます。