KHCoderの使い方と事例【ベイズ学習など】
KHCoder(コーダー)の使い方です。マニュアルには詳しい記載のない機能の使い方をまとめています。
使い方
KHCoderでクラスター分析、対応分析、コーディング・ルールの作成、ベイズ学習を実行する方法です。
クラスター分析
KHCoderでクラスター分析を実行する方法です。KHCoderでは抽出語だけではなく、文章もクラスターに分類できます。なお、文章のクラスター分析の結果を使って共起ネットワークも出力できます。
対応分析
KHCoderで出力した対応分析の結果を解釈する方法です。
コーディング・ルール
ベイズ学習
KHCoderでベイズ学習(ナイーブベイズ)を実行する方法です。ベイズ学習で外部変数を学習させれば、分類器の作成と分類が可能となり、未知のデータの分類(推定)が行えるようになります。
以下では小説投稿サイトに投稿されている小説の星の数をベイズ学習の対象にします。この学習データをもとに、未知の小説がどれくらい星を獲得できるか予測します。
星の数とは、投稿した作品についた“いいね”の数のようなものです。星の数が多いほど、評価の高い作品であるといえます。
やり方
前処理は済んでいるとして、「ベイズ学習による分類」の話を進めます。
①ベイズ学習による分類の画面を起動
メニューの<ツール>から、<文章>、<ベイズ学習による分類>、<外部変数から学習>を選びます。
②ベイズ学習による学習データの作成
外部変数からの学習、という画面で学習データを作成します。下の画像のような設定で、30分ほどかかりました。
交差妥当化を行うことで、学習データとテストデータの分類によって生じる偏りを平均化することがきます。5回や10回とする場合が多いですが、数が多いと時間がかかってしまうため、調整が必要です。
設定後<OK>を押すと、ファイル名を入力する画面が現れます。このファイルが学習データとなります。
終了後、正解を得た数で精度を確認できます。今回の場合、45.9%でした。
ここで学習データをつくったデータとは別のテキストデータを読み込みます
③学習結果を用いた自動分類の画面を起動
メニューの<ツール>から、<文章>、<ベイズ学習による分類>、<学習結果を用いた自動分類>を選びます。
④学習データで分類
先ほどつくった学習データで、テキストを分類します。<参照>で、学習データを選択することができます。<変数名>は好きな名前を付けます。
入力が完了したら、<OK>を押し、分類を開始します。
結果
ベイズ学習の学習データで分類した結果は下の画像のように確認できます。
画像の中に値という項目があります。これは、獲得している星の数に応じて5段階に分類しており、順位データを意味しています。分類の基準は、ラベルに書いてある通りです。
度数は、H5の数です。ここでのH5は、小説のエピソードの数です。長編小説ならば、第一話が、ひとつのH5になります。短編小説の場合は、一話完結が多いので、ひとつのH5が作品全体となります。
結果をみると、☆を51個以上獲得できそうなH5がふたつあります。このうちひとつは、一話完結の短編小説でした。
事例
ベイズ学習の使い方も事例を含んでいますが、これ以外についても紹介します。KHCoderを使った歌詞分析です。