Orange Data Miningの使い方・インストール方法【データマイニングソフト】

Orangeのインストール方法と使い方をご紹介します。以下では、相関ルール(アソシエーション分析)分析のやり方を例に挙げています。プログラミング不要で、GUIを操作するだけで結果が得られます。なお、以下の内容はWindows版の内容となります。

インストール

下記のサイトからダウンロードできます。Windows、macOS、Linuxを選択することができます。

インストーラーを起動すると次のような画面が表示されます。

orangeのインストーラー画面

Nextなどをクリックしていくだけですので、詳細は省きます。インストールは時間がかかるかもしれません。

ウェジットのダウンロード

Orangeを起動すると下記のような画面が表示されます。ここでは、赤枠で囲ったNewをクリックします。
ワークフローの名前を求められますので、適当な名前を入力してください。左下のチェックボックスを外すと、名前の入力が省略されます。

orangeの初期画面

メニューバーのOptionsからAdd-ons...をクリックします。

orangeのアドオン追加画面説明

表示された画面でOrange3-Associateにチェックを入れ、画面右下のOKボタンをクリックします。
OKボタンを押すとインストールが始まります。

orangeのアドオン追加画面(相関ルール)

再起動

終了すると下記の画面が表示されますので、OKボタンを押します。終了後はOrangeを手動でもう一度起動します。

orangeのアドオン追加確認画面

データ準備

分析対象は素人小説投稿サイトの小説です。投稿者は小説に任意でタグと呼ばれるラベルをつけることができます。以下はこのタグを分析した結果です。

データはcsv形式で準備します。
下図は今回の相関ルール分析で使用したcsvファイルのスクリーンショットです。

タイトルの列に、小説の作品名が並んでいます。
1行目のタイトル以外はタグの名前です。短編、恋愛、学園、魔法などなどが下記の画像には表示されています。

orangeで使用するcsvファイルの画面

この表は4行目の作品(【短編】君との恋愛に占め……)に恋愛のタグがつけられていたことを意味しています。
タグが付与されていない場合は空欄(何も入力しない)とします。0などを入力すると、エラーが出て分析ができません。

相関ルール分析の実行

赤線で囲った左上のFileをクリックします。するとFileというアイコンがキャンバスに表示されます。

データ選択

キャンバスのFileをクリックすると、下図のような画面が表示されます。この画面で、右上のフォルダマーク(赤枠部分)をクリックし、準備したcsvファイルを選択します。
ファイルを読み込むと画面下部のColumnsにデータが表示されます。
今回準備したデータの場合、タイトルが小説の名前ですので、こちらがmetaデータとなります。黄色いマーカーペンでハイライトしています。
Columnsを編集しない場合は画面右下のApplyを押さなくても大丈夫ですので、右上の×ボタンで画面を閉じます。

orangeの初期画面

接続

続いて、画面左のAssociation Rulesをクリックします。(下図の赤枠)キャンバスに表示されたFilesのアイコンとAssociation Rulesのアイコンの周りにある破線を繋ぎます。(下図の青枠)

orangeのアイコン接続説明画面

2つのアイコンを繋ぐと下図のような状態になります。

orangeのアイコン接続説明画面(接続完了)

出力

この状態でAssociation Rulesのアイコンをクリックすると下図のような結果が得られます。

orangeの相関ルール分析の結果

結果

分析結果は以下の通りです。

データ

以下はデータマイニングツールのorangeで出力した結果です。なお、SがSupp(支度度)、CがConf(信頼度)、LがLift(リフト値)です。

アソシエーション分析の結果
S C L Antecedent Consequent
0.018 0.104 1.030 カクヨムオンリー=1 恋愛=1
0.022 0.116 3.043 短編=1 万人向け=1
0.014 0.134 3.231 恋愛=1 高校生=1
0.015 0.150 2.158 恋愛=1 ライトノベル=1
0.029 0.155 1.533 短編=1 恋愛=1
0.011 0.157 0.936 学園=1 カクヨムオンリー=1
0.018 0.173 1.030 恋愛=1 カクヨムオンリー=1
0.013 0.174 2.509 ファンタジー=1 ライトノベル=1
0.013 0.180 0.972 学園=1 短編=1
0.013 0.180 4.339 学園=1 高校生=1
0.033 0.181 4.131 短編=1 ショートショート=1
0.011 0.182 4.003 ラブコメ=1 青春=1
0.013 0.184 2.509 ライトノベル=1 ファンタジー=1
0.013 0.184 3.206 ライトノベル=1 魔法=1
0.010 0.188 1.121 異世界=1 カクヨムオンリー=1
0.010 0.188 6.222 異世界=1 剣と魔法=1
0.019 0.189 4.161 恋愛=1 青春=1
0.012 0.195 4.702 ラブコメ=1 高校生=1
0.014 0.195 3.185 ライトノベル=1 ラブコメ=1
0.020 0.197 2.776 恋愛=1 学園=1
0.020 0.197 3.208 恋愛=1 ラブコメ=1
0.015 0.207 3.600 ファンタジー=1 魔法=1
0.013 0.208 1.124 ラブコメ=1 短編=1
0.012 0.208 3.789 魔法=1 異世界=1
0.015 0.213 3.080 学園=1 ライトノベル=1
0.012 0.217 3.789 異世界=1 魔法=1
0.015 0.218 2.158 ライトノベル=1 恋愛=1
0.015 0.218 3.080 ライトノベル=1 学園=1
0.010 0.220 1.311 ホラー=1 カクヨムオンリー=1
0.014 0.221 3.185 ラブコメ=1 ライトノベル=1
0.013 0.222 3.206 魔法=1 ライトノベル=1
0.010 0.228 1.234 青春=1 短編=1
0.011 0.233 1.262 コメディ=1 短編=1
0.044 0.237 1.410 短編=1 カクヨムオンリー=1
0.017 0.241 1.436 ライトノベル=1 カクヨムオンリー=1
0.011 0.246 4.003 青春=1 ラブコメ=1
0.044 0.261 1.410 カクヨムオンリー=1 短編=1
0.015 0.264 3.600 魔法=1 ファンタジー=1
0.013 0.271 1.467 ホラー=1 短編=1
0.010 0.277 9.642 ハーレム=1 チート=1
0.020 0.281 2.776 学園=1 恋愛=1
0.020 0.281 4.578 学園=1 ラブコメ=1
0.029 0.283 1.533 恋愛=1 短編=1
0.012 0.288 4.702 高校生=1 ラブコメ=1
0.021 0.292 6.432 学園=1 青春=1
0.013 0.308 4.339 高校生=1 学園=1
0.020 0.325 3.208 ラブコメ=1 恋愛=1
0.020 0.325 4.578 ラブコメ=1 学園=1
0.014 0.327 3.231 高校生=1 恋愛=1
0.010 0.342 6.222 剣と魔法=1 異世界=1
0.014 0.354 2.107 万人向け=1 カクヨムオンリー=1
0.010 0.361 9.642 チート=1 ハーレム=1
0.019 0.421 4.161 青春=1 恋愛=1
0.012 0.441 2.387 SF=1 短編=1
0.021 0.456 6.432 青春=1 学園=1
0.022 0.562 3.043 万人向け=1 短編=1
0.033 0.764 4.131 ショートショート=1 短編=1

タグの総数

余談ですが、タグの総数は3231で、分析に使用したタグは741個です。頻度が2以上を閾値としています。分布を確認すると下図のようにロングテールを描いていることがわかりました。

カクヨムタグ分析
Next Post Previous Post