Orange Data Miningの使い方・インストール方法【データマイニングソフト】
Orangeのインストール方法と使い方をご紹介します。以下では、相関ルール(アソシエーション分析)分析のやり方を例に挙げています。プログラミング不要で、GUIを操作するだけで結果が得られます。なお、以下の内容はWindows版の内容となります。
インストール
下記のサイトからダウンロードできます。Windows、macOS、Linuxを選択することができます。
インストーラーを起動すると次のような画面が表示されます。
Nextなどをクリックしていくだけですので、詳細は省きます。インストールは時間がかかるかもしれません。
ウェジットのダウンロード
Orangeを起動すると下記のような画面が表示されます。ここでは、赤枠で囲ったNewをクリックします。
ワークフローの名前を求められますので、適当な名前を入力してください。左下のチェックボックスを外すと、名前の入力が省略されます。
メニューバーのOptionsからAdd-ons...をクリックします。
表示された画面でOrange3-Associateにチェックを入れ、画面右下のOKボタンをクリックします。
OKボタンを押すとインストールが始まります。
再起動
終了すると下記の画面が表示されますので、OKボタンを押します。終了後はOrangeを手動でもう一度起動します。
データ準備
分析対象は素人小説投稿サイトの小説です。投稿者は小説に任意でタグと呼ばれるラベルをつけることができます。以下はこのタグを分析した結果です。
データはcsv形式で準備します。
下図は今回の相関ルール分析で使用したcsvファイルのスクリーンショットです。
タイトルの列に、小説の作品名が並んでいます。
1行目のタイトル以外はタグの名前です。短編、恋愛、学園、魔法などなどが下記の画像には表示されています。
この表は4行目の作品(【短編】君との恋愛に占め……)に恋愛のタグがつけられていたことを意味しています。
タグが付与されていない場合は空欄(何も入力しない)とします。0などを入力すると、エラーが出て分析ができません。
相関ルール分析の実行
赤線で囲った左上のFileをクリックします。するとFileというアイコンがキャンバスに表示されます。
データ選択
キャンバスのFileをクリックすると、下図のような画面が表示されます。この画面で、右上のフォルダマーク(赤枠部分)をクリックし、準備したcsvファイルを選択します。
ファイルを読み込むと画面下部のColumnsにデータが表示されます。
今回準備したデータの場合、タイトルが小説の名前ですので、こちらがmetaデータとなります。黄色いマーカーペンでハイライトしています。
Columnsを編集しない場合は画面右下のApplyを押さなくても大丈夫ですので、右上の×ボタンで画面を閉じます。
接続
続いて、画面左のAssociation Rulesをクリックします。(下図の赤枠)キャンバスに表示されたFilesのアイコンとAssociation Rulesのアイコンの周りにある破線を繋ぎます。(下図の青枠)
2つのアイコンを繋ぐと下図のような状態になります。
出力
この状態でAssociation Rulesのアイコンをクリックすると下図のような結果が得られます。
結果
分析結果は以下の通りです。
データ
以下はデータマイニングツールのorangeで出力した結果です。なお、SがSupp(支度度)、CがConf(信頼度)、LがLift(リフト値)です。
S | C | L | Antecedent | Consequent | |
---|---|---|---|---|---|
0.018 | 0.104 | 1.030 | カクヨムオンリー=1 | → | 恋愛=1 |
0.022 | 0.116 | 3.043 | 短編=1 | → | 万人向け=1 |
0.014 | 0.134 | 3.231 | 恋愛=1 | → | 高校生=1 |
0.015 | 0.150 | 2.158 | 恋愛=1 | → | ライトノベル=1 |
0.029 | 0.155 | 1.533 | 短編=1 | → | 恋愛=1 |
0.011 | 0.157 | 0.936 | 学園=1 | → | カクヨムオンリー=1 |
0.018 | 0.173 | 1.030 | 恋愛=1 | → | カクヨムオンリー=1 |
0.013 | 0.174 | 2.509 | ファンタジー=1 | → | ライトノベル=1 |
0.013 | 0.180 | 0.972 | 学園=1 | → | 短編=1 |
0.013 | 0.180 | 4.339 | 学園=1 | → | 高校生=1 |
0.033 | 0.181 | 4.131 | 短編=1 | → | ショートショート=1 |
0.011 | 0.182 | 4.003 | ラブコメ=1 | → | 青春=1 |
0.013 | 0.184 | 2.509 | ライトノベル=1 | → | ファンタジー=1 |
0.013 | 0.184 | 3.206 | ライトノベル=1 | → | 魔法=1 |
0.010 | 0.188 | 1.121 | 異世界=1 | → | カクヨムオンリー=1 |
0.010 | 0.188 | 6.222 | 異世界=1 | → | 剣と魔法=1 |
0.019 | 0.189 | 4.161 | 恋愛=1 | → | 青春=1 |
0.012 | 0.195 | 4.702 | ラブコメ=1 | → | 高校生=1 |
0.014 | 0.195 | 3.185 | ライトノベル=1 | → | ラブコメ=1 |
0.020 | 0.197 | 2.776 | 恋愛=1 | → | 学園=1 |
0.020 | 0.197 | 3.208 | 恋愛=1 | → | ラブコメ=1 |
0.015 | 0.207 | 3.600 | ファンタジー=1 | → | 魔法=1 |
0.013 | 0.208 | 1.124 | ラブコメ=1 | → | 短編=1 |
0.012 | 0.208 | 3.789 | 魔法=1 | → | 異世界=1 |
0.015 | 0.213 | 3.080 | 学園=1 | → | ライトノベル=1 |
0.012 | 0.217 | 3.789 | 異世界=1 | → | 魔法=1 |
0.015 | 0.218 | 2.158 | ライトノベル=1 | → | 恋愛=1 |
0.015 | 0.218 | 3.080 | ライトノベル=1 | → | 学園=1 |
0.010 | 0.220 | 1.311 | ホラー=1 | → | カクヨムオンリー=1 |
0.014 | 0.221 | 3.185 | ラブコメ=1 | → | ライトノベル=1 |
0.013 | 0.222 | 3.206 | 魔法=1 | → | ライトノベル=1 |
0.010 | 0.228 | 1.234 | 青春=1 | → | 短編=1 |
0.011 | 0.233 | 1.262 | コメディ=1 | → | 短編=1 |
0.044 | 0.237 | 1.410 | 短編=1 | → | カクヨムオンリー=1 |
0.017 | 0.241 | 1.436 | ライトノベル=1 | → | カクヨムオンリー=1 |
0.011 | 0.246 | 4.003 | 青春=1 | → | ラブコメ=1 |
0.044 | 0.261 | 1.410 | カクヨムオンリー=1 | → | 短編=1 |
0.015 | 0.264 | 3.600 | 魔法=1 | → | ファンタジー=1 |
0.013 | 0.271 | 1.467 | ホラー=1 | → | 短編=1 |
0.010 | 0.277 | 9.642 | ハーレム=1 | → | チート=1 |
0.020 | 0.281 | 2.776 | 学園=1 | → | 恋愛=1 |
0.020 | 0.281 | 4.578 | 学園=1 | → | ラブコメ=1 |
0.029 | 0.283 | 1.533 | 恋愛=1 | → | 短編=1 |
0.012 | 0.288 | 4.702 | 高校生=1 | → | ラブコメ=1 |
0.021 | 0.292 | 6.432 | 学園=1 | → | 青春=1 |
0.013 | 0.308 | 4.339 | 高校生=1 | → | 学園=1 |
0.020 | 0.325 | 3.208 | ラブコメ=1 | → | 恋愛=1 |
0.020 | 0.325 | 4.578 | ラブコメ=1 | → | 学園=1 |
0.014 | 0.327 | 3.231 | 高校生=1 | → | 恋愛=1 |
0.010 | 0.342 | 6.222 | 剣と魔法=1 | → | 異世界=1 |
0.014 | 0.354 | 2.107 | 万人向け=1 | → | カクヨムオンリー=1 |
0.010 | 0.361 | 9.642 | チート=1 | → | ハーレム=1 |
0.019 | 0.421 | 4.161 | 青春=1 | → | 恋愛=1 |
0.012 | 0.441 | 2.387 | SF=1 | → | 短編=1 |
0.021 | 0.456 | 6.432 | 青春=1 | → | 学園=1 |
0.022 | 0.562 | 3.043 | 万人向け=1 | → | 短編=1 |
0.033 | 0.764 | 4.131 | ショートショート=1 | → | 短編=1 |
タグの総数
余談ですが、タグの総数は3231で、分析に使用したタグは741個です。頻度が2以上を閾値としています。分布を確認すると下図のようにロングテールを描いていることがわかりました。