サポートベクター回帰・SVMとは【わかりやすく解説】
サポートベクター回帰は与えたデータを二つのグループに分け、どちらのグループに属するか判定します。SVM(support vector machine)とも呼ばれ、機械学習のひとつです。
解説
サポートベクターマシンは線形二値分類器とも呼ばれます。精度が非常に高いことで知られており、似たような機械学習の手法としては、ニューラルネットワークやランダムフォレストがあります。SVMを含め、いずれの手法も教師あり学習と呼ばれます。
線形二値分類
線形二値分類というと、なにやらいかめしいですが、簡単に言うと直線でデータを二つに分類するという意味です。イメージは下の図のようになります。通常は、二つのグループにしか分けることができません。しかし、多値分類、つまり三つ以上の分類もone-versus-rest法やペアワイズ法によって可能です。
できること
テキストデータを対象とした場合、句読点の打ち方などの文体的特徴を用いて、著者の推測が可能になります。
著者推定
例えば、文豪Aと文豪Bの作品について、SVMで分類器を作ったとします。そこに、文豪Aか、文豪Bか、どちらが書いた分らない作品が見つかったとします。この作品が誰の作品であるかは、分類機を使うことで予測できます。
応用例
SVMを使うと、下の画像ような結果が得られます。この結果は、芥川龍之介、太宰治、森博嗣、マゼンタの小説をSVMで分類させた結果です。マゼンタの作品が、正しく分類されているのがわかります。
上記の結果は、テキストマイニングソフトMTMineRでサポートベクターマシンを実行した結果です。テキスト(小説の文章)を対象に分析した結果です。
原理
サポートベクターマシンのイメージ図にあるような直線をどのようにして引くかかがポイントとなります。SVMはマージン、つまり、全てのデータとの距離が最も小さくなるように直線を描きます。
このような問題は数学的には最適化問題と呼ばれます。SVMはマージンを最小にするので、特に最小化問題といわれています。この問題を解くためにはラグランジュの未定乗数法が必要となります。
参考文献
- テキストマイニングによる筆者識別の正確性ならびに判定手続きの標準化
2.5文体的特徴で、品詞のbigramの記述があります。筆者識別力が高い文章の特徴として挙げられています。また、この論文はMTMineRを使って分析してます。 - ランダムフォレスト法による文章の書き手の同定
タイトルはランダムフォレストですが、サポートベクターマシンも使用しています。書き手の同定について、その有効性をk近傍法などの手法と比較しています。