サポートベクター回帰・SVMとは【わかりやすく解説】

サポートベクター回帰は与えたデータを二つのグループに分け、どちらのグループに属するか判定します。SVM(support vector machine)とも呼ばれ、機械学習のひとつです。

解説

サポートベクターマシンは線形二値分類器とも呼ばれます。精度が非常に高いことで知られており、似たような機械学習の手法としては、ニューラルネットワークやランダムフォレストがあります。SVMを含め、いずれの手法も教師あり学習と呼ばれます。

線形二値分類

線形二値分類というと、なにやらいかめしいですが、簡単に言うと直線でデータを二つに分類するという意味です。イメージは下の図のようになります。通常は、二つのグループにしか分けることができません。しかし、多値分類、つまり三つ以上の分類もone-versus-rest法やペアワイズ法によって可能です。

引用:Machine learning methods for wind turbine condition monitoring: A review

できること

テキストデータを対象とした場合、句読点の打ち方などの文体的特徴を用いて、著者の推測が可能になります。

著者推定

例えば、文豪Aと文豪Bの作品について、SVMで分類器を作ったとします。そこに、文豪Aか、文豪Bか、どちらが書いた分らない作品が見つかったとします。この作品が誰の作品であるかは、分類機を使うことで予測できます。

応用例

SVMを使うと、下の画像ような結果が得られます。この結果は、芥川龍之介、太宰治、森博嗣、マゼンタの小説をSVMで分類させた結果です。マゼンタの作品が、正しく分類されているのがわかります。

上記の結果は、テキストマイニングソフトMTMineRでサポートベクターマシンを実行した結果です。テキスト(小説の文章)を対象に分析した結果です。

原理

サポートベクターマシンのイメージ図にあるような直線をどのようにして引くかかがポイントとなります。SVMはマージン、つまり、全てのデータとの距離が最も小さくなるように直線を描きます。

このような問題は数学的には最適化問題と呼ばれます。SVMはマージンを最小にするので、特に最小化問題といわれています。この問題を解くためにはラグランジュの未定乗数法が必要となります。

参考文献

Next Post Previous Post