Infinite SVM - ICML 読み会

7/16 に行われた、id:nokuno さん主催の ICML 2011 論文読み会にのこのこ行ってきました。参加者&会場提供してくださった PFI の @ さん、ありがとうございます。


参加と発表がセット、ということで Zhu, Chen & Xing さんの "In nite SVM: a Dirichlet Process Mixture of Large-margin Kernel Machines"(以降 "iSVM") を紹介。
iSVM は一言で言うと「SVM(Support Vector Machine) を DPM(Dirichlet Process Mixture) で無限混合モデルにしてみた」。


発表時の資料は当日に公開したものの、発表時間の目安が 30分ということで 20枚以内にむりくり収めたせいで、いろいろ説明不足。
さらに前日の夜中から半徹でなんとかでっち上げたものだったので、あれこれいっぱい突っ込まれてしまい。
というわけで、多少補足しつつ、構成も変えて、当社比 1.5倍ほどになった改訂版。



例えば発表時は MED (Jaakkola+ NIPS99) を先頭で紹介してしまったが、結局 iSVM と関係ないと言いたいんだからお尻に持ってきたり、「混合 SVM」でわかってもらえると思い込んでいたら全然伝わってなかったので、その説明を1枚入れたり、などなど。
元の資料よりはだいぶ読みやすくなった、かな? まだまだ不親切な部分も多いとは思うけどね!


読む論文に iSVM を選んだのは、「苦手だったり、あんまり勉強していない範囲」からピックアップして、その中で制限時間内(読み会開催日まで)にギリギリ読めそうなもの、という他の参加者とは多分全然基準が違ってる(苦笑)。
今回の苦手範囲は SVMエントロピー最大原理。
ちなみに前の NIPS 読み会で t-Logistic Regression を選んだのも、同じような基準(ロジスティック回帰と非指数型分布族)。


DPM の復習が計算に入ってなくて、資料作りが本当にギリギリになってしまったが(え? いつものこと?)、おかげでエントロピー最大原理についてはだいぶわかってきたような気がする。ん? SVM


しょうもないことだが、iSVM の論文で結構悩んでいたのが、以下の式を "an entropic regularized risk minimization problem" と紹介していた部分。

  • \min_{q(z,\eta)} \rm{KL}(q(z,\eta)||p_0(z,\eta))+C_1\mathcal{R}(q(z,\eta))


式の形からは R(q(z,η)) がまるで正則化項のようだが、定義からすればこちらがリスクのはず。
でも KL が正則化項ってどういうこと? 係数も付いてないぞ?
ということを、お恥ずかしながら何日か悩んでいたわけ。


結論は、やっぱり R(q(z,η)) がリスク関数。係数がそっちについているのは……まあ、どっちについていても同値の問題だからよしとしよう。意図はわからないけど(苦笑)。*1
今、R(q(z,η)) だけを最小化すると、いわゆる過学習的現象が発生するかもしれない。そこで正則化をしようということになるわけだが、ベイズの枠組みでの正則化とは「事前分布に少し近づける」ことであり、「 KL(q||p_0) を足して最小化する」というのは、まさに「事前分布 p_0 の方に相対エントロピーでちょっと引っ張ってもらう」ということ。
entropic regularized と呼ばれるのも、納得。わかってしまえば簡単。

  • \min_{q(z,\eta)} \mathcal{R}(q(z,\eta))+C_1\rm{KL}(q(z,\eta)||p_0(z,\eta))


と表記しておいてくれれば、もう少し悩む時間が短く済んだかもね、と責任転嫁しておこうw

余談

DPM は説明しなくていいよ! というお墨付きをいただいていたものの、本当に大丈夫かなあと心配していたが、本当に大丈夫だった。参加者のレベル高杉ワロタ。

*1:おそらく MED の定式化と似せたいためだろうと思うのだが、スライド改で説明してあるように、もはや根本的に異なっているわけで、それでもあえて MED にこだわる理由はやっぱりよくわからない