NIPS 2010 読み会 まとめ

12/26(日) にサイボウズ/サイボウズ・ラボを会場に NIPS 2010 読み会が開催されました。
おつかれさまでした&ありがとうございました>主催の nokuno さん、参加者各位


Nan Ding and S.V.N. Vishwanathan の "t-Logistic Regression" を読んだ。
熱力学の用語がバンバン出てきて、かなり読むのに苦戦したけれど、とてもおもしろい論文だった。

指数型分布族を1パラメータ拡張した t-指数型分布族というものを導入し、これをロジスティック回帰に当てはめることで t-ロジスティック回帰を考える。ちょうどガウス分布に対する Student t-分布(←実際これは t-指数型分布族)のように、ロジスティック回帰に頑健性を導入する、というもの。
もちろんそんなことをしたら分布は指数族ではないし、対数尤度関数も凸にならない。どうするか。
t-対数尤度を取ることで「凸関数の積」の最適化問題に落とし込み、そこで「凸関数の重み付き和の制約付き最小化を考えると、その最適解が元の問題の最適解に一致」というすごい定理(Convex Multiplicative Programming)を使うと解けてしまう。ここがとても鮮やか。読み会でも歓声が上がったほど(笑)。
t-ロジスティック回帰を実際使うか使わないかで言うと、使わない可能性の方が高いと思うけど(特に分配関数を計算するところがスプライン補完のままではさすがにちょっと……苦笑)。


しかしエスコート分布や非示量性、 Tsallis 統計という熱力学の道具立てがさっぱりわからなくて、参照先の論文をあれこれ読みまくる羽目に。特にエスコート分布については数学屋さんが満足するレベルの定式化はまだ行われていない様子。
でも Tsallis エントロピーエスコート分布とt-指数型分布族が、指数型分布族の一般化という枠組みで全てつながるところはかなりワクワクさせられる。


そもそもどうして "t-Logistic Regression" を読もうと思ったのか。タイトルなどから10本ほどに絞った候補に目を通して、「頑張ったらギリギリ読めそうで、一番面白そうなもの」というところ。
候補の中にはめっちゃ自然言語処理の論文とかもあって、NIPS にもこんな論文が通るんだ、んーでも、せっかく読むなら NIPS っぽい論文がいいかなあ、とか考えて外したんだけど、読み会参加者みんな同じように考えたのか、ふたを開けてみたら比較的ニュートラルな機械学習ネタの割合が多めだったので、あえてドメイン特化のものを選んでもっとカオスにしたほうがおもしろかったかもしれない。
まあでも、"t-Logistic Regression" を軽く眺めるだけではなく、ある程度しっかり読み込めたのはとても良かったので文句はないかな。


他の方の発表分を twitter つぶやき程度に、簡単にまとめ。

[Welinder+] The Multidimensional Wisdom of Crowds

id:tsubosaka さん。
Amazon Mechanical Turk など、大量タスクを(不特定)多数にやってもらうときにどうやって精度を上げるか。単純な多数決で済ませるにはお金がかかってしまうw
GLAD[Whitehill+ 2009]と同様にモデルに問題の難しさを導入しつつ、さらにアノテータのバイアスを考慮することで 10% 程度の精度向上。
現実利用を考えると、2値なのが難点かな。

[Qin+] A New Probabilistic Model for Rank Aggregation

id:sleepy_yoshi さん。
ランキングアグリゲーション。複数のランキングを統合した、一番もっともらしいランキングを求める問題。
ランキング間の距離を導入、全ての可能性からもっともコストの低いランキングを選ぶナイーブな手法では N! のオーダー。
それを N^2 やりつつで、かつ supervised な手法を紹介……なのだが論文だけでは N^4 まで。それを N^2 にするのは「注意深く実装」。いやあのその。
たぶん動的計画法とかなんだろうけど。

[Hein+] An Inverse Power Method for Nonlinear Eigenproblems with Applications in 1-Spectral Clustering and Sparse PCA

id:niam さん。
逆ベキ乗法で最小固有値問題をスパースに解きたい。そこでまず逆ベキ乗法の一般化から始めて、1次の正則化を導入することが出来る枠組みを作る、というお話。
一般化して応用に落とす、というのはとても好みな流れなんだけど、この日の資料作りでここ数日の睡眠時間を削っていたのがちょうどピークに達し、半分くらい意識失ってた。すいません(汗)。

[Ackerman+] Towards Property-Based Classification of Clustering Paradigms

@ さん。
クラスタリングの各種手法を特徴(不変性、一貫性、richness を細分化した11項目)をもとに分類。最適なものを使いましょう、という話。
代表的な手法についてそれぞれの項目を満たすかどうかの表が出てくるのだが、richness 系が全部○だったりと、項目があまり分類の役に立っていないような気が……

[Mørup+] Infinite Relational Modeling of Functional Connectivity in Resting State fMRI

@ さん。
fMRI の出力結果に IRM(Infinite Relational Modeling) を使って、脳の部位のクラスタリングと共起性を調べた、という話。
読み会で "straightforward" という言葉が飛び交いまくっていたのがとても印象的(笑)。
天下の NIPS ともあろうものが、こんな straightforward な論文を採用してていいの? というやっかm批判的精神の発露かな。

[Rawlik+] An Approximate Inference Approach to Temporal Optimization in Optimal Control

@ さん。
ロボットの最適制御問題を非線形動的に近似推論、って話?
非線形でやってるいろんな仕事はあるし、指定の点を通ると規定できるんならそこから推論できてしまうし、みたいな感じで、wk77 さん的にはいろいろ気に入らないところの多い論文だった様子(笑)。

[Zinkevich+] Parallel Stochastic Gradient Discent

id:nokuno さん。
MapReduce による確率的勾配降下法の並列化。
と聞けば、学習データをノードの数だけ分割、それぞれで SGD して結果を平均、くらいまでは思いついて、そこから先どういう工夫があるんだろうと期待する人も多いかもしれないが、この論文が紹介しているのは「学習データをノードの数だけ分割、それぞれで SGD して結果を平均」という手法。
実験結果は 1ノード、10ノード並列、100ノード並列の3パターン。グラフの横軸は「1ノードあたりの」訓練データ件数。
なんかいろいろツッコミどころが目について困ってしまうが、とにかくデータが多すぎて絶対に1台のマシンで処理できないというケースでは、ナイーブな並列化で精度がどうしようもないほど落ちることはないから試してみてもいいかも、と読めばアリかな。