東大 生産技術研究所(駒場第2キャンパス)にて、第13回情報論的学習理論ワークショップ (IBIS 2010) があったので、のこのこ参加。
え? もちろん業務ですとも。
というわけで、とても簡単ながらまとめ。敬称略。
発表
反実仮想モデルを用いた統計的因果推論について(星野)
構造方程式モデルによるデータ生成過程の学習, 特に非ガウス性の利用(清水)
2つの潜在的結果変数を想定するのが「反実仮想モデル」。できるだけ仮定を減らす&余った情報は頑健性に活かす。
データ生成過程をシンプルにモデル化するのが「構造方程式モデル」。シンプルな分、仮定は強め(DAG とか線形とか)。
因果推論&非ガウスは第1回 IBISML でも少し聞いておもしろそうだなあと思いつつ、手が出てない分野。
同じ「因果推論」という言葉でも、スタンスの違いがモデルの違いに大きく現れるのとか、線形&3変数なんてさすがになんとかなるんじゃあないの、という粒度の問題ですら必ず解けるかどうかはまだわかってないとか、ホントいろいろおもしろい。
劣モジュラ性を用いたデータ生成過程の学習(河原)
離散変数に一種の「凸性」を導入する手法が「劣モジュラ(submodular)」。凸関数に成立する様々な性質を持ち込むことで、最適化問題を解くのに役立つ。
劣モジュラ性はホント全く知らない分野。あとでポスターセッションで「最小平均費用クラスタリング」の話を聞いて、また感心するのだけど、それはちょっとあとで。
スパース正則化学習の学習性能、特にスパース性と汎化誤差の関係について(鈴木)
カーネル法は強力&便利だけど、カーネル関数の選び方、パラメータ、特徴量に全てが依存。Multiple Kernel Learning(MKL) でスパース正則化すれば、そういうのも決めてくれる。
L1 と L2 正則化を混ぜると、汎化性能があがる上に学習も速いっておもしろいねえ、と wk77 さんと話したり。
Approximate inference for partly observable continuous time Markov processes (Opper)
招待講演。
連続時間マルコフ過程もこれまた全く不勉強の領域。一般的な確率過程の話もちゃんと一度やらないとなあ。
ポスター
ポスターセッションは苦手。人多すぎ……。
それでもがんばって6つほど聞いてきた。どれもおもしろかった。
混合ベルヌーイ分布による変分ベイズ学習の相転移構造(梶)
ハイパーパラメータの変化に対して、推論結果の傾向に相転移的な現象が確認されるというお話。
縮退と「決定的コンポーネント」を考慮すると、ハイパーパラメータの空間がきれいに3つに分かれる。
ディリクレ分布かわいいよ……という話かと思ったが、ベイジアン一般で起こりうる、とのこと。
「決定的コンポーネント」を考慮に入れると、自由エネルギーからの式変形でベルヌーイ分布側ハイパーパラメータが残る項が出てくるところがよくできている。
推薦システムにおける一般化線形モデルの応用: 主効果モデルによる評価得点推定(藤本)
協調フィルタリングに一般線型モデルをあてはめ、弱い非独立性(パラメータで非独立度合いをコントロールできる)を導入、MAE が最小となるところを探したらなんと非独立度がゼロ、つまり独立となるときだった、というお話。
ナイーブベイズが、無茶な仮定のわりになぜそこそこいい性能が出るのかを扱った論文 "The Optimality of Naive Bayes" (Zhang 2004) では、ノード間をエッジで結んだ Augmented Naive Bayes を導入(普通の Naive Bayes も含む)、そのクラスの中で2乗誤差が一番小さいものはなんと普通の Naive Bayes だった(ガウス分布の場合)という内容だったのだが、ちょうどそんな感じか。
独立性を仮定したときが一番性能がいいことをなんか残念がってはったのだが、シンプルなモデルで十分な性能が出ることを理論的に示せた、と考えればありなんじゃあないかなあ。
トピック画像モデルによるデータの画像化(石黒)
文書からトピックを抽出、小さな画像(5x5 や 16x16)にすることで一目でどういう傾向の文章かわかる、という話。
「ダイハードはアクション映画」とかそういうカテゴリで試してはったのだけど、「そんなん知ってるって」というカテゴリじゃあなくて、もっと隠れたトピックでそれができたらおもしろいんじゃあないだろうか。「泣ける映画」とか。わかんないけど。
未知クラスの存在を許容する半教師あり学習(藤野)
ナイーブベイズ+ロジスティック回帰+半教師、というハイブリッドな判別器を作ったらなかなかな汎化性能でたよ、という話。
Web ページのカテゴライズ(Pathtraq もうないのね……)とか、言語判定とか作ってる身としてはいろいろ気になるところ。実験では5クラスで試してはったが、もっとクラス数が多いときとかにどういう傾向になるのかなあ。
最小平均費用クラスタリング(永野)
NP 困難な k-グラフカット問題を、劣モジュラを使って多項式時間で解く、しかも厳密解! という話。
って、理論的にあり得ない*1その種明かしは、「クラス数 k を止めると NP 困難」であるところ、「 k も推論時に決まるようにすると解ける」というもの。いや、むしろ k 決めないでいい方が嬉しいから! というのがなんだか逆説的で愉快。
HMMにおけるアンサンブル学習(黒澤)
HMM で POS tagger するのに、複数の学習器を使うと性能良くなったよ、という話。
アンサンブル学習というと「予測(あるいは回帰)結果」の多数決ないし平均、というイメージだったのだが、ここでのお話は「学習結果のパラメータ」の平均。
えっ、HMM の転移行列とかの局所解を平均したらつぶれてしまうんじゃあないの……? と思ったのだが、なんかいい結果が出るらしい。「どうしてうまくいくんでしょうねえ」と失礼なことを聞いてみたが、わかりませんとのことw。
1年半前から機械学習を始めて、短いながらここまでずいぶんいろいろ勉強してきたつもりだったけど、今回はまたあれもこれも知らないことばかりで、がっくりしつつ、わくわくしている。
というわけで明日2日目も参加予定。
*1:え? P=NP 派ですか?