PRML 読書会 #7 (５章ニューラルネットワーク後半)

おなじみ「パターン認識と機械学習」(PRML) の読書会の第7回が 10/3 にあったので、のこのこ行ってきた。
関係各位お疲れ様でした。

5.7 章「ベイズニューラルネットワーク」を担当した。
資料はその１とその２とその３。
ちょっと予習時間が足りなくて、多次元や多クラスへの拡張をちゃんと検証したり、実装したりしてみたかったのに、できずじまい。残念。

４章でやった~~ラブプラス~~ラプラス近似*1がいまいち実感がつかめず、なんかもやもやが残ってしまったので、ラプラス近似再登場の 5.7 章担当に立候補してみた、というわけ。

で。
やっぱり自分で手を動かすというのは効果覿面で、なんかだいぶ感触がわかった気がする。

計算できない複雑な分布をガウス分布に近似してしまえ！　という話だけ聞くとずいぶん乱暴なようだが、w_MAP の近傍に限れば全然はずれてない(二階微分まで一致してる)し。
多峰性を持つ場合が気になるけど、「真の事後分布」は単峰のはずだし、中心極限定理という「葵の御紋」もある。
そして結局、周辺化は近傍を見るだけで足りてしまうのだ。

というわけで、筋道をちゃんと追っていけば、最初の印象ほど無茶苦茶なことをやっているわけではなく。
それでもやっぱり若干の気持ち悪さが残るのは、近似するときに誤差の評価をしないからだろうなあ。

そのほか、読書会であがっていた意見、議論など、覚えている範囲で。

変則事前分布だとエビデンスが０になるってどういうこと？　バイアスパラメータが制約されてない＝実数全体に広がる一様分布で、尤度関数と積をとって周辺化したら……なんとなくゼロ方面に向かいそうな気もするけど……。
(5.124) で weights を任意のグループに分けて考えることもできるってあるけど、どういうときに「任意に」分けたいの？
早期終了ってほんとに w_MAP のあたりで止まるの？　勾配降下が w_MAP のあたりを「通る」ような雰囲気は本の説明から感じられるけど、ほんとに近くで止まるかどうかは何も言ってないよね？
たたみこみの不変性ってどの程度？　入力のちょっとの変化(移動・回転)による特徴マップの変化が小さく押さえられることがポイント、という認識であってる？
5.6 では説明にロボットアームが出てくるけど、本に書いてあるような逆問題を解く方法でもし動かしたら、壁に穴あけちゃったり、そもそも動かないかとｗ　（実際のロボットは○○○な方法で動かすよ〜的な話を idojun さんがしてはったけど、細かいところ忘れちゃった)
5.7.1 の p282 の一番下の行から、「事後分布の分散は y(x,w) が変化する w の特性スケールに比べて小さいと仮定する。これによりネットワーク関数の w_MAP の周りでのテイラー級数展開が可能となり、……」とあるけど、そんな仮定によらずともテイラー展開はもちろん可能。これはたぶん「1次までのテイラー展開を近似する近傍の外で事後分布≡０と仮定」と解釈すればいいかと（ところで「特性スケール」って何？ｗ）。詳しくは 5.7.1 の資料にて。
5.7.3 の最後の式 (5.190) はもしかしたら間違ってるかも(現在、PRMLの翻訳メンバーでもあるしましまさんから Bishop 先生に確認していただいているところ。多謝)。詳しくは 5.7.3 の資料にて。

今回で上巻が完了。ぱちぱち。
次回第8回(10/24 or 10/25) では、いよいよ下巻に突入。

PRML 6章カーネルは、ざっくりと目は通したんだけど、わからないようなわからないような……「カーネル多変量解析」読むかあ。
でも、最適化の本でなんかいいのある？　って聞いて教えてもらった "Convex Optimization" も読んどきたいし、Partial Credit Model とかもちょっと試してみたいんだよなあ。むむー。

*1:と前回読書会の記事で書いたらコピペブログに拾われて、「ラブプラス」の記事が PRML の話で始まるという愉快な現象が発生したので、今回も懲りずに書いてみる