PRML 読書会 #7 (5章 ニューラルネットワーク後半)


おなじみ 「パターン認識機械学習」(PRML) の読書会の第7回が 10/3 にあったので、のこのこ行ってきた。
関係各位お疲れ様でした。


5.7 章「ベイズニューラルネットワーク」を担当した。
資料は その1その2その3
ちょっと予習時間が足りなくて、多次元や多クラスへの拡張をちゃんと検証したり、実装したりしてみたかったのに、できずじまい。残念。


4章でやったラブプラスラプラス近似*1が いまいち実感がつかめず、なんかもやもやが残ってしまったので、ラプラス近似再登場の 5.7 章担当に立候補してみた、というわけ。


で。
やっぱり自分で手を動かすというのは効果覿面で、なんかだいぶ感触がわかった気がする。


計算できない複雑な分布をガウス分布に近似してしまえ! という話だけ聞くとずいぶん乱暴なようだが、w_MAP の近傍に限れば全然はずれてない(二階微分まで一致してる)し。
多峰性を持つ場合が気になるけど、「真の事後分布」は単峰のはずだし、中心極限定理という「葵の御紋」もある。
そして結局、周辺化は近傍を見るだけで足りてしまうのだ。


というわけで、筋道をちゃんと追っていけば、最初の印象ほど無茶苦茶なことをやっているわけではなく。
それでもやっぱり若干の気持ち悪さが残るのは、近似するときに誤差の評価をしないからだろうなあ。


そのほか、読書会であがっていた意見、議論など、覚えている範囲で。

  • 変則事前分布だとエビデンスが0になるってどういうこと? バイアスパラメータが制約されてない=実数全体に広がる一様分布で、尤度関数と積をとって周辺化したら……なんとなくゼロ方面に向かいそうな気もするけど……。
  • (5.124) で weights を任意のグループに分けて考えることもできるってあるけど、どういうときに「任意に」分けたいの?
  • 早期終了ってほんとに w_MAP のあたりで止まるの? 勾配降下が w_MAP のあたりを「通る」ような雰囲気は本の説明から感じられるけど、ほんとに近くで止まるかどうかは何も言ってないよね?
  • たたみこみの不変性ってどの程度? 入力のちょっとの変化(移動・回転)による特徴マップの変化が小さく押さえられることがポイント、という認識であってる?
  • 5.6 では説明にロボットアームが出てくるけど、本に書いてあるような逆問題を解く方法で もし動かしたら、壁に穴あけちゃったり、そもそも動かないかとw (実際のロボットは○○○な方法で動かすよ〜的な話を idojun さんがしてはったけど、細かいところ忘れちゃった)
  • 5.7.1 の p282 の一番下の行から、「事後分布の分散は y(x,w) が変化する w の特性スケールに比べて小さいと仮定する。これによりネットワーク関数の w_MAP の周りでのテイラー級数展開が可能となり、……」とあるけど、そんな仮定によらずともテイラー展開はもちろん可能。これはたぶん「1次までのテイラー展開を近似する近傍の外で事後分布≡0と仮定」と解釈すればいいかと(ところで「特性スケール」って何?w)。詳しくは 5.7.1 の資料 にて。
  • 5.7.3 の最後の式 (5.190) はもしかしたら間違ってるかも(現在、PRMLの翻訳メンバーでもある しましま さんから Bishop 先生に確認していただいているところ。多謝)。詳しくは 5.7.3 の資料にて。


今回で上巻が完了。ぱちぱち。
次回第8回(10/24 or 10/25) では、いよいよ下巻に突入。


PRML 6章カーネルは、ざっくりと目は通したんだけど、わからないようなわからないような……「カーネル多変量解析」読むかあ。
でも、最適化の本でなんかいいのある? って聞いて教えてもらった "Convex Optimization" も読んどきたいし、Partial Credit Model とかもちょっと試してみたいんだよなあ。むむー。

*1:と前回読書会の記事で書いたらコピペブログに拾われて、「ラブプラス」の記事が PRML の話で始まるという愉快な現象が発生したので、今回も懲りずに書いてみる