これは パターン認識と機械学習(PRML)読書会 #7 (5章 ニューラルネットワーク 後半) での発表用の資料「5.7 ベイズニューラルネットワーク」です。
はてP でプレゼン資料になります。
細かい説明/計算やサンプルは読書会にて板書します。
【10/6】コメント欄での指摘により修正
はてP でプレゼン資料になります。
細かい説明/計算やサンプルは読書会にて板書します。
【10/6】コメント欄での指摘により修正
5.7.2 超パラメータ最適化
- model evidence p(D|α,β) を最大化するよう hyperparameter α,β を推定する
evidence (marginal likelihood):
とおいて (4.135) を適用&対数をとると
where W: number of weight parameters,
- ★ PRML3.5.1 と同じ手順で周辺化する場合、(3.80)を2次までのテーラー展開による近似にすればOK?
α,β の点推定
(1) evidence を最大化するα
eigenvalue equation:
より、PRML 3.5.2 (3.92) と同様に について ln|A| を評価、αに関する停留点を求めると
- γ: effective number of parameters (PRML3.5.3)
(2) evidence を最大化するβ
を評価し、βに関する停留点を求めると
(3) posterior を更新して w_MAP を求め、(1) に戻る
- ★収束速度は?
- ★hyperparametersを更新している内に w_MAP が(他の峰に)入れ替わったりしても問題ないの?
- ★実装してみたかったけど余裕なかった。ごめん。
異なるモデル(異なる隠れユニット数を持つネットワークなど)を比較する場合、p(D) を評価する
重み空間対称性(weight-space symmetry, PRML5.1.1)を考慮して evidence を M!2^M 倍する必要がある
- 式(3.67)に :対称な各モデル, L=M!2^M を適応
- 全ての について p(t|x,M_i,D), p(M_i|D) のそれぞれが等しい