はてP でプレゼン資料になります。
論文読むときに役立つよう、用語は英語で書いたりしてます。細かい説明/計算やサンプルは読書会にて板書します。
ベイズニューラルネットワーク
- 「周辺化」が必要 ← 解析的に評価するのが難しい
- 極度に非線形
- 事後確率の対数は非凸
- 誤差関数は複数の局所的極小点を持つ
アプローチ
5.7.1 パラメータの事後分布
- ★ニューラルネットワーク(多層パーセプトロン)による1次元の回帰分析についてベイズ化
- → 近似操作を2回
- → MAP 値の近傍だけ見て、周辺予測分布を Gaussian distribution で書く
conditional probability p(t|x) は neural network の出力 y(x,w) を平均とする Gauss distribution で与えられるとする
w に関する prior distribution として、以下の Gauss distribution を選ぶ
- : observed inputs
- : observed targets
D に対する likelihood function:
ここで posterior distribution は prior と likelihood func の積に比例するので、
これは(★一般には) Gauss distribution にならない(PRML2.3.3)
Laplace approximation(PRML4.4)
distribution をモードを平均、負の二階微分を precision matrix とする Gauss distribution で近似
- モードの近傍のみ評価可能
- 多峰性がある場合、どのモードを考えるかで異なるラプラス近似に
posterior の mode である を求めるには に対して共役勾配法などを、微分を求めるには backpropagation を用いることができる。
logarism of posterior:
its second derivative:
,
where H: the Hessian matrix of square-sum of errors(PRML5.4)
このとき、
posterior を以下の Gauss distribution で近似できる!
でも marginal predictive distribution は、まだこのままでは解析的に計算できない……
→ これが計算できるように(PRML2.3.3を適用できるように)、y(x,w) [mean of p(t|x,w)] を近似する
事後分布の分散は y(x,w) が変化する w の特性スケールに比べて小さいと仮定する。これによりネットワーク関数の w_MAP の周りでのテイラー級数展開が可能となり、……
★いろいろ言葉足らず。少なくともテイラー展開自体の可能不可能は、その仮定によらない
- テイラー展開は中心の近傍で元の関数と一致する。特に高次の項を省略した場合、近傍の外での近似性能は低い
- D が多いほど、事後分布の分散は小さくなる → テイラー展開がよく近似する近傍の外では恒等的に q(w|D)≒0 と仮定できる
- ∴p(t|x,w) の平均 y(x,w) をテイラー展開し2次以上の項を省略しても、q(w|D) との積をとるので、全積分区間で元の関数をよく近似する
すなわち、y(x,w) をテイラー展開し、線形項を残すと
,
where
となるが、これは w の1次式ゆえ、周辺分布 p(t|x,D) は Gauss Distribution となる(PRML2.3.3)
,
where
多次元の場合への拡張は容易(★PRML3.1.5かな?)
*1:コメント欄参照