PRML読書会#7 資料「5.7 ベイズニューラルネットワーク(1)」

これはパターン認識と機械学習(PRML)読書会 #7 (5章ニューラルネットワーク後半) での発表用の資料「5.7 ベイズニューラルネットワーク」です(作成中)。
はてＰでプレゼン資料になります。
論文読むときに役立つよう、用語は英語で書いたりしてます。細かい説明/計算やサンプルは読書会にて板書します。

ベイズ ニューラルネットワーク

「周辺化」が必要 ← 解析的に評価するのが難しい
- 極度に非線形
- 事後確率の対数は非凸
- 誤差関数は複数の局所的極小点を持つ

アプローチ

変分推論法(10章)
ラプラス近似(本章)
- (★「最も完全に取り扱う方法」だって？　p165 には「ラプラス近似は確率分布の構造をうまく捉えることができず、近似性能はあまり良くない」とも書いてあるんだけど ⇒ 「もっとダイレクトに取り扱う方法」くらいの意味？*1 )

5.7.1 パラメータの事後分布

★ニューラルネットワーク(多層パーセプトロン)による１次元の回帰分析についてベイズ化
→ 近似操作を２回
→ MAP 値の近傍だけ見て、周辺予測分布を Gaussian distribution で書く

$\bf{x}$ : input vector
t: target parameter
$\bf{w}$ : weight vector
$\alpha, \beta$ : hyper parameters

conditional probability p(t|x) は neural network の出力 y(x,w) を平均とする Gauss distribution で与えられるとする

　 $p(t|\bf{x}) = p(t|\bf{x},\bf{w},\beta) = \mathcal{N}(t|y(\bf{x},\bf{w}),\beta^{-1})$

w に関する prior distribution として、以下の Gauss distribution を選ぶ

　 $p(\bf{w}|\alpha) = \mathcal{N}(\bf{w}|\bf{0}, \alpha^{-1}\bf{I})$

$\bf{x}_1, ... , \bf{x}_N$ : observed inputs
$\mathcal{D}=\{t_1, ... , t_N\}$ : observed targets

D に対する likelihood function:

　 $p(\mathcal{D}|\bf{w},\beta)= \prod_{n=1}^{N}\mathcal{N}(t_n|y(\bf{x}_n,\bf{w}),\beta^{-1})$

ここで posterior distribution は prior と likelihood func の積に比例するので、

　 $p(\bf{w}|\mathcal{D},\alpha, \beta) \propto p(\bf{w}|\alpha) p(\mathcal{D}|\bf{w},\beta)$

これは(★一般には) Gauss distribution にならない(PRML2.3.3)

Laplace approximation(PRML4.4)

distribution をモードを平均、負の二階微分を precision matrix とする Gauss distribution で近似

モードの近傍のみ評価可能
多峰性がある場合、どのモードを考えるかで異なるラプラス近似に

posterior の mode である $\bf{w}_{\rm{MAP}}$ を求めるには $\ln p(\bf{w}|\mathcal{D})$ に対して共役勾配法などを、微分を求めるには backpropagation を用いることができる。

logarism of posterior:

　 $\ln p(\bf{w}|\mathcal{D}) = -\frac{\alpha}{2}\bf{w}^{T}\bf{w}-\frac{\beta}{2}\sum_{n=1}^N \left\{y(\bf{x}_n,\bf{w})-t_n\right\}^2 + const.$

its second derivative:

　 $\bf{A}=-\nabla\nabla \ln p(\bf{w}|\mathcal{D},\alpha,\beta)=\alpha\bf{I}+\beta\bf{H}$ ,
　　where H: the Hessian matrix of square-sum of errors(PRML5.4)

このとき、
posterior を以下の Gauss distribution で近似できる！

　 $p(\bf{w}|\mathcal{D}) \approx q(\bf{w}|\mathcal{D}) = \mathcal{N}(\bf{w}|\bf{w}_{\rm{MAP}}, \bf{A}^{-1})$

でも marginal predictive distribution は、まだこのままでは解析的に計算できない……

　 $p(t|\bf{x},\mathcal{D})=\int p(t|\bf{x},\bf{w})q(\bf{w}|\mathcal{D})d\bf{w}$

→ これが計算できるように(PRML2.3.3を適用できるように)、y(x,w) [mean of p(t|x,w)] を近似する

事後分布の分散は y(x,w) が変化する w の特性スケールに比べて小さいと仮定する。これによりネットワーク関数の w_MAP の周りでのテイラー級数展開が可能となり、……

★いろいろ言葉足らず。少なくともテイラー展開自体の可能不可能は、その仮定によらない

テイラー展開は中心の近傍で元の関数と一致する。特に高次の項を省略した場合、近傍の外での近似性能は低い
D が多いほど、事後分布の分散は小さくなる → テイラー展開がよく近似する近傍の外では恒等的に q(w|D)≒0 と仮定できる
∴p(t|x,w) の平均 y(x,w) をテイラー展開し２次以上の項を省略しても、q(w|D) との積をとるので、全積分区間で元の関数をよく近似する

すなわち、y(x,w) をテイラー展開し、線形項を残すと

　 $y(\bf{x},\bf{w}) \approx y(\bf{x},\bf{w}_{\rm{MAP}}) + \bf{g}^T(\bf{w}-\bf{w}_{\rm{MAP}})$ ,
　　where $\bf{g}=\nabla_{\bf{w}} y(\bf{x},\bf{w})|_{\bf{w}=\bf{w}_{\rm{MAP}}}$

となるが、これは w の１次式ゆえ、周辺分布 p(t|x,D) は Gauss Distribution となる(PRML2.3.3)

　 $p(t|\bf{x},\mathcal{D})=\mathcal{N}(t|y(\bf{x},\bf{w}_{\rm{MAP}}), \sigma^2(\bf{x}))$ ,
　　where $\sigma^2(\bf{x})=\beta^{-1}+\bf{g}^T \bf{A}^{-1}\bf{g}$

多次元の場合への拡張は容易(★PRML3.1.5かな？)

*1:コメント欄参照