PRML読書会#7 資料「5.7 ベイズニューラルネットワーク(1)」

これは パターン認識と機械学習(PRML)読書会 #7 (5章 ニューラルネットワーク 後半) での発表用の資料「5.7 ベイズニューラルネットワーク」です(作成中)。
はてP でプレゼン資料になります。
論文読むときに役立つよう、用語は英語で書いたりしてます。細かい説明/計算やサンプルは読書会にて板書します。

ベイズニューラルネットワーク

  • 「周辺化」が必要 ← 解析的に評価するのが難しい
    • 極度に非線形
    • 事後確率の対数は非凸
    • 誤差関数は複数の局所的極小点を持つ

アプローチ

  • 変分推論法(10章)
  • ラプラス近似(本章)
    • (★「最も完全に取り扱う方法」だって? p165 には「ラプラス近似は確率分布の構造をうまく捉えることができず、近似性能はあまり良くない」とも書いてあるんだけど ⇒ 「もっとダイレクトに取り扱う方法」くらいの意味?*1 )

5.7.1 パラメータの事後分布

  • \bf{x}: input vector
  • t: target parameter
  • \bf{w}: weight vector
  • \alpha, \beta: hyper parameters

conditional probability p(t|x) は neural network の出力 y(x,w) を平均とする Gauss distribution で与えられるとする

 p(t|\bf{x}) = p(t|\bf{x},\bf{w},\beta) = \mathcal{N}(t|y(\bf{x},\bf{w}),\beta^{-1})

w に関する prior distribution として、以下の Gauss distribution を選ぶ

 p(\bf{w}|\alpha) = \mathcal{N}(\bf{w}|\bf{0}, \alpha^{-1}\bf{I})

  • \bf{x}_1, ... , \bf{x}_N: observed inputs
  • \mathcal{D}=\{t_1, ... , t_N\}: observed targets

D に対する likelihood function:

 p(\mathcal{D}|\bf{w},\beta)= \prod_{n=1}^{N}\mathcal{N}(t_n|y(\bf{x}_n,\bf{w}),\beta^{-1})

ここで posterior distribution は prior と likelihood func の積に比例するので、

 p(\bf{w}|\mathcal{D},\alpha, \beta) \propto p(\bf{w}|\alpha) p(\mathcal{D}|\bf{w},\beta)

これは(★一般には) Gauss distribution にならない(PRML2.3.3)

Laplace approximation(PRML4.4)

distribution をモードを平均、負の二階微分を precision matrix とする Gauss distribution で近似

  • モードの近傍のみ評価可能
  • 多峰性がある場合、どのモードを考えるかで異なるラプラス近似に

posterior の mode である \bf{w}_{\rm{MAP}} を求めるには \ln p(\bf{w}|\mathcal{D}) に対して共役勾配法などを、微分を求めるには backpropagation を用いることができる。


logarism of posterior:

 \ln p(\bf{w}|\mathcal{D}) = -\frac{\alpha}{2}\bf{w}^{T}\bf{w}-\frac{\beta}{2}\sum_{n=1}^N \left\{y(\bf{x}_n,\bf{w})-t_n\right\}^2 + const.

its second derivative:

 \bf{A}=-\nabla\nabla \ln p(\bf{w}|\mathcal{D},\alpha,\beta)=\alpha\bf{I}+\beta\bf{H},
  where H: the Hessian matrix of square-sum of errors(PRML5.4)


このとき、
posterior を以下の Gauss distribution で近似できる!

 p(\bf{w}|\mathcal{D}) \approx q(\bf{w}|\mathcal{D}) = \mathcal{N}(\bf{w}|\bf{w}_{\rm{MAP}}, \bf{A}^{-1})

でも marginal predictive distribution は、まだこのままでは解析的に計算できない……

 p(t|\bf{x},\mathcal{D})=\int p(t|\bf{x},\bf{w})q(\bf{w}|\mathcal{D})d\bf{w}

→ これが計算できるように(PRML2.3.3を適用できるように)、y(x,w) [mean of p(t|x,w)] を近似する

事後分布の分散は y(x,w) が変化する w の特性スケールに比べて小さいと仮定する。これによりネットワーク関数の w_MAP の周りでのテイラー級数展開が可能となり、……

★いろいろ言葉足らず。少なくともテイラー展開自体の可能不可能は、その仮定によらない

  • テイラー展開は中心の近傍で元の関数と一致する。特に高次の項を省略した場合、近傍の外での近似性能は低い
  • D が多いほど、事後分布の分散は小さくなる → テイラー展開がよく近似する近傍の外では恒等的に q(w|D)≒0 と仮定できる
  • ∴p(t|x,w) の平均 y(x,w) をテイラー展開し2次以上の項を省略しても、q(w|D) との積をとるので、全積分区間で元の関数をよく近似する


すなわち、y(x,w) をテイラー展開し、線形項を残すと

 y(\bf{x},\bf{w}) \approx y(\bf{x},\bf{w}_{\rm{MAP}}) + \bf{g}^T(\bf{w}-\bf{w}_{\rm{MAP}}),
  where \bf{g}=\nabla_{\bf{w}} y(\bf{x},\bf{w})|_{\bf{w}=\bf{w}_{\rm{MAP}}}

となるが、これは w の1次式ゆえ、周辺分布 p(t|x,D) は Gauss Distribution となる(PRML2.3.3)

 p(t|\bf{x},\mathcal{D})=\mathcal{N}(t|y(\bf{x},\bf{w}_{\rm{MAP}}), \sigma^2(\bf{x})),
  where \sigma^2(\bf{x})=\beta^{-1}+\bf{g}^T \bf{A}^{-1}\bf{g}

多次元の場合への拡張は容易(★PRML3.1.5かな?)

*1:コメント欄参照