「パターン認識と機械学習」(PRML)読書会 #13 で担当する 10.2「変分混合ガウス分布」と 10.2.1「変分事後分布」の資料です。その2はこちら。
10.1 で述べた変分ベイズ近似(Variational Bayesian)を混合ガウス分布の推論に適応する例を見る。
X = {x_n} : 観測変数
Z = {z_n} : 対応する潜在変数、 1-of-K
N: データ件数
D: x の次元
★ PRML 上巻の付録Bは「公式」として使います
VB の計算のキモ(PRML 10.1 復習)
「変分近似」 q(Z) = Πq_i(Z_i) に対して、q_j の最適解(=真の事後分布とのKLを最小にするもの)である q_j^*(Z_j) は (10.9) 式で求められる
- パラメータ Z_i について最適化したい!
- 同時分布の対数を「 Z_i 以外の全てのパラメータ」(観測変数除く)について期待値を取る
- 同時分布の対数をバラして、Z_i に依存しない項は全部 const. に押し込む
- 残った項をがんばって計算
このパターンをパラメータ(群)の数だけ繰り返し。
事前分布
πは多項分布のハイパーパラメータなので、その共役事前分布であるディリクレ分布を入れる
where
ディリクレ分布のパラメータ α_0 は、各混合要素に対する事前の観測回数に相当
μ、Λはガウス分布の平均と精度なので、その共役事前分布であるガウス−ウィシャート分布を入れる
where ,
同時分布
事後分布
変分近似: (真の)事後分布を潜在変数 Z とパラメータ π, μ, Λ に分解する。
- 「ベイズ混合モデルについて実際に計算可能な解を得る上で、必要な唯一の仮定」
- なにげに この2つの式が一番重要。
q(Z) を推定する
where
ρの各項を求めるには π,μ,Λ の事後分布が必要 → 後回し
- 「q^*(Z) のモーメントは他の変数の事後分布によるモーメントに相互に依存」
- 「繰り返しで解く必要あり」
両辺の exponential を取ると
正規化定数 C は、Z_n が 1-of-K であることを用いると
より
したがって
where
このとき
が言えるので、r_nk は「負担率」を表していることがわかる
q(π) を推定する
この右辺は π のみを含む項と μ_k、Λ_k のみを含む項に分かれることから、
q(π,μ,Λ) は以下の「導出される分解」(10.2.5) を持つことがわかる
したがってπに依存する項を取り出すことで q^*(π) を得る。
where
この式から q^*(π) がディリクレ分布であることがわかる。
, where
q(μ|Λ) を推定する
同様に μ_k,Λ_k に依存する項を取り出すと、
μ_k を含む項のみ取り出すと、
where
これは q^*(μ_k|Λ_k) の exponential に対応するので、q^* がガウス分布 であることがわかる。ここで
,