ディリクレ分布のパラメータが0のとき

ディリクレ分布のハイパーパラメータは a_i > 0 なのだけど、a_i = 0 の場合はその要素が縮退したと考えることが出来るよ〜的なことを Furguson の論文で見た覚えがあったので、社内での PRML 勉強会でそれをちらっと言ってみたら、ちゃんと証明してくれないと〜、と西尾さんにフルボッコにされた。
というわけで、PRML の範囲でちょっとまじめに考えてみた。

まず準備として x = cy と変数変換することで以下の式を示しておく。ただし B(a,b) はβ関数。
\int_{0}^{1} x^{a-1} (c-x)^{b-1} dx = \int_{0}^{1} (cy)^{a-1} (c-cy)^{b-1} cdy
 = c^{a+b-1} \int_{0}^{1} y^{a-1} (1-y)^{b-1} dy = c^{a+b-1} \rm{B}(a,b)

K 次のディリクレ分布を考える(Z は正規化定数)

p({\boldsymbol x}) = {\rm Dir}({\boldsymbol x};{\boldsymbol a}) = \frac{1}{Z} x_1^{a_1-1} x_2^{a_2-1} \cdots x_K^{a_K-1}

ただし \sum x_k = 1 なので、 x_K を消すと

p({\boldsymbol x}) = \frac{1}{Z} x_1^{a_1-1} x_2^{a_2-1} \cdots (1-x_1-x_2-\cdots-x_{K-1})^{a_K-1}

これを x_{K-1} で周辺化する。
p(x_1,\cdots,x_{K-2}) = \int_0^1 p({\boldsymbol x})dx_{K-1}
 = \frac{1}{Z} x_1^{a_1-1} \cdots x_{K-2}^{a_{K-2}-1} \int_{0}^{1} x_{K-1}^{a_{K-1}-1}\{(1-x_1-\cdots-x_{K-2})-x_{K-1}\}^{a_K-1} dx_{K-1}
 = \frac{\rm{B}(a_{K-1}, a_K)}{Z} x_1^{a_1-1} \cdots x_{K-2}^{a_{K-2}-1} (1-x_1-\cdots-x_{K-2})^{a_{K-1}+a_K-1}

これより (x_1,\cdots,x_{K-2},(1-x_1-\cdots-x_{K-2}))
(a_1, \cdots, a_{K-2}, a_{K-1}+a_K) をハイパーパラメータとする (K-1) 次のディリクレ分布に従うことがわかる。

同様に1つずつ変数を減らしていくことで、
各 x_k はβ分布 {\rm Beta}(x_k;a_k,\sum a_i - a_k) に従うことが言える。

次に、β分布 Beta(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1} について、
a→0 のとき Γ(a)→∞ ゆえ Beta(x;a,b)→0 (x>0)
つまり a→0 のとき Beta(x;a,b) はディラックデルタ δ_0 (つまり「積分して1 & x!=0 での密度関数の値→0 」)に収束する。

同様のことがディリクレ分布の場合も言える。
よって a_K→0 のとき、x_1,……,x_{K-1},x_K は K-1 次のディリクレ分布 Dir(a_1,……,a_{K-1}) と p(x_K)=δ_0 (つまり x_K は確率 1 で 0 をとる)の積に収束する。これが「縮退したディリクレ分布」というわけだ。

「β分布がδに収束」をもうちょっとだけちゃんと

a→0 のとき Beta(x;a,b)→δ_0 をもうちょっとちゃんと言えないかなあ、と光成さんに相談したらこんな手を見つけてくれた(以下、3/3 に更新)。

[0,1] にて定義された関数 g(x) に対し、β分布 Beta(x;a,b) が a→0 のときに以下のディラックδの定義を満たすことが示されればよい。

\displaystyle\int_0^1{\rm Beta}(x;a,b) g(x)dx \rightarrow g(0), \hspace{3ex} (a\rightarrow 0)

g(x) をテイラー展開 g(x)=\sum_{n=0} g_nx^n して、各項について考える。

\int_0^1{\rm Beta}(x;a,b)\cdot g_nx^ndx
= g_n\int_0^1 \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}\cdot x^ndx
= g_n\frac{\Gamma(a+b)\Gamma(a+n)}{\Gamma(a)\Gamma(a+b+n)}\int_0^1 \frac{\Gamma(a+b+n)}{\Gamma(a+n)\Gamma(b)}x^{a+n-1}(1-x)^{b-1}dx
= g_n\frac{\Gamma(a+b)\Gamma(a+n)}{\Gamma(a)\Gamma(a+b+n)}

これは n>0 では Γ(a+b)Γ(a+n)/Γ(a+b+n)→ある有限値 (a→0) であるのにたいし、Γ(a)→∞ なので全体で →0 となる。
一方 n=0 では a→0 のときにΓ関数の部分がきれいに消えて g_0=g(0) となる。
よって a→0 のとき Beta(x;a,b)→δ_0 が言えた。

おまけ

β分布は、ベルヌーイ分布や二項分布の共役事前分布としてベイズによって考案された。正規化項にβ関数が出てくるので、1910年代までに「β分布」の名前で呼ばれるようになった。
ディリクレ分布はβ分布の多変量一般化。時代から考えてもわかるように、ディリクレによって考案されたものではなく、同じく正規化項に第1種ディリクレ積分が出てくるからその名前で呼ばれるようになった。そのディリクレ積分はディリクレの弟子のリーマンが定式化した。
というわけで、よくあることだが、ディリクレ分布にディリクレ自身はあんまり関係ないw

参考
Earliest Known Uses of Some of the Words of Mathematics

おまけ2

gihyo.jp での連載「機械学習 はじめよう」の第9回が公開されたよ。

今回は線形回帰。例によって「仮定」を18回使ってるw