「ベイズ統計の理論と方法」の補題4(2)の反例？

タイトルは釣り。
「ベイズ統計の理論と方法」（渡辺澄夫）を読んでいて、2章でちょっと困っている。

作者:渡辺澄夫
発売日: 2012/03/01
メディア: 単行本

他の本には書かれていないようなことが注意書きにたっぷり書かれていたりして、普通に通読するだけでもおもしろいが、やっぱり紙と鉛筆でじっくり楽しむのが本筋かな。

「本書を読むのに必要な予備知識は、大学初年度に習う線形代数と微分積分だけで十分」「（それに含まれない基礎数学が必要な）場所においては重要概念について初等的に理解できるように導入部分を加えている」(まえがき)「本書ではルベーグ測度論を仮定しない」(p203)など、厳密さよりも前提知識のハードルを下げることを優先していることが伺える。
それはもちろん良いことなので全然構わないのだが、「これは書かれてない仮定がありそうだな～」ということがちょいちょいあるのが読んでいて困る。

一番明確なところを例に上げると、注意12(p36-37)には、分子分母にパラメータ集合 W 上で定義された関数を含む数式を受けて「本書では W としてコンパクト集合を考えていくので、その場合にはこの式は分母、分子ともに有限の値を取る」*1とある。この記述からその関数はおそらく連続なのだろうと推測できるが、この本では関数が連続かどうか全く触れられておらず、暗黙の仮定となっている。
まあこのくらいわかりやすかったら書いてなくても忖度できるのでなんとかなるんだが*2、2章の補題4(2)はそれがわからなくて困っている。

まずできるだけ簡単に補題4(2)に必要な記号を導入する。
$\mathbb{R}^N$ 上で定義された真の確率分布 $q(x)$ をパラメータ $w\in W\subset\mathbb{R}^d$ を持つ確率モデル $p(x|w)$ で表現する統計的推測を考える。
任意の x に対し $q(x)=p(x|w_0)$ となる $w_0\in W$ が存在するとき、 $q(x)$ は $p(x|w)$ で実現可能という。
$q(x)$ が $p(x|w)$ で実現可能なとき、対数尤度比関数 $f(x,w)$ を以下のように定義する。*3

　 $\displaystyle f(x,w)=\log\frac{q(x)}{p(x|w)}$

関数 $g(x)$ を $q(x)$ で平均したものを $\mathbb{E}_q[g(x)]=\int q(x)g(x)dx$ と書く。*4
ある定数 $c_0>0$ が存在して、任意の $w\in W$ に対して、 $\mathbb{E}_q[f(x,w)]\geq c_0\mathbb{E}_q[f(x,w)^2]$ が成り立つとき、対数尤度比関数が相対的に有限な分散を持つという。
ここで補題4(2) は次のような命題である。

補題4(2): $q(x)$ が $p(x|w)$ で実現可能であれば、 $f(x,w)$ は相対的に有限な分散を持つ。

本では $q(x)$ にも $p(x|w)$ にも何の仮定もない。
W にもなにもないが、実は先の注意12はこの補題4(2)の証明を $f(x,w)\approx0$ の近傍で考えればよいということを言っていた。よって、命題には書かれていないものの W にはコンパクト性が仮定されていると思われる。
この状態で本に書かれている補題4(2) の証明のアウトラインを追いかけて、「ここ何の仮定もないと成り立たないよね」という部分を拾っていくと次のような反例が構成できてしまった。

真の分布: $q(x)=1 \; (0\leq x\leq1)$ 、パラメータ空間: $W=\{w|0\leq w\leq1\}$ 、確率モデル: $p(x|w)=\frac1{z(w)}\exp(-x^{-w}), \;z(w)=\int_0^1\exp(-x^{-w})dx$ とする。 $0<\exp(-x^{-w})\leq \exp(-1)=1/e$ より $z(w)$ は有界である。
$p(x|w=0)=q(x)$ かつ最適なパラメータの集合は $W_0=\{0\}$ なので、 $q(x)$ は $p(x|w)$ によりユニークに実現可能である。

この確率モデルの対数尤度比関数は $f(x,w)=\log \frac{q(x)}{p(x|w)}=\log z(w)+x^{-w}$ 、
その期待値は $\mathbb{E}_q[f(x,w)]=\log z(w)+\int_0^1x^{-w}dx=\log z(w)+\frac1{1-w}$ となり、 $w<1$ にて有限値を持つ。
ところが対数尤度比関数の2乗の期待値は
$\displaystyle \begin{eqnarray} \mathbb{E}_q[f(x,w)^2]&=&\int_0^1\{\log z(w)+x^{-w}\}^2dx\\ &=&\{\log z(w)\}^2+\log z(w)\int_0^1x^{-w}dx+\int_0^1x^{-2w}dx \end{eqnarray}$
となる。この第1項・第2項は有限値だが、第3項 $\int_0^1x^{-2w}dx$ は $w\geq1/2$ にて +∞ に発散することから、この対数尤度比関数は相対的に有限な分散を持たない。

この「反例」の $q(x),p(x|w)$ はともに連続かつ W もコンパクトなので、即座に忖度できる範囲の仮定では足りないことがわかる。
$\mathbb{E}_q[f(x,w)], \mathbb{E}_q[f(x,w)^2]$ が有限 or 有界とか？　要求される仮定としては使いにくすぎるし、それを満たす確率モデルというのも直感的にわかりにくい。

本に証明として書かれているのは、 $F(t)=t+e^t-1$ という関数を天下りに考え、

　 $\displaystyle q(x)F\left(\log\frac{q(x)}{p(x|w)}\right)=q(x)\log\frac{q(x)}{p(x|w)}+p(x|w)-q(x)$

から両辺積分して

　 $\displaystyle \int q(x)F\left(\log\frac{q(x)}{p(x|w)}\right)dx=\int q(x)\log\frac{q(x)}{p(x|w)}dx=\mathbb{E}_q[f(x,w)]$

が得られる( $p(x|w)-q(x)$ は積分して消える)。
一方、平均値の定理から(と本には書いてあるが、F(t) をテイラー展開したときに0次と1次がともに消えるので、平均値の定理から派生したテイラーの定理を2次剰余項=F(t)に適用、といったほうが一般にはわかりやすいだろう)、 $F(t)=\frac{t^2}2\exp(-t^*), |t^*|\leq|t|$ を満たす $t^*$ が存在し、 $f(x,w)\approx0$ の近傍で

　 $\displaystyle \int q(x)F\left(\log\frac{q(x)}{p(x|w)}\right)dx\approx\int q(x)\cdot\frac12\left(\log\frac{q(x)}{p(x|w)}\right)^2dx=\frac12\mathbb{E}_q[f(x,w)^2]$

より相対的に有限な分散を持つと言える、というもの。

自力ではとても思いつく自信がないトリッキーで見事な「証明」だが、最後の最後で突然えらく雑な評価に落とし込まれている。 $t^*$ とやらはこのままでは $t=f(x,w)$ に依存してるので、そんな簡単に積分から消せない。
そこをちゃんと評価するには、 $f(x,w)\approx0$ の近傍という条件を使って $|t^*|\leq|f(x,w)|<\epsilon$ と $t^*$ を定数で押さえることで $\exp(-t^*)>\exp(-\epsilon)$ を積分の外に出し、近傍の外は有限開被覆＆有界性で処理かな。
でもそれをするには、上の積分が w を動かしたときにちゃんと収束しないといけないので、 ${}^\forall w_1\in W$ に対して $\lim_{w\rightarrow w_1} p(x|w)$ が $p(x|w_1)$ に一様収束するって仮定とかあれば行けそう？　この仮定があれば上の反例も弾けるはず( $\lim_{w\rightarrow0}p(x|w)$ が p(x|w=0) に各点収束しない)。
そんなに変な仮定ではないとは思うけど、もっと弱い仮定でも通るんだろうか。統計の理論畑は全然見てきていないので、一般的な仮定がどれくらいなのかを全然知らないんだよなあ。

【追記】
その後つらつら考えてみたら、 $f(x,w)$ が発散せずに定義できるために、常に $q(x)>0, p(x|w)>0$ の仮定もあったほうがいい気がしてきた。
上に書いた一様収束の条件は、 $\mathbb{E}_q[f(x,w)]$ たちが W 上で連続を言うために使う。これでどうだ？
【／追記】