とりあえず plot だけでもしてみるのススメ #みどりぼん

10/21 に開催された「データ解析のための統計モデリング入門」(以下みどりぼん)読書会の最終回にのこのこ参加。主催の yamakatsu さん、参加者&発表者のみなさん、会場を提供してくださったドワンゴさん、ありがとうございました。
懇親会はちょっと断念した。無念。


最後なのでちょっと口はばったいことを言ってみる。
WinBUGS がインストールできなくて試せなかった的な話もあったが、参加された60人ほどの方たちでサンプルデータをとりあえず plot だけでもしてみたって人はどれくらいいただろうか。
みどりぼんにもちろん plot 図はもともと載っている。ただ(学習という面で考えると特に)残念なことに、全ての図に「正解」の点線や、「正解モデル」で推定した分布などが重ねられており、生のデータのものがない。

たいしたことではない。久保先生のサイトで配布されているデータを R で load して plot するだけだ。慣れてれば1分、慣れてなくてもまあ5分くらいの作業。
個人的には RData で配布されるのはちょっとめんどくさい。中を気軽に見れないし。50個の整数データくらいなら、テキストの方が扱いやすくて嬉しい。
というわけで、11章のデータをテキストにしたものを貼り付けておこう。これならコピペして5秒だ。

Y <- c(0,3,2,5,6,16,8,14,11,10,17,19,14,19,19,18,15,13,13,9,11,15,18,12,
       11,17,14,16,15,9,6,15,10,11,14,7,14,14,13,17,8,7,10,4,5,5,7,4,3,1)
plot(Y)

みどりぼんで見た「正解入り」 plot 図と比べて、ずいぶん印象が違う。本当は「正解」なんて知っているはずがないので、実際に目にすることができるのはこちらの方だ。
「正解」を知らないでこの図を見たとしたら、と考えると、正解以外の解釈の可能性がちらちらよぎらないだろうか。例えば「両端は外れ値だな!」とか。
ちなみに、このデータの平均値は 10.9 であるのに対し分散は 27.4 もある。みどりぼんが言うところの「過分散」が起きており、単純なポアソン分布ではモデリングできない → 階層ベイズで空間構造や! というのが 11章のストーリーなわけだが、両端の5点を外れ値とみなして捨てれば、平均 12.7、分散 16.3 と過分散はかなり抑えられる。図もこうなる。

おっとこれって右下のもう2点捨てれば……みたいな作為的な後出しジャンケンは統計の嫌うところではあるが、試してみるのも面白いと思うし、すぐに試せる(から、ここではこれ以上やらない)。

みどりぼんはいくつものモデルを紹介してくれているし、この本で紹介されていないモデルももちろんまだまだたくさんある。その数多あるモデルの中から、実際の場面ではどのモデルを使うべきか決めてくれる論理的な根拠というものは、残念ながら存在しない(せいぜい消去法。例:過分散だから生ポアソンは×)。だから、そこの判断は人間が適切にやるしかない。
データを見て、データに関する事前知識とすり合わせ、「ふむふむ、どうやら空間構造があるかも?(ドヤ」とか推測し、11章のモデルを使ってみるところにたどりつき、実際に試してみて、空間構造を入れた場合と入れてない場合とでナントカ IC を比べたりして、ビミョウな結果に「やっぱ外れ値かも……」とか凹んじゃうわけだ。
でもそれってモデルの上っ面の知識だけでできることだろうか。データを愛で、解釈やモデルを取っ替え引っ替えし、ハマった場合とハマらなかった場合のモデルの挙動に一喜一憂したことがなくてできることだろうか。


LT で berobero11 さんが「みんなもっと plot しよう! WinBUGS しよう!」(意訳)とおっしゃっていたとおり、ホントもっと plot しよう。
WinBUGS は確かにセットアップがいろいろめんどくさい(特に環境によっては)が、JUGS だって Stan だってある。
みどりぼんをせっかく最後まで読んだのだから、意義のあるものにして欲しいと期待。