gihyo.jp での機械学習連載の第5回が公開されました

gihyo.jp での機械学習連載の第5回が公開されました。

機械学習 はじめよう」第4回 正規分布 前編
http://gihyo.jp/dev/serial/01/machine-learning/0004
機械学習 はじめよう」第5回 正規分布 後編
http://gihyo.jp/dev/serial/01/machine-learning/0005


前回と今回は正規分布のお話。
本当は1回で収めるつもりだったのですが、書いてみたら連続分布のところでどうしても紙数を費やすことになってしまい。
結局第2回と同じくらいの長さになることがわかったため、前編後編に分けさせてもらいました。
第2回が公開されたときには、自分で読んでも「長い!」と思ったので……。


すぐに役立つ機械学習を期待している人にはちょっと退屈かもしれませんが、ちゃんとやろうと思ったら避けては通れないので。って、もともと「すぐに役立つ」なんて趣旨の連載でもありませんし(笑)。
できれば、ガウスの最小二乗法と誤差と正規分布の仕事をなぞりたかったのですが、力不足で至らず。いつかそういう話も書いてみたいですね。


今回は珍しく図(グラフ)がありますが……理解の助けになる絵になっていないんじゃあないかと心配。
中心極限定理のところでは、試行回数が多くなる例として「面の数字が 1, 2, 3, 4, 5, 10 になっているサイコロの和」というのを考えたのですけど、説明が冗長になりすぎる感じがあってカットしちゃいました。せっかくなのでここに載せておきます。
サイコロ4個のヒストグラムとか、多峰性があってちょっとおもしろいでしょう?

dice <- function(n) hist(rowSums(matrix(sample(c(1,2,3,4,5,10), 10000*n, replace=T), ncol=n)), breaks=(n-1):(n*10), main=sprintf("dice = %d", n), xlab="", ylab="")
dice(1);
dice(2);
dice(4);
dice(10);


これでストイックなお話は一区切りになるはず?
次回はまた恩田さんによる実践編になります。お楽しみに。