「機械学習はじめよう」で機械学習がはじまりました

gihyo.jp での機械学習連載の第8回が公開されました

機械学習はじめよう第8回「線形回帰・前編」 - gihyo.jp

今回は「線形回帰」の前段階として、「最小二乗法」の話です。
といっても、メインは「最小二乗法」そのものではなくて、そのとてもシンプルな手法の中ですら色濃く現れている「機械学習の考え方」を知ってもらうのが本当の目的です。

機械学習の定番教科書な「パターン認識と機械学習」(PRML)を読んで勉強していたとき、一番苦労したのは挫折の声が一番多い第2章ではなく、本当に難しいと評判の第10章でもなく、実は第3章「線形回帰」でした。
なにしろ、その第3章を読んだときのブログ記事にも、「最初にざっと目を通したときに、この章まるごと何が書いてあるのかさっぱりわからなかった」「３章の分量は２章の２／３ながらも、２章の３倍以上の時間をかけて予習」と告白してるくらい。
本当に何がわからないのかもわからないくらい混乱していたんです。

PRML も第1章第2章は準備段階で、第3章で初めてちゃんと機械学習します。
そしてそこで、「モデル」だの「基底関数」だのが何の断りもなくおもむろに出てくるんですよ。
何それはどこから降ってきたの？

今なら、ようやく、何がわからなかったのかわかってきました。
きっと多分、誰かが横で「それは仮定だよ」と、ぼそっと一言言ってくれてただけで、「あ。なんだ。そうなの？」とあっさりクリアできたでしょう。
いや、ほんとのほんとに。

というわけで、そんな恨み辛み……ではなく、これから機械学習を勉強する人が同じようなところでハマって欲しくない！　という思いを込めて、今回の記事を書きました。
ある意味、「機械学習はじめよう」という連載の中で一番書きたかった記事というか、この記事のために連載を始めたというか、それくらいの勢いですよ。

もしかしたら同じところでハマる人は、思っているほど多くないのかもしれません。
でもこの前、id:higepon さんに「コサイン類似度が大きいことが、元の記事の類似度が高いことにどうしてつながるのかわからない」と尋ねられました。
もちろん、こう答えましたよ。

「それは仮定です」

「仮定……あーなるほど！！　そうか、そういうことか。すっきりしました！」と higepon さん。
そうです。それなんです。
これからも機械学習で困っている人の耳元で「それは仮定ですよ」とつぶやき続けますね。