2010-01-01から1年間の記事一覧

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き。おもしろいことになってきました。 FSNLPに書いてあった「ランダムにアルファベット+空白を生成、それを空白区切りの「単語」の列と考えると、それらの単語の頻度分布が Zipf に従う」を試したところ、…

自然言語処理勉強会@東京 第1回

id:nokuno さん主催の自然言語処理勉強会@東京にのこのこ行ってきた。 主催者、発表者、参加者、そして会場を提供してくださった mixi さん、みなさんありがとうございました。 こんな機会を自分で作ることは出来ないので、次回も是非何か作って参加したい…

Zipf則はなぜ成り立つのかの理論的裏付け

今日の自然言語処理勉強会@東京にて、Zipf則(ベキ分布)の理論的裏付けとして、ランダムにアルファベット+空白を生成、それを空白区切りの「単語」と考えると、それらの単語の頻度分布が Zipf に従うんだよ、的なお話が FSNLP に書いてあった。 へーで終わ…

自然言語処理勉強会@東京 第1回 の資料

本日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った本文抽出モジュール を機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional …

Pythonでクロージャの列を作る

Pythonで lambda を使ってクロージャの列を作りたいときって、例えばCRFの素性を書くときとかによくあるよね? でも以下のように書くと、クロージャの中の label が全部同じ値になってしまってハマる。 # A, B, C のそれぞれと一致するかどうか判定する列を…

gihyo.jp で機械学習の連載を始めました

gihyo.jp で「機械学習 はじめよう」という、機械学習を紹介する連載を始めました。 本日第1回が公開されています。 「機械学習 はじめよう」第1回 機械学習 ことはじめ http://gihyo.jp/dev/serial/01/machine-learning/0001 今回は概要的なお話。次回から…

不自然言語処理コンテストのコーパスで乱数作文

Baidu さんの不自然言語処理コンテスト( http://www.baidu.jp/unlp/ )が始まったそうで。 5-gram までのコーパスも配布ということでとりあえず応募するしないはおいといてダウンロードダウンロード……。 2-gram でマルコフ連鎖で文章生成って誰でも考えるよな…

IBISML / Latent Dynamics 研究会

6/14〜16 にかけて、IBISML と Latent Dynamics 研究会 に のこのこ行ってきた。 招待講演は超豪華顔ぶれ……というのは受け売り。この界隈にまだまだ詳しくないもんで(苦笑)。 「機械学習」が広い分野を横断していることを象徴して、様々な分野のお話が聞けた…

numpy で数式を実装する

こちらもどうぞ。 第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました - Mi manca qualche giovedi`? numpy は R と同じように出来ると書いたけど、特にループを出来るだけ廃したければ、いろいろコツが必要。 しばらく放っておいた…

隠れマルコフ実装してみた。

PRML 13章読んで、隠れマルコフモデルを実装してみた。今回は Python + numpy の習作も兼ねている。 http://github.com/shuyo/iir/blob/master/sequence/hmm.py 今回実装してみたアルゴリズムは以下の通り。数字は PRML の章番号。 まあなんて盛りだくさん。…

ハイブリッドモンテカルロをもっと試してみた

ハイブリッドモンテカルロ試してみた。 - Mi manca qualche giovedi`? の続き。 PRML 読書会 #15の真っ最中に取り急ぎで書き散らかしたコードだったので、Metropolis-Hastings で決まる棄却もやってないし、もうちょっと別の確率分布でも試してみたい。 とい…

「パターン認識と機械学習(PRML)」 読書会 #15 12章 連続潜在変数

毎度 「パターン認識と機械学習(PRML)」 読書会 #15(6/6開催@ECナビさん) に のこのこ行ってきた。 おつかれさまでした>各位。今回は 11章の残り(ハイブリッドモンテカルロ)と12章の主成分解析(12.3 まで)。 自然言語処理とはどちらもあんまり近くない…

ハイブリッドモンテカルロ試してみた。

PRML読書会でなんかうまくいかない的な話になったので、ちょっと書いてみた。 p(z) = N(0,1) としている。 # Hybrid Monte Carlo sampling N <- 1000; # number of sampling leapfrog_count <- 100; leapfrog_epsilon <- 0.01; # p(z) = N(0,1) = exp(-z^2/2…

PRML 読書会 #15 「12.2 確率的主成分解析」補足資料

「パターン認識と機械学習」(PRML)読書会 #15 の 12.2.1「最尤法による主成分分析(確率的主成分解析)」と 12.2.2 「EMアルゴリズムによる主成分分析」の必要最小限の補足資料です。資料本体は超手抜き仕様の予定。 確率的主成分解析(PPCA)の嬉しいところ 多…

PRML 読書会 #15 「12.3 カーネル主成分解析」資料

「パターン認識と機械学習」(PRML)読書会 #15 で担当する 12.3「カーネル主成分解析」の資料です。 カーネルちょび復習(PRML6章) カーネル関数: 対称な半正定値関数 k(x, x') 特徴ベクトル φ(x) から作る: カーネル関数から φ(x) を得ることも(双対性) φ(x)…

PRML 12章 カーネル主成分分析を R で実装(棒読み)

月曜日はPCA、火曜日は確率的PCA、水曜日はPCA with EMアルゴリズム、木曜日はベイズPCA、と続いてきた「日刊☆主成分解析」も今日で最終回。 いよいよカーネル主成分分析(kernel PCA)。 カーネル PCA は非線形な特徴ベクトルで特徴空間にデータを移したとこ…

PRML 12章 ベイズ的主成分分析を R で

はてなダイアリーがリニューアルしたらしいので、R で主成分分析を実装してみよう。 PCA を試す、PPCA を試す、EMアルゴリズムでPCAを解く、まで済んだので、次はベイズ的主成分分析。 コード全体は github にて。 http://github.com/shuyo/iir/blob/master/…

PRML 12章 主成分分析を EM アルゴリズムで解いてみる

PCA を試す、PPCA を試す とくると、次は確率的主成分分析を EM アルゴリズムで解いてみよう。今回も R で実装。 さすがにそろそろコードが長くなってきたので、全体は github にて。 http://github.com/shuyo/iir/blob/master/pca/ema.r E-step と M-step …

PRML 12章 確率的主成分分析を試す

PCAを試す に続いて確率的主成分分析(Probability Principal Component Analysis)。 解析的に解けてしまって、閉形式の解がわかっているので実装としてはたいしておもしろくない(いや、いいことなんですけどね)。 M <- 2; directory <- "."; argv <- command…

PRML 12章 主成分分析を試す(棒読み

最近論文読んでばかりでさすがにちょっと飽きてきたので、コードでも書いてみよう。 「パターン認識と機械学習」(PRML) 12章は「連続潜在変数」、要は「主成分分析」(Principal Component Analysis)。 本文中で使用されている Oil Flow データは、PRML サポ…

「パターン認識と機械学習(PRML)」 読書会 #14 11章 サンプリング法

すっかり Tsukuba.R と後先になったけど、5/8 に開催された PRML マラソン、じゃあなかった、読書会 #14 に毎度ながら のこのこ参加。 参加者各位、会場提供してくださった EC ナビさん、大変遅い時間までお疲れ様でした&ありがとうございました。 今回は 1…

ノートの作り方(私家版)

togetter.com 可積分系の研究者 takey_y さんによる、数学書の読み方、数学を勉強するときのノートの作り方。数学以外の(ちょっと難しいと感じる)科目にも応用可能と思われます。こういう骨の折れる作業を怠る人、怠らない人。これが数学や物理学を好きに…

Tsukuba.R #7 に参加してきた

R

Tsukuba.R #7 行ってきました。主催&参加者のみなさん、お疲れ様でした。 参加し逃した方も、Ustream にて高画質の録画が見れる。gihyo.jp の高橋さんのGJです。ありがとうございました。 自分のLTは、書いたとおり Mozk さんの発表とネタもろかぶりし…

Tsukuba.R #7 に参加してます

R

前から Tsukuba.R 行ってみたかったけど、予定が合わなかったり、筑波が遠かったりして行けてなかった。 ようやく念願かなって Tsukuba.R #7 にのこのこ参加中。 PRML 読書会と2日連続という家庭内ワークフロー的には難易度高かったんだけどねw LT がある…

スライスサンプリングで単語ごとの出題率に沿って抽出

iVoca は上から降ってくる英単語をどんどんタイピングして憶えるゲーム。 降ってくる単語は単純なランダムではなくて、ユーザが苦手な単語は何度も出てくるけど、得意な単語はあまり出題しないようになっている。 具体的には、各単語ごとの修得度を持ってい…

多変量正規分布をギブスサンプリングで

引き続き「パターン認識と機械学習」(PRML) 11章予習中。 Gibbs サンプリング、これはもう試してみるしか。 syou6162 さんが試してはるの( http://d.hatena.ne.jp/syou6162/20090115/1231965900 )をなぞるだけでもいいんだけど、せっかくだから多次元一般化…

PRML 11章の重点サンプリングと SIR を試す

PRML 11章の予習中。 p(z) = Gamma(3, 1) について、 E[ln z] を求めよう。 まずは「正解」。 PRML Appendix B を見ると、Gam(tau | a,b) に対して、E[ln tau] = ψ(a) - ln b とある(ψはディガンマ関数)。 R なら簡単に計算できる。 > digamma(3) - log(1) […

PRML 読んでやってみた(上巻編)

今までに書いた「 PRML を読んで、やってみた」系の記事をまとめてみた。何か参考になれば幸い。 根本的にとても疑り深い人(教科書の類に対しては特に)なので、「こんなん書いてあるけど、ほんまかいな〜?」という姿勢が目立つ。 また、よく「手触り」とい…

オンラインEMアルゴリズムで混合ガウス分布推論

ずいぶん前にできていたのだが、変分ベイズのフォローのために、ブログに書くのを後回しにしてたオンラインEMについて。 確率的勾配法など、通常はオンラインの方がバッチより収束が遅い。 が、EMアルゴリズムについては、オンラインの方が収束が速いら…

PRML 10章の変分ベイズによる混合ガウス分布推論の検証(フォロー編)

「パターン認識と機械学習(PRML)」10.2 章に従って変分ベイズ(Variational Bayes, VB)を R で実装してみて、PRML に書いてある内容通りか確認してみたところ、なんか違う。 「『変分混合ガウス分布は、余った混合要素は勝手にゼロになるから K が大きくても…