2012-01-01から1年間の記事一覧

言語判定のモデルパラメータを自己組織化マップで可視化

サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。 言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ 通常のアドベントカレンダーと違って、テーマは「技術ならなんでも…

Online VB inference for HDP (Wang+ 2011) を実装してみたけど

[Wang+ AISTATS 2011] Online Variational Inference for the Hierarchical Dirichlet. Process HDP-LDA を Online な VB で解くという論文。 Teh さんらの VB 推論の論文も読んだんだけど、実にアクロバティックな分解が出てきて、いやこれはどうなんだろう…

Kneser-Ney Smoothing を試してみた

Kneser-Ney Smoothing は高性能な言語モデルである。と、よく聞かされて知っているつもりだけど、まだ一度も試したことがなかったので、試してみた。 コードはここ。 https://github.com/shuyo/iir/blob/master/ngram/knsmooth.py 実験用にべったり書いてい…

機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml

11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼を…

「プログラマが本当に理解するには実装しないといけない」か

ジュンク堂池袋本店にて 10/11 に行われた「パターン認識と機械学習」(PRML) 愛好家の集まり、じゃあなかった、トークセッションにのこのこ行ってきた、ばかりか前でしゃべってきた。ありがとうございました&お疲れ様でした>各位 PRML同人誌 『パターン認…

PRML の読む章・飛ばす章(私家版)

機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない………

階層ディリクレ過程を実装してみる (5) HDP-LDA の更新式を導出 (パープレキシティ)

HDP-LDA の更新式を実装できたら、それが正しく動いているのか、そして収束したかどうかを確認するために perplexity を求めたいところだが、こちらも例によって論文には詳細な数式は書き下されていないので、最後にこれをやっつけよう。 論文ではパープレキ…

DP-MRM (Kim+ ICML12) の数式を確認中

Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後…

DP-MRM (Kim+ ICML12) の更新式も導出

昨日の HDP-LDA の更新式導出のついでに、ICML 読み会で紹介した教師ありノンパラ LDA である (Kim+ ICML2012) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考…

階層ディリクレ過程を実装してみる (4) k の全条件付き分布と HDP-LDA の更新式を導出

来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃっ…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Meas…

C# / Moles で dynamic を使う (Chaining Assertion を使って private メンバのテストを書きたい)

実は最近 C# でちょっと動作確認がめんどくさいコードをぺけぺけ書いている。 というわけで、珍しく(?)できるだけ手厚くテストを書こうとしているのだが、外部のライブラリとかサービスとか絡んでいて、まさにテスト泣かせな状況。 そう、今こそレガシー…

エンジニアから機械学習への要望

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶 (Wagstaff ICML2012) Machine Learning that Matters (原論文) 機械学習のトップカンファレンス ICML にて、「機械学習はこのままでいいの?」という感じの論文が発表された。 細かい内容は…

NAIST で twitter 言語判定について発表してきました

5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。 その時の資料を公開します。 内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したも…

イラストロジック自動解答

たまには趣味のコードとか。って、いっつも趣味のことしか書いてないやんというツッコミはおいといて。 以前も Erlang で倉庫番ソルバーを書いたり、時折無性にパズルを解くコードを書きたくなるんだけど、今回はイラストロジックを解いてみた(お絵かきロジ…

Tokyo.R #22 に行ってきた& R で音声合成やってみた

以前より一度参加してみたいと思っていた Tokyo.R #22 にのこのこ行ってきた。主催の @yokkuns さん、参加者&発表者のみなさん、会場を提供してくださったニフティさん、ありがとうございました&お疲れさまでした。 atnd に LT 募集中とあったので、初参加…

Iterative Learning for Reliable Crowdsourcing Systems @ NIPS 読み会

id:nokuno さん主催の NIPS 読み会にのこのこ参加。ありがとうございます&お疲れ様でした>各位 [Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems というクラウドソーシング、特に Amazon Mechanical Turk にて spammer がいる場合…

サイボウズ・ラボユースってなに?

宣伝です。 サイボウズ・ラボユースの最終成果報告会が来週 3/26(月) に開かれます。 この報告会は第2期募集説明会も兼ねています。 サイボウズ・ラボユース ブログ http://cybozulabs-youth.blogspot.jp/ 第1期サイボウズ・ラボユース 最終成果報告会(若干…

LDA のパープレキシティを使うとき

NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね?」 なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って(かな?)トピックモ…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。 極大部分文字列を使った twitter 言語判定 from Shuyo Nakatani www.slideshare.net論文は下記ページにて公開済み。 極大部分文字…

3DS で TokyoNLP に行ってきた日記を描いたよ!

お使いのデバイスによっては3Dに見えないことがあります。あらかじめご了承ください。

メトロポリス法による正規分布からのサンプリング

TokyoNLP #9 で tkng さんが MCMC で正規分布からサンプリングしてみたけど、1000件ぐらいだとなかなかきれいな釣鐘型にならない、という話をされていた。 途中の系列を捨ててないということだったので、そのせいでは? と思ってちょっと試してみたが、結論…

極大部分文字列を使った twitter 言語判定(中谷 NLP2012)

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…