2012-01-01から1年間の記事一覧
サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。 言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ 通常のアドベントカレンダーと違って、テーマは「技術ならなんでも…
[Wang+ AISTATS 2011] Online Variational Inference for the Hierarchical Dirichlet. Process HDP-LDA を Online な VB で解くという論文。 Teh さんらの VB 推論の論文も読んだんだけど、実にアクロバティックな分解が出てきて、いやこれはどうなんだろう…
Kneser-Ney Smoothing は高性能な言語モデルである。と、よく聞かされて知っているつもりだけど、まだ一度も試したことがなかったので、試してみた。 コードはここ。 https://github.com/shuyo/iir/blob/master/ngram/knsmooth.py 実験用にべったり書いてい…
11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼を…
ジュンク堂池袋本店にて 10/11 に行われた「パターン認識と機械学習」(PRML) 愛好家の集まり、じゃあなかった、トークセッションにのこのこ行ってきた、ばかりか前でしゃべってきた。ありがとうございました&お疲れ様でした>各位 PRML同人誌 『パターン認…
機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない………
HDP-LDA の更新式を実装できたら、それが正しく動いているのか、そして収束したかどうかを確認するために perplexity を求めたいところだが、こちらも例によって論文には詳細な数式は書き下されていないので、最後にこれをやっつけよう。 論文ではパープレキ…
Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後…
昨日の HDP-LDA の更新式導出のついでに、ICML 読み会で紹介した教師ありノンパラ LDA である (Kim+ ICML2012) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考…
来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃっ…
7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Meas…
実は最近 C# でちょっと動作確認がめんどくさいコードをぺけぺけ書いている。 というわけで、珍しく(?)できるだけ手厚くテストを書こうとしているのだが、外部のライブラリとかサービスとか絡んでいて、まさにテスト泣かせな状況。 そう、今こそレガシー…
Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶 (Wagstaff ICML2012) Machine Learning that Matters (原論文) 機械学習のトップカンファレンス ICML にて、「機械学習はこのままでいいの?」という感じの論文が発表された。 細かい内容は…
5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。 その時の資料を公開します。 内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したも…
たまには趣味のコードとか。って、いっつも趣味のことしか書いてないやんというツッコミはおいといて。 以前も Erlang で倉庫番ソルバーを書いたり、時折無性にパズルを解くコードを書きたくなるんだけど、今回はイラストロジックを解いてみた(お絵かきロジ…
以前より一度参加してみたいと思っていた Tokyo.R #22 にのこのこ行ってきた。主催の @yokkuns さん、参加者&発表者のみなさん、会場を提供してくださったニフティさん、ありがとうございました&お疲れさまでした。 atnd に LT 募集中とあったので、初参加…
id:nokuno さん主催の NIPS 読み会にのこのこ参加。ありがとうございます&お疲れ様でした>各位 [Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems というクラウドソーシング、特に Amazon Mechanical Turk にて spammer がいる場合…
宣伝です。 サイボウズ・ラボユースの最終成果報告会が来週 3/26(月) に開かれます。 この報告会は第2期募集説明会も兼ねています。 サイボウズ・ラボユース ブログ http://cybozulabs-youth.blogspot.jp/ 第1期サイボウズ・ラボユース 最終成果報告会(若干…
NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね?」 なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って(かな?)トピックモ…
言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。 極大部分文字列を使った twitter 言語判定 from Shuyo Nakatani www.slideshare.net論文は下記ページにて公開済み。 極大部分文字…
お使いのデバイスによっては3Dに見えないことがあります。あらかじめご了承ください。
TokyoNLP #9 で tkng さんが MCMC で正規分布からサンプリングしてみたけど、1000件ぐらいだとなかなかきれいな釣鐘型にならない、という話をされていた。 途中の系列を捨ててないということだったので、そのせいでは? と思ってちょっと試してみたが、結論…
来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…