機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml

11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼を…

「プログラマが本当に理解するには実装しないといけない」か

ジュンク堂池袋本店にて 10/11 に行われた「パターン認識と機械学習」(PRML) 愛好家の集まり、じゃあなかった、トークセッションにのこのこ行ってきた、ばかりか前でしゃべってきた。ありがとうございました&お疲れ様でした>各位 PRML同人誌 『パターン認…

PRML の読む章・飛ばす章(私家版)

機械学習の定番教科書の1つと言われ、各地で読書会が開かれる「パターン認識と機械学習」(PRML)。読み解くにはある程度の解析と線形代数の知識が必要なため、数学が苦手な学生さんや××年ぶりに数式を目にしたというエンジニアたちを次々と「式変形できない………

階層ディリクレ過程を実装してみる (5) HDP-LDA の更新式を導出 (パープレキシティ)

HDP-LDA の更新式を実装できたら、それが正しく動いているのか、そして収束したかどうかを確認するために perplexity を求めたいところだが、こちらも例によって論文には詳細な数式は書き下されていないので、最後にこれをやっつけよう。 論文ではパープレキ…

DP-MRM (Kim+ ICML12) の数式を確認中

Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後…

DP-MRM (Kim+ ICML12) の更新式も導出

昨日の HDP-LDA の更新式導出のついでに、ICML 読み会で紹介した教師ありノンパラ LDA である (Kim+ ICML2012) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考…

階層ディリクレ過程を実装してみる (4) k の全条件付き分布と HDP-LDA の更新式を導出

来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃっ…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Meas…

C# / Moles で dynamic を使う (Chaining Assertion を使って private メンバのテストを書きたい)

実は最近 C# でちょっと動作確認がめんどくさいコードをぺけぺけ書いている。 というわけで、珍しく(?)できるだけ手厚くテストを書こうとしているのだが、外部のライブラリとかサービスとか絡んでいて、まさにテスト泣かせな状況。 そう、今こそレガシー…

エンジニアから機械学習への要望

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶 (Wagstaff ICML2012) Machine Learning that Matters (原論文) 機械学習のトップカンファレンス ICML にて、「機械学習はこのままでいいの?」という感じの論文が発表された。 細かい内容は…

NAIST で twitter 言語判定について発表してきました

5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。 その時の資料を公開します。 内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したも…

イラストロジック自動解答

たまには趣味のコードとか。って、いっつも趣味のことしか書いてないやんというツッコミはおいといて。 以前も Erlang で倉庫番ソルバーを書いたり、時折無性にパズルを解くコードを書きたくなるんだけど、今回はイラストロジックを解いてみた(お絵かきロジ…

Tokyo.R #22 に行ってきた& R で音声合成やってみた

以前より一度参加してみたいと思っていた Tokyo.R #22 にのこのこ行ってきた。主催の @yokkuns さん、参加者&発表者のみなさん、会場を提供してくださったニフティさん、ありがとうございました&お疲れさまでした。 atnd に LT 募集中とあったので、初参加…

Iterative Learning for Reliable Crowdsourcing Systems @ NIPS 読み会

id:nokuno さん主催の NIPS 読み会にのこのこ参加。ありがとうございます&お疲れ様でした>各位 [Karger+ NIPS11] Iterative Learning for Reliable Crowdsourcing Systems というクラウドソーシング、特に Amazon Mechanical Turk にて spammer がいる場合…

サイボウズ・ラボユースってなに?

宣伝です。 サイボウズ・ラボユースの最終成果報告会が来週 3/26(月) に開かれます。 この報告会は第2期募集説明会も兼ねています。 サイボウズ・ラボユース ブログ http://cybozulabs-youth.blogspot.jp/ 第1期サイボウズ・ラボユース 最終成果報告会(若干…

LDA のパープレキシティを使うとき

NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね?」 なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って(かな?)トピックモ…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。 極大部分文字列を使った twitter 言語判定 from Shuyo Nakatani www.slideshare.net論文は下記ページにて公開済み。 極大部分文字…

3DS で TokyoNLP に行ってきた日記を描いたよ!

お使いのデバイスによっては3Dに見えないことがあります。あらかじめご了承ください。

メトロポリス法による正規分布からのサンプリング

TokyoNLP #9 で tkng さんが MCMC で正規分布からサンプリングしてみたけど、1000件ぐらいだとなかなかきれいな釣鐘型にならない、という話をされていた。 途中の系列を捨ててないということだったので、そのせいでは? と思ってちょっと試してみたが、結論…

極大部分文字列を使った twitter 言語判定(中谷 NLP2012)

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…

EMNLP 読み会で Extreme Extraction - Machine Reading in a Week(Freedman+) を読みました

nokuno さん主催の EMNLP 読み会にのこのこ参加。 広く浅くがモットーなので、論文読み会ではできるだけあんまり知らない領域の論文を選ぶことにしている。ということで今回は "Extreme Extraction - Machine Reading in a Week"(Freedman+) という論文を選…

#TokyoNLP で「∞-gram を使った短文言語判定」を発表しました

TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判…

#TokyoNLP で twitter で言語判定してみたというネタを話します

第8回自然言語処理勉強会 #TokyoNLP http://atnd.org/events/22199 主催の id:nokuno さんを除けば、TokyoNLP できっと最多発表だと思うが、来週の第8回でもまたまたのこのこ発表。 今回は「∞-gram を使った短文言語判定」というタイトルで、かっこつけてい…

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰を…

WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました

昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations…

「数式を numpy に落とし込むコツ」を HMM に当てはめてみる

数式をnumpyに落としこむコツ View more presentations from Shuyo Nakatani という発表を Tokyo.SciPy #2 でさせてもらったのだが、発表&資料作成の時間の関係で、実際に数式を解釈する例を2つしか入れられなかったのが残念なところ。 今、社内 PRML 読書…

PRML 13章の「HMM の最尤推定」を書き換えてみた

@shuyo: 社内PRML読書会。今日はHMMの最尤推定。EMAによる導出部分がムダに天下りすぎる。Mステップの対数同時分布の期待値の計算に必要な事後分布の統計量E[z_nk]をγ_nkとおくと、1-of-Kゆえγ_nk=p(z_nk=1|X)がわかる、って流れの方が自然だと思うんだが。2…

メールアドレスの正規表現がめちゃめちゃ遅くなることがある件について

Solr 3.5 から新たに加わる言語判定機能に、拙作の言語判定ライブラリ langdetect が正式に採用されたようで。 言語判別機能の追加 (Solr 3.5) http://lucene.jugem.jp/?eid=455 LanguageDetection - Solr Wiki http://wiki.apache.org/solr/LanguageDetecti…

Double Array 実装してみた

今作りかけのもので、素性(文字列片)を格納するのに Trie を使っていたのだけど、50万件を超えたあたりからメモリに載らなくなってきて。 まあ dict を使っためちゃめちゃナイーブな実装だったので、そろそろダメかなあとは思っていたんだけど(苦笑)。 とい…

第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました

10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を n…