et, al の検索結果:

Labeled LDA (Ramage+ EMNLP2009) の perplexity 導出と Python 実装

…した Dirichlet Process with Mixed Random Measures (Kim+ ICML2012) だったりする。 (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足 DP-MRM (Kim+ ICML12) の更新式も導出 - 木曜不足 DP-MRM (Kim+ ICML12) の数式を確認中 - 木曜不足 DP-MRM も実装する気まんまんだったの…

PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜

放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。 振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色い本に乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、本の正体を確認するためにのぞき込もうと…

言語判定のモデルパラメータを自己組織化マップで可視化

…Language Detection with Infinity-gram ∞-gram を使った短文言語判定 詳しくはリンク先のスライドとかを見てもらうとして、今日の話に関係あることだけ言うと、 判別器は多クラスロジスティック回帰 素性は任意の部分文字列 (L1 正則化で素性選択) 19 のラテン文字言語を判別する学習済みモデルを公開 というあたり。 そんなん言われてもわからん! じゃあ具体的に行こう。 ロジスティック回帰はこういう式で分類を推測する。 p(言語=L|文章)…

Online VB inference for HDP (Wang+ 2011) を実装してみたけど

…al Dirichlet. Process HDP-LDA を Online な VB で解くという論文。 Teh さんらの VB 推論の論文も読んだんだけど、実にアクロバティックな分解が出てきて、いやこれはどうなんだろう……という気分になってしまい、実装してみる気にはならなかった。 一方、Wang さんらのこれはとても素直な式展開で、そんな簡単でいいんだーという感じ。自力で全部の式導出してみたけど、引っかかるところも特になし。 とはいえやっぱり VB なので、きつい独立の仮…

Kneser-Ney Smoothing を試してみた

…corpus = getattr(m, opt.corpus) これで opt.corpus に "brown" が入っていれば corpus は nltk.corpus.brown になるし、"movie_reviews" なら nltk.corpus.movie_reviews になるって仕掛け。 出力はこんな感じ。brown コーパスの場合。 $ ./knsmooth.py -c brown --seed=0 found corpus : brown (D=500) #…

機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml

11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼をいただいた時、言語判定の話をすればいいか〜とか考えて気楽に引き受けちゃったのだが、あれを20分で話すと痛い目にあうと広島方面で学んだことを思い出し。 じゃあ、テキストマイニング始めました的なことでも〜と構成…

「プログラマが本当に理解するには実装しないといけない」か

…ormatics beta 余談:PRMLの学習と実装に関する疑問について. 実装の話はトークセッションではあまり出て来なかったのだが,帰り際の電車の中で実装に関する疑問をふと思いついて「さっき訊いときゃよかった」と思ったので,折角なので書いてみる.プログラマーなどは,アルゴリズムを自分で実装しないと本当に理解したことにならない,なんてことがよく言われるけれども,そういう環境で育った技術系の人がPRMLを読み始めると「書いてあることをひと通りまんべんなく実装しないといけない」…

PRML の読む章・飛ばす章(私家版)

…ormatics beta http://yagays.github.io/blog/2012/10/12/prml-talksession/ 「今度こそわかる!? PRMLの学習の学習」ジュンク堂書店池袋本店トークセッション - Togetter https://togetter.com/li/388657 【/追記】 PRML の邦訳の仕掛け人たる神嶌先生([twitter:@shima__shima] さん) 各地で行われる PRML 読書会の火付け人と言っていい [t…

階層ディリクレ過程を実装してみる (5) HDP-LDA の更新式を導出 (パープレキシティ)

… の Dirichlet Process の項の原稿なのかな? が公開されていた。 (Yee Whye Teh) Dirichlet Process 百科事典の項目なのでさすがに導出過程などは全部省かれて入るものの、ディリクレ過程の性質が CRF やら stick breaking やら、そして事後分布までひと通り網羅されていて、もちろん今風の記法で書かれているので、とりあえず DP を扱う上で知っておかないといけないことを抑えておきたいという人にはおすすめかと。 話を元に戻…

DP-MRM (Kim+ ICML12) の数式を確認中

Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後分布。 末尾の x_ji は x_jt の間違い、というのは前回の記事ですでに書いたとおりだが、さらに r_j を考慮にいれないといけないはず。 導…

DP-MRM (Kim+ ICML12) の更新式も導出

…2) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.sl…

階層ディリクレ過程を実装してみる (4) k の全条件付き分布と HDP-LDA の更新式を導出

来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃった(てへ)、TokyoML で発表する約束もしてるし、ちょっと計算やり直してみよっかな、という感じで Teh さんの HDP の論文をまたぞろひっぱりだして読んでたりする。 しかし、初めて読んだときは全くわからなくて…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

…2] Dirichlet Process with Mixed Random Measures を紹介してみた。発表資料はこちら。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.slideshare.net論文では Stick Breaking Process …

C# / Moles で dynamic を使う (Chaining Assertion を使って private メンバのテストを書きたい)

…System.DateTime))] // (中略) [TestMethod()] [HostType("Moles")] public void DateTest() { System.Moles.MDateTime.NowGet = () => new DateTime(2000, 1, 1); // DateTime.Now を差し替え Assert.AreEqual(DateTime.Now, new DateTime(2000, 1, 1)); // 現在日付によら…

NAIST で twitter 言語判定について発表してきました

…Language Detection with Infinity-Gram View more presentations from Shuyo Nakatani NAIST 小町さんから M1 向けのセミナーで発表してみませんかとお話をいただいて、「ぜひやります」と二つ返事でお引き受けしたものの、本当に中谷でいいんだろうかーとあとから心配になったのはないしょw 小町さんからは、機械学習や自然言語処理を実応用で使っているエンジニアの立場、というところを学生さんに聞いてもらいた…

イラストロジック自動解答

…f search return Array.new(@size){WHITE} if @hints[0] == 0 @whites = Array.new(@size){WHITE} @blacks = Array.new(@size){BLACK} search_sub [], 0, 0 @blacks.zip(@whites).map {|x, y| x | y} end def search_sub(pos_list, free_idx, current_pos) cu…

Iterative Learning for Reliable Crowdsourcing Systems @ NIPS 読み会

…arge Datasets" by @nokuno [Karger+] "Iterative Learning for Reliable Crowdsourcing Systems" by @shuyo [Leibo+] "Why The Brain Separates Face Recognition From Object Recognition" by @takmin [Yue+] "Linear submodular bandits and their applica…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

…ideshare.net論文は下記ページにて公開済み。 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足 論文との変更点は、執筆時よりも対応言語がカタルーニャ語とハンガリー語の2言語増えて19言語になっており、結果も最新のものに差し変わっているところ。 なお本発表資料は TokyoNLP #8 での発表「∞-gram を使った短文言語判定」がベースとなっている。 #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました …

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰をおなじみの Python / numpy / matplotlib で実装する内容となっています。 実践編を担当するのは今回が初めてなので、どういう書き方にしようかいろ…

「数式を numpy に落とし込むコツ」を HMM に当てはめてみる

数式をnumpyに落としこむコツ View more presentations from Shuyo Nakatani という発表を Tokyo.SciPy #2 でさせてもらったのだが、発表&資料作成の時間の関係で、実際に数式を解釈する例を2つしか入れられなかったのが残念なところ。 今、社内 PRML 読書会で 13章の隠れマルコフをやっつけていて、その Baum-Welch の更新式がちょうどいい題材になっていることに気付いたので、ここで取り上げてみる。 (PRML 式…

PRML 13章の「HMM の最尤推定」を書き換えてみた

…45 via Janetter2なあんて twitter でつぶやいてみたりしたけれど、言うだけなら誰でもできるので、実際に該当箇所を「自然だと思う流れ」で試しに書き換えてみちゃった。 ターゲットは PRML 下巻 p334 の式 (13.12) から (13.17) の間。ここは 式 (13.12)→式 (13.17)→式 (13.15)&(13.16)→式 (13.13)&(13.14) の順序のほうがわかりやすいと思いこんでいるので、それにあわせて文章を書き換える、とい…

メールアドレスの正規表現がめちゃめちゃ遅くなることがある件について

…イブラリ langdetect が正式に採用されたようで。 言語判別機能の追加 (Solr 3.5) http://lucene.jugem.jp/?eid=455 LanguageDetection - Solr Wiki http://wiki.apache.org/solr/LanguageDetection もともと Apache Nutch などの言語判定に不満で作り始めたこと、そして実際に社内(サイボウズ)で langdetect を Solr に組み込んで利用し…

Double Array 実装してみた

…ray を構築。 get を呼び出すと、最初に与えたテキスト列の中でのキー文字列のインデックスを返す。 シンプル機能。 trie = da.DoubleArray() trie.initialize(["ca", "cat", "deer", "dog", "fox", "rat"]) print trie.get("ca") # => 0 print trie.get("cat") # => 1 print trie.get("deer") # => 2 print tri…

第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました

10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を numpy に落としこむコツ 〜機械学習を題材に〜」なんてタイトルで、数式(あるいは数式入りのアルゴリズム)を実装するときに、どういう点に注目すれば易しくコードを書けるか、についてちらちら語ってみた。 こちら…

モンテカルロ積分おかわり

…の rdirichlet 関数を使うのがお手頃。*1 > library(MCMCpack) > (samples = rdirichlet(20, c(11,12,13,14,15))) [,1] [,2] [,3] [,4] [,5] [1,] 0.06962782 0.1964396 0.2100311 0.2828679 0.2410336 [2,] 0.11101838 0.1857581 0.2561643 0.1971526 0.2499067 [3,] 0.1…

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool)

…ening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll のような文字を必要以上に繰り返す twitter でよくみる表現に注目して、このような表現が意見や評価を述べるときによく使われるという点を主張しているのがポイント。 まあ直感的にもうなずける分析だと思う。 論文の中では、そのためにまず Co…

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011)

…分布(Dirichlet Tree) T_{d,k} : 文書 d 内のトピック k を持つ単語数 P_{k,w} : トピック k を持つ単語 w の個数 P_{k,j} : 制約 j に属する、トピック k を持つ単語数 論文には W_{k,j,w} = 制約 j に属する、トピック k を持つ単語 w の個数が導入されているが、制約は単語に対して高々1つなので、制約 j を持つ w に対しては常に P_{k,w} = W_{k,j,w} ゆえ不要。 Dirichlet …

CRF を使った Web 本文抽出

とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web 本文抽出ネタを焼き直し&プチバージョンアップして発表した。 その資料がこちら。 CRF を使った Web 本文抽出 View more presentations from Shuyo…

階層ディリクレ過程を実装してみる (3) HDP-LDA の更新式を導出 ( t の全条件付き分布)

…al Dirichlet Processes"(Teh+ JASA2006) を読んでいく。 この論文の5章に HDP の更新式が、6.1 章では HDP-LDA について書かれているのだが、最初と途中と最後が書かれていないので、どうやって導出したのかも、HDP-LDA の実装に直接必要な最終的な式も、自力で考えないといけなくて、エンジニア涙目。 今回見ていくのは 5章冒頭から 5.1章 Posterior sampling in the Chinese restaurant…

Infinite SVM - ICML 読み会

… a Dirichlet Process Mixture of Large-margin Kernel Machines"(以降 "iSVM") を紹介。 iSVM は一言で言うと「SVM(Support Vector Machine) を DPM(Dirichlet Process Mixture) で無限混合モデルにしてみた」。 発表時の資料は当日に公開したものの、発表時間の目安が 30分ということで 20枚以内にむりくり収めたせいで、いろいろ説明不足。 さらに前日の夜中…