et, al の検索結果:

「データ解析のための統計モデリング入門」6.6章 割算値はなぜダメなのか? #みどりぼん

…(y~x, offset=log(A),family=poisson,data=d)) (model.gamma <- glm(y/A~x, family=Gamma(link="log"),data=d)) > (model.poisson <- glm(y~x, offset=log(A),family=poisson,data=d)) Call: glm(formula = y ~ x, family = poisson, data = d, offset = log(…

ブートストラップの適切なサンプル数 -「データ解析のための統計モデリング入門」第5章 #みどりぼん

…3a.csv") get.dd <- function(d) { n.sample <- nrow(d); y.mean <- mean(d$y); d$y.rnd <- rpois(n.sample, lambda=y.mean) fit1 <- glm(y.rnd~1, data=d, family=poisson); fit2 <- glm(y.rnd~x, data=d, family=poisson); fit1$deviance - fit2$deviance; …

「データ解析のための統計モデリング入門」第3章メモ #みどりぼん

…sion parameter for poisson family taken to be 1) Null deviance: 89.507 on 99 degrees of freedom Residual deviance: 84.808 on 97 degrees of freedom AIC: 476.59 Number of Fisher Scoring iterations: 4fT の z 値は -0.430 ( 0 から十分離れていれば有効なパラメータ)、Pr…

PRML ガール 〜とある文芸部の統計女子〜

これは「PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜」の幕間的なお話です。 未読の方は先にそちらをどうぞ。 PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足 「先輩、先輩。我らが PRML ガールの評判聞きました?」 「聞いてない」 「やっぱり気になりますよねえ。ねえ?」 「僕は別に」 「……」 「……わかったわかった。どんな評判なの?」 「評判というか苦情ですかね。『 PRML ガール言う…

WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。

11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む)、関係各位、ありがとうございました。 発表資料はこちら。 どの言語でつぶやかれたのか、機械が知る方法 #WebDBf2013 from Shuyo Nakatani テーマは過去に発表済みの「∞-…

第4回 #DSIRNLP で Active Learning 入門について話しました

@overlast さん主宰の データ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした&ありがとうございました>各位 こちらが発表資料。 Active Learning 入門 from Shuyo Nakatani 入門とか偉そうに歌ったけど勉強し始めてまだ1月半もないので、実は入門しているのは中谷本人である。 動機は資料にも書いたとおり、ドメイン適応をドメイン知識のあ…

夏のプログラミングシンポジウムで「数式を綺麗にプログラミングするコツ」を発表してきました

…ideshare.netこの発表、実は一昨年に Tokyo.SciPy #2 でやらせてもらった「数式を numpy に落としこむコツ」のブラッシュアップ版である。 数式をnumpyに落としこむコツ 変更点は R のサンプルコードの追加と、表現をよりわかりやすくリライトしたという2点であり、紹介されているサンプルも含め本質的にはほぼ同じ内容である。手抜きっぽくてごめん。 本当は他の例を追加したかったのだけど、なにぶん観測範囲が狭くて、紹介にちょうどいい例(難しすぎず、易しすぎ…

Active Learning を試す(Uncertainly Sampling 編)

… Survey (Settle 2009) ではその戦略を大きく6つに分類している。 1. Uncertainly Sampling 2. Query-By-Committee 3. Expected Model Change 4. Expected Error Reduction 5. Variance Reduction 6. Density-Weighted Methods この記事では、まず 1. Uncertainly Sampling を試す。 これは「現時点のモ…

Kneser-Ney スムージングによる文書生成

…,000ベルを必ずGET!激レア以上がザクザク とびびらせる to FUKUSHIMA 、国は金を出す 新歓行きたいものですな そういやギョウオオオオオオオオブォオオオオオオオオオオオオオオアアアーーーーーーー(((o(*゚▽゚*)o))) 楽しみよおおおおおおおおおおおよろしくでござる〜おやすいみ〜〜〜(。&#9696;&#8255;&#9696;。) わら なにこれwwwこれからもよろしくねヾ(*´∀`*)ノ よろしくでーす ( ´∀`∩);: アイドルキックオーバーロー…

Labeled LDA (Ramage+ EMNLP2009) の perplexity 導出と Python 実装

…した Dirichlet Process with Mixed Random Measures (Kim+ ICML2012) だったりする。 (Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会 - 木曜不足 DP-MRM (Kim+ ICML12) の更新式も導出 - 木曜不足 DP-MRM (Kim+ ICML12) の数式を確認中 - 木曜不足 DP-MRM も実装する気まんまんだったの…

PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜

放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広げている女子生徒の横を通り過ぎたところで突然立ち止まった。 振り返ってその先客をよく眺めると、ツインテールの頭をどこか見覚えのある黄色い本に乗せて、机に突っ伏すようにして寝ていた。カズは思わず近寄って、本の正体を確認するためにのぞき込もうと…

言語判定のモデルパラメータを自己組織化マップで可視化

…Language Detection with Infinity-gram ∞-gram を使った短文言語判定 詳しくはリンク先のスライドとかを見てもらうとして、今日の話に関係あることだけ言うと、 判別器は多クラスロジスティック回帰 素性は任意の部分文字列 (L1 正則化で素性選択) 19 のラテン文字言語を判別する学習済みモデルを公開 というあたり。 そんなん言われてもわからん! じゃあ具体的に行こう。 ロジスティック回帰はこういう式で分類を推測する。 p(言語=L|文章)…

Online VB inference for HDP (Wang+ 2011) を実装してみたけど

…al Dirichlet. Process HDP-LDA を Online な VB で解くという論文。 Teh さんらの VB 推論の論文も読んだんだけど、実にアクロバティックな分解が出てきて、いやこれはどうなんだろう……という気分になってしまい、実装してみる気にはならなかった。 一方、Wang さんらのこれはとても素直な式展開で、そんな簡単でいいんだーという感じ。自力で全部の式導出してみたけど、引っかかるところも特になし。 とはいえやっぱり VB なので、きつい独立の仮…

Kneser-Ney Smoothing を試してみた

…corpus = getattr(m, opt.corpus) これで opt.corpus に "brown" が入っていれば corpus は nltk.corpus.brown になるし、"movie_reviews" なら nltk.corpus.movie_reviews になるって仕掛け。 出力はこんな感じ。brown コーパスの場合。 $ ./knsmooth.py -c brown --seed=0 found corpus : brown (D=500) #…

機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml

11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼をいただいた時、言語判定の話をすればいいか〜とか考えて気楽に引き受けちゃったのだが、あれを20分で話すと痛い目にあうと広島方面で学んだことを思い出し。 じゃあ、テキストマイニング始めました的なことでも〜と構成…

「プログラマが本当に理解するには実装しないといけない」か

…ormatics beta 余談:PRMLの学習と実装に関する疑問について. 実装の話はトークセッションではあまり出て来なかったのだが,帰り際の電車の中で実装に関する疑問をふと思いついて「さっき訊いときゃよかった」と思ったので,折角なので書いてみる.プログラマーなどは,アルゴリズムを自分で実装しないと本当に理解したことにならない,なんてことがよく言われるけれども,そういう環境で育った技術系の人がPRMLを読み始めると「書いてあることをひと通りまんべんなく実装しないといけない」…

PRML の読む章・飛ばす章(私家版)

…ormatics beta http://yagays.github.io/blog/2012/10/12/prml-talksession/ 「今度こそわかる!? PRMLの学習の学習」ジュンク堂書店池袋本店トークセッション - Togetter https://togetter.com/li/388657 【/追記】 PRML の邦訳の仕掛け人たる神嶌先生([twitter:@shima__shima] さん) 各地で行われる PRML 読書会の火付け人と言っていい [t…

階層ディリクレ過程を実装してみる (5) HDP-LDA の更新式を導出 (パープレキシティ)

… の Dirichlet Process の項の原稿なのかな? が公開されていた。 (Yee Whye Teh) Dirichlet Process 百科事典の項目なのでさすがに導出過程などは全部省かれて入るものの、ディリクレ過程の性質が CRF やら stick breaking やら、そして事後分布までひと通り網羅されていて、もちろん今風の記法で書かれているので、とりあえず DP を扱う上で知っておかないといけないことを抑えておきたいという人にはおすすめかと。 話を元に戻…

DP-MRM (Kim+ ICML12) の数式を確認中

Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後分布。 末尾の x_ji は x_jt の間違い、というのは前回の記事ですでに書いたとおりだが、さらに r_j を考慮にいれないといけないはず。 導…

DP-MRM (Kim+ ICML12) の更新式も導出

…2) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.sl…

階層ディリクレ過程を実装してみる (4) k の全条件付き分布と HDP-LDA の更新式を導出

来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃった(てへ)、TokyoML で発表する約束もしてるし、ちょっと計算やり直してみよっかな、という感じで Teh さんの HDP の論文をまたぞろひっぱりだして読んでたりする。 しかし、初めて読んだときは全くわからなくて…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

…2] Dirichlet Process with Mixed Random Measures を紹介してみた。発表資料はこちら。 [Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametric Topic Model for Labeled Data from Shuyo Nakatani www.slideshare.net論文では Stick Breaking Process …

C# / Moles で dynamic を使う (Chaining Assertion を使って private メンバのテストを書きたい)

…System.DateTime))] // (中略) [TestMethod()] [HostType("Moles")] public void DateTest() { System.Moles.MDateTime.NowGet = () => new DateTime(2000, 1, 1); // DateTime.Now を差し替え Assert.AreEqual(DateTime.Now, new DateTime(2000, 1, 1)); // 現在日付によら…

NAIST で twitter 言語判定について発表してきました

…Language Detection with Infinity-Gram View more presentations from Shuyo Nakatani NAIST 小町さんから M1 向けのセミナーで発表してみませんかとお話をいただいて、「ぜひやります」と二つ返事でお引き受けしたものの、本当に中谷でいいんだろうかーとあとから心配になったのはないしょw 小町さんからは、機械学習や自然言語処理を実応用で使っているエンジニアの立場、というところを学生さんに聞いてもらいた…

イラストロジック自動解答

…f search return Array.new(@size){WHITE} if @hints[0] == 0 @whites = Array.new(@size){WHITE} @blacks = Array.new(@size){BLACK} search_sub [], 0, 0 @blacks.zip(@whites).map {|x, y| x | y} end def search_sub(pos_list, free_idx, current_pos) cu…

Iterative Learning for Reliable Crowdsourcing Systems @ NIPS 読み会

…arge Datasets" by @nokuno [Karger+] "Iterative Learning for Reliable Crowdsourcing Systems" by @shuyo [Leibo+] "Why The Brain Separates Face Recognition From Object Recognition" by @takmin [Yue+] "Linear submodular bandits and their applica…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

…ideshare.net論文は下記ページにて公開済み。 極大部分文字列を使った twitter 言語判定(中谷 NLP2012) - 木曜不足 論文との変更点は、執筆時よりも対応言語がカタルーニャ語とハンガリー語の2言語増えて19言語になっており、結果も最新のものに差し変わっているところ。 なお本発表資料は TokyoNLP #8 での発表「∞-gram を使った短文言語判定」がベースとなっている。 #TokyoNLP で「∞-gram を使った短文言語判定」を発表しました …

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰をおなじみの Python / numpy / matplotlib で実装する内容となっています。 実践編を担当するのは今回が初めてなので、どういう書き方にしようかいろ…

「数式を numpy に落とし込むコツ」を HMM に当てはめてみる

数式をnumpyに落としこむコツ View more presentations from Shuyo Nakatani という発表を Tokyo.SciPy #2 でさせてもらったのだが、発表&資料作成の時間の関係で、実際に数式を解釈する例を2つしか入れられなかったのが残念なところ。 今、社内 PRML 読書会で 13章の隠れマルコフをやっつけていて、その Baum-Welch の更新式がちょうどいい題材になっていることに気付いたので、ここで取り上げてみる。 (PRML 式…

PRML 13章の「HMM の最尤推定」を書き換えてみた

…45 via Janetter2なあんて twitter でつぶやいてみたりしたけれど、言うだけなら誰でもできるので、実際に該当箇所を「自然だと思う流れ」で試しに書き換えてみちゃった。 ターゲットは PRML 下巻 p334 の式 (13.12) から (13.17) の間。ここは 式 (13.12)→式 (13.17)→式 (13.15)&(13.16)→式 (13.13)&(13.14) の順序のほうがわかりやすいと思いこんでいるので、それにあわせて文章を書き換える、とい…