2013-01-01から1年間の記事一覧

「機械学習 はじめよう」最終回

gihyo.jp で続けていた連載「機械学習 はじめよう」がとうとう最終回を迎えることができた。 第21回(最終回) 機械学習 はじめよう:機械学習 はじめよう|gihyo.jp … 技術評論社 初回の 2010年 7月から 3年以上にわたる連載がなんとか完結できたのも、読ん…

WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。

11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む…

第4回 #DSIRNLP で Active Learning 入門について話しました

@overlast さん主宰の データ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした&ありがとうございました>各位 こちらが発表資料。 Active Learning 入門 from Shuyo N…

夏のプログラミングシンポジウムで「数式を綺麗にプログラミングするコツ」を発表してきました

8/25 に開催された夏のプログラミングシンポジウム 2013 にて、「数式を綺麗にプログラミングするコツ」というお話をさせてもらいました。運営、発表に携わった&参加者のみなさん、会場のドリコムさん、お疲れ様でした&ありがとうございました。お水おいし…

Active Learning を試す(Uncertainly Sampling 編)

教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデル…

R で Vanishing Component Analysis

どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner Vanishing Component Analysis を試作してみました – Tech.D-ITlab | Denso IT Laboratory researcher's blog sites 行けな…

PRML Wednesday (平日読書会) と読み始める人のための参考リンク集

毎週決まった平日の夜に 「機械学習とパターン認識」(PRML) を読み進めようという PRML Wednesday のキックオフにのこのこ顔を出してきた。主催の naoya_t さん&参加者のみなさん、お疲れ様でした&ありがとうございました。 PRML-Wednesday : ATND ほとん…

Kneser-Ney スムージングによる文書生成

少し前に Kneser-Ney スムージングの性能を測ってみた記事 を書いたが、今回は Kneser-Ney スムージングによる n-Gram 言語モデルで文書生成を行なってみた。 スクリプトはこちら。 https://github.com/shuyo/iir/blob/master/ngram/knlm.py 適当なテキスト…

「ぷるむるクイズ☆2: tail-to-tail で話が違う!?」の解答編

下巻で一番大切な一文は p73 の「グラフはリンクが存在しないことをもって分布のクラスの性質に関する情報を表現する」やねんって儂が言わんかったら誰が言うてくれるねん! という使命感に思わず燃えてしまう PRML 第8章「グラフィカルモデル」(半分嘘)。 …

「ぷるむるクイズ☆ head-to-tail で新定理発見!?」の解答編

7/21 開催の PRML(パターン認識と機械学習) 読書会 復々習レーンにのこのこ参加してきました。主催者、発表者、参加者、そして会場を提供してくださったニフティさん、お疲れさまでした&ありがとうございました。 PRML復々習レーン #12 : ATND なんか Tokyo…

LDA CVB0 の C++ 実装

LDA

ちょっと C++ で実装したいものがあるのだけど、その前に練習ということで LDA の CVB0 推論を C++ で実装してみた。 https://github.com/shuyo/iir/tree/master/lda/ldacvb0_cpp VC++2010 でしかビルドしてないが、一応後で gcc でもビルドしてみようかなと…

青空文庫の続き物を1冊の Kindle フォーマットにする

gunosy に twitter アカウントをひもづけてここ何ヶ月か使っているが、出てくるのはなぜか電子書籍やラノベやソシャゲの話題ばかり(たまに数学や教育)で、自然言語処理や機械学習の記事をお勧めされることはまずほとんどない。 お勧めされる記事に興味がな…

Labeled LDA (Ramage+ EMNLP2009) の perplexity 導出と Python 実装

3年前に実装したものの github に転がして放ったらかしにしてた Labeled LDA (Ramage+ EMNLP2009) について、英語ブログの方に「試してみたいんだけど、どういうデータ食わせたらいいの?」という質問コメントが。 うーん、そうね、そういうところ書いてない…

PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜

放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広…