2011-01-01から1年間の記事一覧

EMNLP 読み会で Extreme Extraction - Machine Reading in a Week(Freedman+) を読みました

nokuno さん主催の EMNLP 読み会にのこのこ参加。 広く浅くがモットーなので、論文読み会ではできるだけあんまり知らない領域の論文を選ぶことにしている。ということで今回は "Extreme Extraction - Machine Reading in a Week"(Freedman+) という論文を選…

#TokyoNLP で「∞-gram を使った短文言語判定」を発表しました

TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判…

#TokyoNLP で twitter で言語判定してみたというネタを話します

第8回自然言語処理勉強会 #TokyoNLP http://atnd.org/events/22199 主催の id:nokuno さんを除けば、TokyoNLP できっと最多発表だと思うが、来週の第8回でもまたまたのこのこ発表。 今回は「∞-gram を使った短文言語判定」というタイトルで、かっこつけてい…

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰を…

WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました

昨年に引き続き、今年も WebDB Forum 2011 のサイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。 CRF を使った Web 本文抽出 for WebDB Forum 2011 View more presentations…

「数式を numpy に落とし込むコツ」を HMM に当てはめてみる

数式をnumpyに落としこむコツ View more presentations from Shuyo Nakatani という発表を Tokyo.SciPy #2 でさせてもらったのだが、発表&資料作成の時間の関係で、実際に数式を解釈する例を2つしか入れられなかったのが残念なところ。 今、社内 PRML 読書…

PRML 13章の「HMM の最尤推定」を書き換えてみた

@shuyo: 社内PRML読書会。今日はHMMの最尤推定。EMAによる導出部分がムダに天下りすぎる。Mステップの対数同時分布の期待値の計算に必要な事後分布の統計量E[z_nk]をγ_nkとおくと、1-of-Kゆえγ_nk=p(z_nk=1|X)がわかる、って流れの方が自然だと思うんだが。2…

メールアドレスの正規表現がめちゃめちゃ遅くなることがある件について

Solr 3.5 から新たに加わる言語判定機能に、拙作の言語判定ライブラリ langdetect が正式に採用されたようで。 言語判別機能の追加 (Solr 3.5) http://lucene.jugem.jp/?eid=455 LanguageDetection - Solr Wiki http://wiki.apache.org/solr/LanguageDetecti…

Double Array 実装してみた

今作りかけのもので、素性(文字列片)を格納するのに Trie を使っていたのだけど、50万件を超えたあたりからメモリに載らなくなってきて。 まあ dict を使っためちゃめちゃナイーブな実装だったので、そろそろダメかなあとは思っていたんだけど(苦笑)。 とい…

第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました

10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を n…

Tokyo.SciPy #2 で「数式を numpy に落としこむコツ」を話します

Tokyo.SciPy #2 っていう、Python で numpy と scipy について語り合う勉強会があって、第1回には残念ながら行けなかったので、第2回に のこのこ参加予定。 で、発表枠がまだ空いていたので、(例によって)何を話すかはおいといて手を挙げてみた(笑)。 最初「…

モンテカルロ積分おかわり

次回から社内 PRML 読書会が 11章「サンプリング法」に突入予定。 昔(と言っても1年前)、自分が初読の時にあれこれ試した記録も参照してもらってて、光成さんからいろいろツッコミをもらう。 PRML 11章の重点サンプリングと SIR を試す http://d.hatena.ne.j…

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool)

EMNLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll …

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011)

9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。【追記】 ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ!) についての説明を追加しまし…

イタリア語/スペイン語/ポルトガル語の見分け方

イタリア語とスペイン語とポルトガル語はいずれもロマンス語と呼ばれる親戚みたいなもんで、母音で終わる単語が多めとか、代表的な機能語(助動詞や前置詞)が似た形をしているとか、いずれも主語が省略できるとか、共通した特徴を持っている。 そして使用地域…

CRF を使った Web 本文抽出

とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web …

「機械学習とパターン認識」(PRML)のアンチョコ by herumi

社内で「機械学習とパターン認識」(PRML) の読書会をやっているのだけど、計算がやっぱり難しいようでみんな苦戦中。 そんなこんなで、光成さん(@herumi さん)が PRML の数式を手抜き無しで解説するアンチョコ(虎の巻 / PRML教科書ガイド)をマメに作ってくれ…

階層ディリクレ過程を実装してみる (3) HDP-LDA の更新式を導出 ( t の全条件付き分布)

階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - 木曜不足 階層ディリクレ過程を実装してみる (2) HDP-LDA の更新式を導出・前編 - 木曜不足 しばらく間が空いたけど、今回も "Hierarchical Dirichlet Processes"(Teh+ JASA2006) を…

Infinite SVM - ICML 読み会

7/16 に行われた、id:nokuno さん主催の ICML 2011 論文読み会にのこのこ行ってきました。参加者&会場提供してくださった PFI の @unnonouno さん、ありがとうございます。 http://d.hatena.ne.jp/nokuno/20110716/1310827294 参加と発表がセット、というこ…

ロジスティック回帰でいろんな特徴関数を試す

ロジスティック回帰+確率的勾配降下法 - 木曜不足 前回に続いて、ロジスティック回帰で遊ぶ。 まだ線形の特徴量しか試していなかったので、二次項や RBF (距離に基づく特徴)も追加し、イテレーションももっとたくさん行うようにし、また初期値や学習順によ…

ロジスティック回帰+確率的勾配降下法

次やってみたいことにロジスティック回帰を使おうとしているので、PRML 4章に従ってさらっと実装してみる。 最終的には Python + numpy で実装し直すことになると思うけど、R の手触り感が好きなので、今回は R。 データセットには R なら簡単に扱える iris …

ぷるむるクイズ☆2: tail-to-tail で話が違う!?

ラプラスくんも先日の記事を読んで、「 tail-to-tail は観測されてないときには非独立で、観測されたら独立になる」ことを例を作って確かめようと思いました。 「 a は普通によくあるサイコロにして、b はその目を 2 で割ったあまり、c は 3 で割ったあまり…

ぷるむるクイズ☆ head-to-tail で新定理発見!?

ベイズくんは昨日の記事を読んで、head-to-tail で「観測されてないときには非独立で、観測されたら条件付き独立になる例」を作ってみようと思いました。 「よーし head-to-tail だから、10本中3本が当たりのくじの中から引いた1本目を a、続けて引いた2本目…

PRML 8.2章「head-to-head が観測されたら独立性が失われる」のもっとわかりやすい具体例

PRML 8.2章「条件付き独立性」では、 head-to-head の場合は「観測されると遮断が解かれる(つまり一般に条件付き独立性を持たない)」という現象の例として「車の燃料装置」が紹介されている。この例はこの例で悪くはないと思うが、ちょっと実感しにくい。 ち…

「はじめての生成文法・後編」を TokyoNLP で発表してきました。

早第6回となった自然言語処理勉強会@東京(#TokyoNLP)にのこのこ行ってきた。 主催者の id:nokuno さん、会場を提供して下さった EC ナビさん(@ajiyoshi さん)、発表者参加者の各位、お疲れ様でした&ありがとうございました。 第6回 自然言語処理勉強会 #To…

ベイズの公式は地味に難しいので、確率の乗法公式を2回使おう

window.twttr = (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0], t = window.twttr || {}; if (d.getElementById(id)) return t; js = d.createElement(s); js.id = id; js.src = "https://platform.twitter.com/widgets.js"; fjs.paren…

階層ディリクレ過程を実装してみる (2) HDP-LDA の更新式を導出・前編

階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較 - Mi manca qualche giovedi`? の続き。 今回も [Teh+ 2006] に基づいて、Chinese Restaurant Franchise(中華料理店フランチャイズ, CRF) の枠組みで Hierarchical Dirichlet Process(…

階層ディリクレ過程を実装してみる (1) HDP-LDA と LDA のモデルを比較

Hierechical Dirichlet Process(HDP, 階層ディリクレ過程) を実装するのに必要な式を導出しつつ、実装してみるお話。 参照するのはこちらの論文。 [Y.W.Teh, M.I.Jordan, M.J.Beal & D.M.Blei. JASA2006] Hierarchical Dirichlet Processes http://www.gatsb…

R で識別器を作ってみるのに必要な散布図の書き方・正規化の方法(iris データセットを例に)

PRML 4章とかを読んで、ちょっと試しに識別器を実装してみたい! というとき、初心者的にはデータセットをどこから持ってくるか、そのデータセットをどう使うか、実行結果をどうやってグラフなどに出力するか、といったあたりが悩み。 R はそのへんとてもよ…

どうしてサンプリングで推論できるの?

TokyoNLP #5 で「はじめてのトピックモデル」的なのをやろうと思ってたんだけど、地震とかとかで1ヶ月延びている間に「はじめての生成文法」にすり替わってた。あれー? で、次回はその後編の予定だし、その次に TokyoNLP 的なところでなんか話す機会をもら…