LDA のパープレキシティを使うとき

LDA NLP

NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね？」なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って（かな？）トピックモ…

2012-03-19

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

NLP 自然言語処理言語判定言語処理学会

言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。極大部分文字列を使った twitter 言語判定 from Shuyo Nakatani www.slideshare.net論文は下記ページにて公開済み。極大部分文字…

2012-02-28

3DS で TokyoNLP に行ってきた日記を描いたよ！

TokyoNLP NLP 自然言語処理

お使いのデバイスによっては３Ｄに見えないことがあります。あらかじめご了承ください。

2012-02-01

極大部分文字列を使った twitter 言語判定(中谷 NLP2012)

NLP 言語処理学会言語判定 twitter

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。中谷秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…

2011-12-24

EMNLP 読み会で Extreme Extraction - Machine Reading in a Week(Freedman+) を読みました

EMNLP NLP

nokuno さん主催の EMNLP 読み会にのこのこ参加。広く浅くがモットーなので、論文読み会ではできるだけあんまり知らない領域の論文を選ぶことにしている。ということで今回は "Extreme Extraction - Machine Reading in a Week"(Freedman+) という論文を選…

2011-09-14

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool)

NLP 自然言語処理 twitter

EMNLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll …

2011-09-02

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011)

自然言語処理 NLP LDA

9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。【追記】ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ！) についての説明を追加しまし…

2011-06-27

「はじめての生成文法・後編」を TokyoNLP で発表してきました。

自然言語処理言語学生成文法 NLP TokyoNLP

早第6回となった自然言語処理勉強会＠東京(#TokyoNLP)にのこのこ行ってきた。主催者の id:nokuno さん、会場を提供して下さった EC ナビさん(@ajiyoshi さん)、発表者参加者の各位、お疲れ様でした＆ありがとうございました。第6回自然言語処理勉強会 #To…

2011-04-24

はじめての生成文法・前編 - #TokyoNLP 5

NLP 言語学生成文法 TokyoNLP 勉強会

第5回自然言語処理勉強会＠東京にのこのこ行ってきました。いつもいつもありがとうございます＞主催の @nokunoさん、会場の ECナビさん(@ajiyoshiさん)、発表者、参加者の皆さん今回も、いつものように新境地で「生成文法」について発表させてもらった………

2011-02-28

CICLing 2011 行ってきました

自然言語処理 NLP カンファレンス

早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議…

2011-01-22

第４回自然言語処理勉強会＠東京 #tokyonlp

NLP 機械学習 TokyoNLP

第4回自然言語処理勉強会＠東京 : ATNDにのこのこ行ってきました。主催の id:nokuno さん、参加者＆発表者のみなさん、そして会場提供して下さった EC ナビさん、ありがとうございました＆お疲れ様でした。第４回 #TokyoNLP - Togetter 詳しい内容は noku…

2011-01-20

統計的機械学習セミナー (2) 教師無し＆半教師分かち書き

機械学習 NLP

昨日の続き。持橋さんの教師なし＆半教師分かち書きについて、わかる範囲で説明してみる。「分かち書き」とは文章を単語に区切ること。日本語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日…

2011-01-19

統計的機械学習セミナー (1) sequence memoizer

機械学習 NLP

統計数理研究所にて行われた第２回統計的機械学習セミナーにのこのこ参加してきました。 http://groups.google.com/group/ibisml/browse_thread/thread/092f5fb3d45a91ea/8cae858cb8bfc00c 今回はノンパラメトリックベイズ特集ということでか、Yee Whye Teh …

2011-01-06

独断と偏見によるノンパラ入門

機械学習 NLP ノンパラベイズ

「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。ノンパラの一番素朴なやつ( K-means とか)は本当にパラメータ無…

2010-12-03

言語判定ライブラリの英語版プレゼン資料

言語判定言語判別 Java NLP 自然言語処理

言語判定ライブラリですが、せっかく４９言語対応しているので、おそまきながら英語の資料も作成。 Language Detection Library for Java from Shuyo Nakatani 英語はとても苦手なので、この英語はおかしいとかあればご指摘いただけたらとても嬉しいです。

2010-11-12

WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010

言語判定 NLP

11月11〜12日に早稲田大学理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。サイボウズが本フォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時…

2010-11-08

第3回自然言語処理勉強会＠東京 #tokyonlp

自然言語処理 NLP TokyoNLP

第3回自然言語処理勉強会＠東京 ( #tokyonlp ) に例によってのこのこ行ってきました。お疲れ様でした＆ありがとうございました＞主催、発表、参加各位。長丁場なのが玉に瑕？っていつもは主犯の一人だけど(汗第3回自然言語処理勉強会＠東京 : ATND 第３回…

2010-11-07

極大部分文字列の味見 / 自然言語処理勉強会＠東京 #3

自然言語処理 NLP 機械学習 TokyoNLP

この記事は第３回自然言語処理勉強会＠東京のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたいただしそのままでは素性数が文章長…

2010-11-06

EMNLP 2010 の論文紹介 / 自然言語処理勉強会＠東京 #3

自然言語処理 NLP 機械学習 TokyoNLP

この記事は第３回自然言語処理勉強会＠東京での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を４本＋５本紹介しています。質より数で勝負。論文を広く浅く読むススメ(仮) 「たまたま手…

2010-10-06

FSNLP 5.4 Mutual Information(相互情報量) 追伸

自然言語処理 NLP

ちょっと前に "Foundations of Statistical Natural Language Processing"(FSNLP) 5.4 の Mutual Information(相互情報量)について書いた。 http://d.hatena.ne.jp/n_shuyo/20100827/fsnlp そこで Pointwise Mutual Information(PMI) についての説明にいろい…

2010-09-29

第2回自然言語処理勉強会＠東京

言語判定言語判別 NLP 自然言語処理 TokyoNLP

遅ればせながら第2回自然言語処理勉強会＠東京の感想。まず、自分の発表「ナイーブベイズで言語判定」についていくつかフォロー。長時間発表してしまって聞く方も疲れただろうに、いっぱい質問や意見をいただけたことを感謝。「なぜナイーブベイズ？ …

2010-09-25

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました

言語判定言語判別自然言語処理 NLP TokyoNLP

第2回自然言語処理勉強会＠東京にのこのこ行ってきました。ありがとうございました＆お疲れ様でした＞各位。今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。ナイーブベイズによる言語判定 from Shuyo Nakatani…

2010-09-21

「Web本文抽出 using CRF」の学習用データの作り方

NLP CRF 自然言語処理本文抽出

第２回自然言語処理勉強会＠東京が 9/25 に行われます。前回よりキャパの大きい会場＆週末に参加募集が始まったばかりですが、早くもほぼ定員。自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。今度…

2010-08-27

FSNLP 5.4 Mutual Information(相互情報量)

NLP

"Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ本)を読んでいるが、5.4 Mutual Information で詰まった。書いてあることがいろいろ腑に落ちない。まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「本当に…