NLP

LDA のパープレキシティを使うとき

NLP2012 のポスター発表にて、LDA の文字を見かけるたびに思わずフラフラ〜と近寄り、あーだこーだ無責任なことを述べていたら、決まって「 shuyo さんですよね?」 なんでも、お茶の水大の小林先生の研究室の学生さんはみなさん揃って(かな?)トピックモ…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。 極大部分文字列を使った twitter 言語判定 View more presentations from Shuyo Nakatani 論文は下記ページにて公開済み。 極大部…

3DS で TokyoNLP に行ってきた日記を描いたよ!

お使いのデバイスによっては3Dに見えないことがあります。あらかじめご了承ください。

極大部分文字列を使った twitter 言語判定(中谷 NLP2012)

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…

EMNLP 読み会で Extreme Extraction - Machine Reading in a Week(Freedman+) を読みました

nokuno さん主催の EMNLP 読み会にのこのこ参加。 広く浅くがモットーなので、論文読み会ではできるだけあんまり知らない領域の論文を選ぶことにしている。ということで今回は "Extreme Extraction - Machine Reading in a Week"(Freedman+) という論文を選…

ツイートの表現を正規化(Cooooooooooooooollllllllllllll => cool)

EMNLP 2011 でひときわ目を引くタイトル "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs" (Brody & Diakopoulos) は、twitter 上での表現を評判分析に使う話。 Cooooooooooooooollllllllllllll …

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011)

9/3 の ACL 読み会で読む [Hu+ ACL11] Interactive Topic Modeling(ITM) の資料です(途中ですが力尽きましたすいません……)。【追記】 ディリクレ木と Interactive Adding Constraints and Unassigning(←これがこの論文のキモ!) についての説明を追加しまし…

「はじめての生成文法・後編」を TokyoNLP で発表してきました。

早第6回となった自然言語処理勉強会@東京(#TokyoNLP)にのこのこ行ってきた。 主催者の id:nokuno さん、会場を提供して下さった EC ナビさん(@ajiyoshi さん)、発表者参加者の各位、お疲れ様でした&ありがとうございました。 第6回 自然言語処理勉強会 #To…

はじめての生成文法・前編 - #TokyoNLP 5

第5回 自然言語処理勉強会@東京 にのこのこ行ってきました。 いつもいつもありがとうございます>主催の @nokunoさん、会場の ECナビさん(@ajiyoshiさん)、発表者、参加者の皆さん 今回も、いつものように新境地で「生成文法」について発表させてもらった………

CICLing 2011 行ってきました

早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議…

第4回 自然言語処理勉強会@東京 #tokyonlp

第4回 自然言語処理勉強会@東京 : ATNDに のこのこ行ってきました。主催の id:nokuno さん、参加者&発表者のみなさん、そして会場提供して下さった EC ナビさん、ありがとうございました&お疲れ様でした。 第4回 #TokyoNLP - Togetter 詳しい内容は noku…

統計的機械学習セミナー (2) 教師無し&半教師分かち書き

昨日の続き。 持橋さんの教師なし&半教師分かち書きについて、わかる範囲で説明してみる。 「分かち書き」とは文章を単語に区切ること。日本語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日…

統計的機械学習セミナー (1) sequence memoizer

統計数理研究所にて行われた第2回統計的機械学習セミナーにのこのこ参加してきました。 http://groups.google.com/group/ibisml/browse_thread/thread/092f5fb3d45a91ea/8cae858cb8bfc00c 今回はノンパラメトリックベイズ特集ということでか、Yee Whye Teh …

独断と偏見によるノンパラ入門

「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。 機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。 ノンパラの一番素朴なやつ( K-means とか)は本当にパラメータ無…

言語判定ライブラリの英語版プレゼン資料

言語判定ライブラリですが、せっかく49言語対応しているので、おそまきながら英語の資料も作成。 Language Detection Library for Java from Shuyo Nakatani 英語はとても苦手なので、この英語はおかしいとかあればご指摘いただけたらとても嬉しいです。

WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010

11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズが本フォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時…

第3回自然言語処理勉強会@東京 #tokyonlp

第3回自然言語処理勉強会@東京 ( #tokyonlp ) に例によってのこのこ行ってきました。お疲れ様でした&ありがとうございました>主催、発表、参加各位。 長丁場なのが玉に瑕? っていつもは主犯の一人だけど(汗 第3回自然言語処理勉強会@東京 : ATND 第3回…

極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長…

EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4本+5本紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手…

FSNLP 5.4 Mutual Information(相互情報量) 追伸

ちょっと前に "Foundations of Statistical Natural Language Processing"(FSNLP) 5.4 の Mutual Information(相互情報量)について書いた。 http://d.hatena.ne.jp/n_shuyo/20100827/fsnlp そこで Pointwise Mutual Information(PMI) についての説明にいろい…

第2回 自然言語処理勉強会@東京

遅ればせながら 第2回 自然言語処理勉強会@東京 の感想。 まず、自分の発表「ナイーブベイズで言語判定」についていくつかフォロー。 長時間発表してしまって聞く方も疲れただろうに、いっぱい質問や意見をいただけたことを感謝。 「なぜナイーブベイズ? …

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました

第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani…

「Web本文抽出 using CRF」の学習用データの作り方

第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度…

FSNLP 5.4 Mutual Information(相互情報量)

NLP

"Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ本)を読んでいるが、5.4 Mutual Information で詰まった。 書いてあることがいろいろ腑に落ちない。 まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「本当に…

ほどよく不自然な言語をつぶやき続けるスクリプト

Baidu さんちの不自然言語処理コンテスト用に何かネタを思いついたら作ってみようかな〜、とぼんやりしているうちに締め切りが過ぎていた。 と、残念がっていたらなんか締め切りが1日伸びたようなので、このまえ作っていた 不自然言語処理コンテストのコー…

最近読んだ論文(半教師CRF、教師有りLDA、TextRank)

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわ…

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き。おもしろいことになってきました。 FSNLPに書いてあった「ランダムにアルファベット+空白を生成、それを空白区切りの「単語」の列と考えると、それらの単語の頻度分布が Zipf に従う」を試したところ、…

自然言語処理勉強会@東京 第1回

id:nokuno さん主催の自然言語処理勉強会@東京にのこのこ行ってきた。 主催者、発表者、参加者、そして会場を提供してくださった mixi さん、みなさんありがとうございました。 こんな機会を自分で作ることは出来ないので、次回も是非何か作って参加したい…

Zipf則はなぜ成り立つのかの理論的裏付け

今日の自然言語処理勉強会@東京にて、Zipf則(ベキ分布)の理論的裏付けとして、ランダムにアルファベット+空白を生成、それを空白区切りの「単語」と考えると、それらの単語の頻度分布が Zipf に従うんだよ、的なお話が FSNLP に書いてあった。 へーで終わ…

自然言語処理勉強会@東京 第1回 の資料

本日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った本文抽出モジュール を機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional …