自然言語処理

「Web本文抽出 using CRF」の学習用データの作り方

第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度…

ほどよく不自然な言語をつぶやき続けるスクリプト

Baidu さんちの不自然言語処理コンテスト用に何かネタを思いついたら作ってみようかな〜、とぼんやりしているうちに締め切りが過ぎていた。 と、残念がっていたらなんか締め切りが1日伸びたようなので、このまえ作っていた 不自然言語処理コンテストのコー…

最近読んだ論文(半教師CRF、教師有りLDA、TextRank)

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわ…

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き

「Zipf則はなぜ成り立つのかの理論的裏付け」の続き。おもしろいことになってきました。 FSNLPに書いてあった「ランダムにアルファベット+空白を生成、それを空白区切りの「単語」の列と考えると、それらの単語の頻度分布が Zipf に従う」を試したところ、…

自然言語処理勉強会@東京 第1回

id:nokuno さん主催の自然言語処理勉強会@東京にのこのこ行ってきた。 主催者、発表者、参加者、そして会場を提供してくださった mixi さん、みなさんありがとうございました。 こんな機会を自分で作ることは出来ないので、次回も是非何か作って参加したい…

Zipf則はなぜ成り立つのかの理論的裏付け

今日の自然言語処理勉強会@東京にて、Zipf則(ベキ分布)の理論的裏付けとして、ランダムにアルファベット+空白を生成、それを空白区切りの「単語」と考えると、それらの単語の頻度分布が Zipf に従うんだよ、的なお話が FSNLP に書いてあった。 へーで終わ…

自然言語処理勉強会@東京 第1回 の資料

本日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った本文抽出モジュール を機械学習の技術を使って作り直してみたら、というお話。 CRF は Conditional …

NLP2010 行ってきた

ほとぼりがさめた頃に NLP2010(言語処理学会年次大会) に のこのこ行ってきた話など。 参加したのは、 3/8 のチュートリアルと、3/10 のポスターセッション(午後)。 チュートリアル午前はどちらも興味あったが、ちょうど協調フィルタ周りでいろいろ試してい…