木曜不足

自然言語処理勉強会＠東京第1回の資料

自然言語処理 NLP CRF 本文抽出 TokyoNLP

本日の tokyotextmining こと自然言語処理勉強会＠東京第1回で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。
以前、Ruby で作った本文抽出モジュールを機械学習の技術を使って作り直してみたら、というお話。
CRF は Conditional Random Fields の略。

Web本文抽出 using crf from Shuyo Nakatani

実装はこのあたり。

【追記】
学習用データの作成方法についてまとめました。

http://d.hatena.ne.jp/n_shuyo/20100921/extract

【／追記】