本日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの本文抽出 using CRF」の資料(自己紹介は除く)です。
以前、Ruby で作った本文抽出モジュール を機械学習の技術を使って作り直してみたら、というお話。
CRF は Conditional Random Fields の略。
実装はこのあたり。
- http://github.com/shuyo/iir/blob/master/sequence/crf.py
- http://github.com/shuyo/iir/blob/master/sequence/pg.py
- http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py
【追記】
学習用データの作成方法についてまとめました。
【/追記】