WebDB Forum 2011 で「 CRF を使った Web 本文抽出」を発表してきました

昨年に引き続き、今年も WebDB Forum 2011サイボウズの企業セッションでの発表の機会をいただきましたので、「 CRF を使った Web 本文抽出」について話をさせていただきました。



この発表は、過去に2回(自然言語処理勉強会@東京(TokyoNLP) 第1回、確率の科学研究会 第1回)で話をさせてもらったことと、WebDB Forum という場であること、さらに発表時間が 20分*1ということを考えて、今回は非常にスリムな内容になっています。
CRF についてはズバッとはしょって、その代わりに系列ラベリングを本文抽出に使うというのはどういうことか、という図を入れましたので、さらっと読むには一番わかりやすいのでは、と思っています。
この資料の後、手法についてもう少し細かいところを見たければ TokyoNLP での資料を、CRF についてということだと確率の科学研究会での資料を見てもらうといいかもしれません。


あとは、質疑応答でいただいた質問について、憶えている範囲でまとめておきます。

ここから精度を上げるのに、データと特徴量(素性)のどちらの方が効くという感触はあるか

現在はデータがさすがに少なすぎるので、もう少し(せめて恥ずかしくない程度にw)データを増やしてから、ということは前提とした上で、素性の方にはまだまだ工夫の余地があるだろうと考えています。
例えばキーワードについては、ExtractContent を開発したときの経験に基づいて手動で選んでいるのですが、これももっと機械的に大量に選んで、 L1 正則化を特徴選択的に使って有効なキーワードを絞り込む、などということが考えられると思います。

ブログのトップページのように複数の記事の羅列からなるページの場合、ExtractContent ではおおむね先頭の記事1つだけが本文として抜かれてしまうが、本方式を使えば複数の本文がそれぞれ取得できるか

試してませんが、十分可能だと思います。
1ページ内のそれぞれの記事に title, body, comment の3つ組みラベルが振られる
そういうタイプの訓練データもあれば、それなりの精度も確保できるのでは、という期待もできます。

*1:過去2回はどちらも1時間オーバーwww