EMNLP 読み会で Extreme Extraction - Machine Reading in a Week(Freedman+) を読みました

nokuno さん主催の EMNLP 読み会にのこのこ参加。
広く浅くがモットーなので、論文読み会ではできるだけあんまり知らない領域の論文を選ぶことにしている。ということで今回は "Extreme Extraction - Machine Reading in a Week"(Freedman+) という論文を選んでみた。
Information Extraction 系のお話は興味あるんだけど、そのお話をするのにほぼ必須となる NER(Named Entity Recognition) まわりに毎回跳ね返されてた。まあでも何回かチャレンジしてきた中でそこそこ蓄積があったみたいで、今回はなんとか読めそうだな〜という感触。
どうも NER まわりは独自の文化というかコンテキストとがある感じがするよなあと思ってたのだけど、sleepy_yoshi さんも同じようなことを言われていたので、心強かったりw


というわけでこちらが発表資料。



論文をちらっと眺めると、やたら "2 hours" とか "43 hours" とかいった記述が目に付く。「わずか 50時間で、既存の relation extraction システムを新しい relation に対応させた」という内容なので、この作業にはこれだけかかった、などの主張がいちいち入っているのだ。まあそれはそれでいいんだけど、そのためどうも実際に作業を行った時系列に書かかれる構成になっているようで、理解のための構成にはなっていない。
また「既存の relation extraction システム」についての詳細は不明。参照先論文としてすら触れられていない。


一方、参照論文 [Kozareva+ 08] Semantic Class Learning from the Web with Hyponym Pattern Linkage の DAP(Double-Anchored Pattern) という手法がおもしろかった。"disease such as cold and" といった形のクエリーを検索エンジンに投げると、"and" の後に disease クラスの新しいメンバーが出てくるので、それをまた seed に使ってどんどん探していく、というもの。
そんな狭い表現だとヒット件数少なくてうまくいかないんじゃあ、と思ったが、試しにやってみたら意外といい感じ。そのためした様子は資料に書いてあるので、興味あれば。


次は NIPS 読み会。