最近読んだ論文(半教師CRF、教師有りLDA、TextRank)

読んだ自然言語処理機械学習の論文を twitter でちょこっと紹介してみたりしている。
さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。


というわけで、はてなダイアリーtwitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。
再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。

半教師CRF

"Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006)
http://www.metabolomics.ca/News/publications/Jiao_et_al.pdf

教師有りLDA

"Supervised Topic Model" (Blei+ NIPS2007)
http://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdf
"Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora" (Ramage+, EMNLP2009)
http://www.aclweb.org/anthology/D/D09/D09-1026.pdf

  • tsubosaka さんの言いたかったことは、ラベルとトピックに転移確率を設定したりとかいうことかな? と後でよく考えたら思った。
  • Labeled LDA は実装してみた https://github.com/shuyo/iir/blob/master/lda/llda.py

TextRank

"TextRank: Bringing Order into Texts" (Mihalcea+, EMNLP2004)
http://www.aclweb.org/anthology/W/W04/W04-3252.pdf
"Improved automatic keyword extraction given more linguistic knowledge" (Hulth, EMNLP2003)
http://acl.ldc.upenn.edu/acl2003/emnlp/pdf/Hulth.pdf