最近読んだ論文(半教師CRF、教師有りLDA、TextRank)

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。
さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え２個３個の tweet には分離してしまうあたりが減点。

というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。
再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。

"Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006): http://www.metabolomics.ca/News/publications/Jiao_et_al.pdf

@shuyo: 半教師CRFの論文(Jiao+ COLING/ACL 2006)。モデルはCRFのまま。ラベル有り無しデータを元にエントロピーを最大化。この式は計算するの大変だぞ?という直感通り、学習の計算量は系列長^2*状態数^3に比例。

@shuyo: (半教師CRFつづき)精度は生CRFに対しbest caseで20%向上。でもラベル無しデータを増やしても実験の精度が上がってない。といっても最大でラベル有りデータの5倍程度。きっともっと増やしたいけど、計算量が足かせに。

@shuyo: (半教師CRFつづき)エントロピーの式はとてもきれいなので、筋は悪くなさそうなのだけど、「ラベル無しデータを増やすのに限界がある半教師」というのが最大の難点かw

"Supervised Topic Model" (Blei+ NIPS2007): http://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdf
"Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora" (Ramage+, EMNLP2009): http://www.aclweb.org/anthology/D/D09/D09-1026.pdf

@shuyo: Blei の supervised LDA の論文読んだけど、観測変数として与えるのはドキュメント(単語列)とドキュメントの評価(連続値)の組み合わせ、という欲しいのとちょっと違うやつだった。

@shuyo: Ramage の Labeled LDA は、単語列とドキュメントのラベルを与える。これこれ欲しいのはこれですよ。さらっと眺めた感じだと、Collapsed Gibbs sampling で LDA を実装したことがあれば簡単に実装できそう。

@shuyo: Ramage+のLabeled LDA(EMNLP2009)をもうちょっとちゃんと読んだ。あまりにもLDAそのまんますぎて、これで本当にうまくいくんかいな?と思っちゃうｗ　Λを全部1にすれば、半教師的にも使える？

@tsubosaka: @shuyo Labeled LDAはトピックとラベルが1:1で対応してて、その辺がどうなのかなと思ってたのですが使えると面白いですね

@shuyo: @tsubosaka そこ気になってました。トピック＞ラベルにして、余りトピックは常に1にすれば、共通語やunlabeledな単語が分類されて精度が上がるんじゃあない?？　とか想像してみたり。まあ実装難しくなさそうなので、動かして確認してみようかと。

"TextRank: Bringing Order into Texts" (Mihalcea+, EMNLP2004): http://www.aclweb.org/anthology/W/W04/W04-3252.pdf
"Improved automatic keyword extraction given more linguistic knowledge" (Hulth, EMNLP2003): http://acl.ldc.upenn.edu/acl2003/emnlp/pdf/Hulth.pdf

@shuyo: TextRank[Mihalcea+ EMNLP2004] 読んだ。テキストから重み付きグラフを生成してキーワードや要約抽出。重みは単語間の共起度やセンテンス間の類似度。ALAGINの単語共起頻度DBが手元にあるから、今度試してみるかな?。

@shuyo: TextRank論文から参照されてた、supervisedなキーワード抽出(Hulth EMNLP2003)がちょっと気になった。おもしろいのかな？