読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。
さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。
というわけで、はてなダイアリーの twitter 記法で試しにまとめてみたのだが、うーん、決して見やすくはないなあ……。
再編集してまで紹介したい論文なら、別途記事を書けばいいし。悩ましい。
半教師CRF
- "Semi-Supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling" (Jiao+, COLING/ACL 2006)
- http://www.metabolomics.ca/News/publications/Jiao_et_al.pdf
@shuyo: 半教師CRFの論文(Jiao+ COLING/ACL 2006)。モデルはCRFのまま。ラベル有り無しデータを元にエントロピーを最大化。この式は計算するの大変だぞ?という直感通り、学習の計算量は系列長^2*状態数^3に比例。
@shuyo: (半教師CRFつづき)精度は生CRFに対しbest caseで20%向上。でもラベル無しデータを増やしても実験の精度が上がってない。といっても最大でラベル有りデータの5倍程度。きっともっと増やしたいけど、計算量が足かせに。
教師有りLDA
- "Supervised Topic Model" (Blei+ NIPS2007)
- http://www.cs.princeton.edu/~blei/papers/BleiMcAuliffe2007.pdf
- "Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora" (Ramage+, EMNLP2009)
- http://www.aclweb.org/anthology/D/D09/D09-1026.pdf
@shuyo: Blei の supervised LDA の論文読んだけど、観測変数として与えるのはドキュメント(単語列)とドキュメントの評価(連続値)の組み合わせ、という欲しいのとちょっと違うやつだった。
@shuyo: Ramage の Labeled LDA は、単語列とドキュメントのラベルを与える。これこれ欲しいのはこれですよ。さらっと眺めた感じだと、Collapsed Gibbs sampling で LDA を実装したことがあれば簡単に実装できそう。
@shuyo: Ramage+のLabeled LDA(EMNLP2009)をもうちょっとちゃんと読んだ。あまりにもLDAそのまんますぎて、これで本当にうまくいくんかいな?と思っちゃうw Λを全部1にすれば、半教師的にも使える?
@tsubosaka: @shuyo Labeled LDAはトピックとラベルが1:1で対応してて、その辺がどうなのかなと思ってたのですが使えると面白いですね
2010-07-15 01:05:19 via web to @shuyo
@shuyo: @tsubosaka そこ気になってました。トピック>ラベルにして、余りトピックは常に1にすれば、共通語やunlabeledな単語が分類されて精度が上がるんじゃあない?? とか想像してみたり。まあ実装難しくなさそうなので、動かして確認してみようかと。
- tsubosaka さんの言いたかったことは、ラベルとトピックに転移確率を設定したりとかいうことかな? と後でよく考えたら思った。
- Labeled LDA は実装してみた https://github.com/shuyo/iir/blob/master/lda/llda.py
TextRank
- "TextRank: Bringing Order into Texts" (Mihalcea+, EMNLP2004)
- http://www.aclweb.org/anthology/W/W04/W04-3252.pdf
- "Improved automatic keyword extraction given more linguistic knowledge" (Hulth, EMNLP2003)
- http://acl.ldc.upenn.edu/acl2003/emnlp/pdf/Hulth.pdf
@shuyo: TextRank[Mihalcea+ EMNLP2004] 読んだ。テキストから重み付きグラフを生成してキーワードや要約抽出。重みは単語間の共起度やセンテンス間の類似度。ALAGINの単語共起頻度DBが手元にあるから、今度試してみるかな?。
@shuyo: TextRank論文から参照されてた、supervisedなキーワード抽出(Hulth EMNLP2003)がちょっと気になった。おもしろいのかな?