この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。
EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4本+5本紹介しています。質より数で勝負。
論文を広く浅く読むススメ(仮)
- 「たまたま手近にあった方法論」に固執する可能性
- by 持橋さん (IBIS 2010 のオープニングセッションにて)
- 例)関係ない、関心ない、難しくてわかるわけないから(読んでも|聞いても)ムダ
- 例)読めそうな、わかりそうな論文だけ読む
- 例)とりあえずナイーブベイズ、その枠内でどこまでも泥臭く
- 論文を手当たり次第に、広く浅く読んじゃおう
- 1本あたり1〜2時間
- 目安は「twitter で2,3回つぶやけるくらい」(ぇ
- もちろんちゃんと読む論文はちゃんと読むんだけどね
- でも、まだ自然言語処理の勉強始めたばかり
- わかって読んでる、という自信はない(キリッ
- タイトルに使われている用語すら知らないとか
[Boyd-Graber, Resnik] Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation
- supervised LDA (Blei+ 2007) を複数言語に拡張
- 言語横断で感情の予測を行う
- 感情予測に辞書や synsets などの情報を使う
supervised LDA (Blei+ 2007)
- Latent Dirichlet Allocation (Blei+ 2003) + response variable Y_d
- Y はレビューの点数や感情・意見などを表す実変数
- Draw response variable
MLSLDA (Boyd-Graber+ 2010)
- SLDA + 左の "Multilingual Topics" の部分
- h: synset, l: language
- Draw transiton probabilities
- Draw stop probabilities
- Draw emission probabilities for that synset
- LDA の単語の位置には (synsets の) path λ が来る。path から単語の生起確率はφ
- path といっても抽象的な識別子なので、辞書の場合は項目番号などに該当
- 単語の生起確率に辞書や synsets の情報を反映できることで予測精度を向上
実験
[Zhao, Jiang, Yan, Li] Jointly Modeling Aspects and Opinions with a MaxEnt-LDA Hybrid
- 従来手法では aspect 固有の opnion words を扱えない
- Maximum Entropy (Markov Model) と LDA を統合したモデルを持ち込むことで、aspect 固有の opinion words を扱うことが可能に
グラフィカルモデル (Zhao+ 2010)
- 矢印が全部 w に集まってる……。観測変数も多い……。
- もちろん exact には解けない(Forward-Backword Propagation も使えない)ので、MCMC で解く
- 更新式は論文見てね!
実験
- データセット:レストランレビュー、ホテルレビュー
- Gibbs sampling 500回 iterations
- LocLDA(Brody+ NAACL2010:未読) と比較
[Murata, Ohno, Matsubara] Automatic Comma Insertion for Japanese Text Generation.
- 日本語のカンマ(読点)は外国人には難しい
- 何通りもの usage がある(節の区切り、並列、などなど)
- テキストからカンマを打つべき場所を自動的に見つける
- 音声認識では息継ぎの間などをヒントに使ったりするが、この研究はテキストのみを対象としている
手法
- カンマの使われ方を分析、9通りに分類
- commas between clauses
- commas indicating clear dependency relations
- commas for avoiding reading mistakes and reading difficulty
- commas indicating the subject
- commas inserted after a conjunction or adverb at the beginning of a sentence
- commas inserted between parallel words or phrases
- commas inserted after an adverbial phrase to indicate time
- commas emphasizing the adjacent word
- other
どのような節の後にカンマが打たれるか(Murata+ 2010)
- これらを 20 パターンの素性テンプレートとして表現、MaxEnt で解く
- 文節の列 B = b_1...b_n
- カンマ列 R = r_1...r_n (r_i = 1 なら b_i の後ろにカンマを入れる)
- カンマによって文節を m 個の部分列に分ける
- (j=1, .., m), (k=1, .., n_j-1),
(Murata+ 2010)
実験
[Zhao, Gildea] A Fast Fertility Hidden Markov Model for Word Alignment Using MCMC
統計的機械翻訳って?
- 日本語の文章を英語に翻訳したいとき、真の「英語の元テキスト」が雑音のある通信路を経て「手元にある日本語の文章」になっている、と考え、事後確率 P(英語|日本語) を最大化することで「英語の元テキスト」を推定する
モデル
一般に f_1^J:ソース, e_1^I:ターゲット (つまり英語 e をフランス語 f に翻訳), 単語アライメント a_1^J に対し、
(Zhao and Gildea 2010)
- ただしターゲット e_1^I には I+1 個の "empty words" を追加して考える
- 必ずしも翻訳語が1対1に対応するわけではないのをうまくモデル化するため?
- 翻訳モデルに fertility φ_1^I と φ_ε を導入
- fertility φ_i は target e_i にひもづく source f_j の個数
- empty words e_i (i=I+1, .., 2I+1) の分は合計して φ_ε に
(Zhao and Gildea 2010)
- HMM 翻訳モデルについて、fertility 導入前と後
- P(f|e) の計算にはアライメント, fertility ともに効いてくる
- これを Gibbs sampling で推論
左:HMM, 右:HMM with fertilities(Zhao and Gildea 2010)
- IBM Model 1 については省略
実験
左:Allignment Error Rate, 右:Training Time(Zhao and Gildea 2010)
- fertility の導入による精度の向上を確認
- シンプルで高速なモデルで、IBM Model 4 に匹敵する精度
- Fertility 付き HMM が、生 HMM より速いのは 前者が Gibbs sampling、後者が Viterbi なため
その他、短く紹介
- [Mejer+ 2010] Confidence in Structured-Prediction using Confidence-Weighted Models
- CW linear classification を系列ラベリングに適用してCRFと比べる
- NP chunking タスクで比較
- だいたい CRF に負けているが、NER Spanish ではわずかに勝っている(たまたま線形分離しやすかったとか?)
- 「オンラインなので速い&融通が利く割りに精度もそこそこ悪くない」ということかな
- [Navigli+ 2010] Inducing Word Senses to Improve Web Search Result Clustering.
- [Agarwal+ 2010] Automatic Detection and Classification of Social Events.
- ACE(Automated Content Extraction) タスク http://www.itl.nist.gov/iad/mig/tests/ace/
- テキストから social events(人物を含む対象が他の対象に対して知ってる/何かすること)を抽出
- 手法は……式が1つもなかったので,よく理解できなかった(苦笑)
- 代名詞の同定とかどうするんだろう。それは別のタスク?
- 参照されていた Extracting Social Networks from Literary Fiction(Elson+ ACL2010)もおもしろそう。Austinの作品などから登場人物関係図を抽出。
- [Li+ 2010] Negative Training Data can be Harmful to Text Classification.
- [Yao+ 2010] Collective Cross-Document Relation Extraction Without Labeled Data.
- こちらもドキュメントからの抽出タスク。relation の抽出をドキュメント横断で行う。
- mention や relation を MEN/JOINT/PAIR などのバイナリ素性でつなぎ、CRF で事後確率を評価。Linear Chain ではないので MCMC で推論
- isolated(素性はBIASとMENTIONのみ), joint(フル), pipeline(iso部で推論→それを固定してjointの推論)という3パターンで実験。jointが一番良さそうなのに必ずしもそうでないのがおもしろい。
- "Without Labeled Data" と言いつつ、openNLP POS tagger でデータにタグ付けしてることが気になる。"Labeled" って何を指しているんだろう。正解? unsupervised ってこと?