第3回自然言語処理勉強会@東京 #tokyonlp

第3回自然言語処理勉強会@東京 ( #tokyonlp ) に例によってのこのこ行ってきました。お疲れ様でした&ありがとうございました>主催、発表、参加各位。
長丁場なのが玉に瑕? っていつもは主犯の一人だけど(汗

FSNLPの3章を読む」 by @ さん

文法について一通り。数理モデル一切無し、もろ言語学(の入り口)。
FSNLPの3章は一通り読んではいたが、背景知識も含めてまとめてくださっていたので、とても助かる。
言語学オススメ基本図書 #gengo - Togetter でおすすめされてた「言語の脳科学」をちょうど読み始めていて、今当たり前のように言語を数理モデルで扱っているけど、それはとても最近始まったことで、それより前の膨大な蓄積をちゃんと活かさないとダメだなあとか思わせてくれる。
資料は後ほど公開とのこと。→公開されました!

「うきうき☆Compressed Suffix Array」 by @ さん

Suffix Array を使った圧縮検索の原理の話。
この後話すように、ちょうど suffix array を触り始めているので、とってもわかりやすくてありがたい。
定兼先生の csalib を光成さんが試しているのを見せてもらったが、全文検索できるインデックス込みで 1/4 のサイズになるというのは、原理周りを聞いてもまだ本当に魔法のようにしか思えない(苦笑)。

「統計的形態素解析入門」 by @ さん

形態素解析のモデルと実装。
形態素解析は地味だけど、自然文で何かしようと思ったら必ず必要になる&ここでの誤差があとあと全てに効いてくる処理。
mecab のおかげで日本語の処理をしたい人は本当に助かってますよね〜。とはいえ、本気で使おうと思ったらドメインごとに辞書を作らなければならない(高コスト!)なのはやっぱり避けがたいようで。

「統計的係り受け解析入門」 by @ さん

またまた言語学寄り。ちょうど読んでた(そしてギブアップした) EMNLP 2010 の Best Paper に出てた言葉がいっぱい。
@hitoshi_ni さんと @unnonouno さんの資料はおそらく今後何度か見返させてもらうこと必至。
やっぱり「言語処理学事典」は買わなきゃダメだな。というわけで注文完了。CD-ROM 版なところが弱いけど(苦笑)。

「EMNLPの論文を読む+おまけ」 by @

自然言語処理は本当に始めたばかりなのでとにかく知識がない。自分の見識を広げるために手当たり次第論文を読むのを、「広く浅く論文を読むススメ」として EMNLP 2010 から9本の論文を紹介させてもらった。
広いのはたぶん良かったが、ちょっと浅すぎたかも。id:tsubosaka さんなどからのいろいろなつっこみに「あーすいません、そこはわかりません」とか逆に質問するとか多すぎた気がしないでもない(苦笑)。でも「"Negative training data can be harmful to text classification" がとても気になった…(中略)…後でざっと読んでみた」(sleepy_yoshi さん)と紹介した論文への興味を喚起することに成功しているので、一応お題目は達成した、ということで。
9本の論文紹介は twitter でつぶやきまくった内容のまとめになっていて、そちらを読んでいただけた人には目新しいことがあんまりないかも+いつもならなにがしか実装を持って行っているのに、というあたりもあり、岡野原さんの「全ての部分文字列を考慮した文書分類」の紹介と極大部分文字列抽出のナイーブな検証用実装をおまけ(というと失礼か)として持ってきた。実はここしばらくで一番読み込んでいるのはこの論文(と参照先)なもので。
この極大部分文字列の抽出に echizen_tm さんが説明された suffix array を使っている。結構面白い素性(候補)が抽出される&3〜5-gram くらいの素性数なので、有効であれば結構面白そう。


ますます本格的な内容になっていく自然言語処理勉強会。次回はまだ日取りが決まってないけど、他の用事とかぶってなければ参加予定。
自然言語処理機械学習もちっとも専門ではないのになぜか発表皆勤。でしゃばり?w