NLP2010 行ってきた

ほとぼりがさめた頃に NLP2010(言語処理学会年次大会) に のこのこ行ってきた話など。
参加したのは、 3/8 のチュートリアルと、3/10 のポスターセッション(午後)。


チュートリアル午前はどちらも興味あったが、ちょうど協調フィルタ周りでいろいろ試していることもあって、@shima__shima さんの「推薦システム −機械学習の視点から−」を拝聴する。っていうか、あの2つを同じコマでやらんといてほしい。


内容はリコメンド技術を俯瞰するお話。
Itembased とか pLSI とか、今つまみ食いしているものがどういう位置関係にあるかがわかってありがたい。
また、プライバシー周りの話は今まで全然意識していなかったが、これから先データが大きくなればなるほどおもしろくなったり有利になったりとか、SaaS で複数のクローズドな情報が1カ所に集まっていて、こいつら横断できたらめっちゃすごいことできんのに〜とか、そういうあたりを見据えたら、どんどん必須になっていく(あるいは差別化要因になっていく)技術だろうと、強く感じる。
とりあえず身近なところでは、プライバシーの保障がきちんと出来るのなら、英単語ゲーム iVoca の学習データを応用や集計が可能な形で提供する、なんて可能性だって考えられるわけで*1


@shima__shima さんにはこのブログのコメント欄などで日頃お世話になっているから挨拶だけでもしたいなあと思い、id:syou6162 さんが質問に行くのに便乗して、名刺を押し頂いてきた(自分の名刺を持っていくのを忘れたのが痛恨)。
質問に来たっぽいのにろくに発言もせず、頭だけ下げていった変な奴、と思われてるかもしれない(苦笑)。


チュートリアル午後1は「並列テキスト処理のための環境・ツール(EC2上での並列処理体験付き)」。
正直に告白すると、「EC2上での並列処理体験」に釣られたw
39個のインスタンスにズバッと命令を投げるのはそれなりに楽しかったけれど、@nokuno さんのつぶやきが端的に語っているとおり。
もう少し並列処理にスポットを当てて欲しかったな!
ここで会社に戻ったので、チュートリアル午後2は聞かず。どっちもおもしろそうだったけれど。


ポスターセッション(午後)。
人の多さは予想の範囲内だったが、会場が思ってたより小さくて身動きできず。東大むっちゃ広いのになんであんな狭いところでぎゅうぎゅう……


人口密度への愚痴はともかく、興味を引いたものをぼちぼち聞いてきた。
全然専門ではないので、感想レベル&憶えている範囲でまとめ。

Khafra:語順並べ替えモデルに対応した動的計画法に基づくSMTデコーダ
Moses と同じ精度で速くなったよ! な話。統計翻訳はいつごろ実用レベルになるかなあ。いずれは必ずルールベース翻訳を上回ると確信してるんだけど。
ルールベース翻訳を前処理に用いた統計翻訳
複数のルールベース翻訳を統計翻訳で束ねる。一種の合議制? 入力になんでももってこれる統計翻訳のエンジンならでは?
統計的語彙情報に基づく日本人学習者の英語習熟度の分析
英語学習者に英作文させて、統計翻訳(ここもか!)のエンジンに突っ込んで、尤度をその学習者の習熟度とする、というお話。TOEIC の点数との相関係数が 0.5 なくてチョンボ、というオチだったが、アイデアはおもしろい。
モバイル検索システムのための絵文字に対する意味解析
携帯の絵文字の意味解析。相関関係が似ている言葉と意味が近いはず、とか。期待する精度にはまだ達してないんだろうなあ。携帯だとメールが主だろうから、コーパス集めも大変そう? 逆にコーパスが十分に大量にあれば精度あがるのかな?
Towards Fully Automatic Emoticon Analysis System (^o^)
顔文字分析、というより生成? 由緒ある表情の分類をベースに顔文字への射影を構成し、その像はほらこんなに大きいよ! という話。ちょっとおもしろいかも、と最初思ったが。現実のデータとつきあわせた場合の定量的な評価がもう少しちゃんとあれば。


というわけで NLP2010 おもしろかったです。
願わくはもっと参加できれば良かったが、べったり張り付いているわけにも行かず。

余談1

予稿集は申し込まなかったのだが やっぱり欲しくなる。
余ってて買えたりしないかなあと思って、ポスターセッションが終わった後に大会本部を覗いてみたのだが、もう閉まってた。
残念。心残り。

余談2

大会本部に参加証を持って行くと、予稿集とか申し込んでた人はそこで渡してもらえるのだが、係の人が つきあわせのために紙の名簿の束をものすごい勢いでめくっていた。
情報処理……学会………………!!!

*1:今の利用規約のままでよいかどうかは未検証。ま、いまのとこは単なる可能性のお話