第4回 自然言語処理勉強会@東京 #tokyonlp

第4回 自然言語処理勉強会@東京 : ATNDに のこのこ行ってきました。主催の id:nokuno さん、参加者&発表者のみなさん、そして会場提供して下さった EC ナビさん、ありがとうございました&お疲れ様でした。

詳しい内容は nokuno さんによるまとめ を参照してもらって、ここではとっても短く紹介&感想。

N-gram Language Model for Speech Recognition by @さん

音声認識言語モデル言語モデルとしての性能と認識精度はまた別だよ、が一番響いた。
デモが動いていた。「料理のレシピで学習させたから、料理の話題なら正しく認識できる」ということがきちんと示せていたことにももちろんすごく感心したけど、「料理以外の話題だとボロボロ」もとてもおもしろかった。
特定話者に最適化とかしているわけではないので、 @ さんがしゃべっても認識されていたのもすごい。でも、「ajiyoshi さん自身はシステムに最適化していない」ので、言い淀みや「えー」というフィラーがあった。ということは逆に y_shindoh さんにはそれが全然無かったことにそこで初めて気づいて、また感心(笑)。
携帯での音声認識は、端末で素性の抽出をしてサーバに送っているとかも興味深い(電話を通した音声は全く違う音になる)。


超個人的な話で言うと、@ さんのイメージは「ナタリーのムーンライダーズのニュースを RT する人」だったんだけど、「非可換環論の人」というイメージに変わった。

Burst Detection from Stream 〜流行に疎いぼくらが流行を知る方法〜 by @さん

ストリームからのイベント検出のお話。
イベントの間隔を素性にバーストを検出する……ん? あれ?
たしか最初に「イベント」とは「通常予測できる範囲外の現象」といった感じで定義されていたように思うんだけど、だとすると「バースト」がイベントだな。「イベントの間隔」とは言ってなかったかな。
ところで単純な興味なんだけど、これってパーティクルフィルタとかモンテカルロ系の手法では解けたりする?

Confidence WeightedをLearning to Rankに適用してみた by id:tkng さん

Learning to Rank まわりはちょっと一通りやっておきたいと思い始めているので、ちょっとまじめにメモメモ。
紹介してはったチュートリアル資料も後で読んでおこう。
評価手法の NDCG がいまいちよくわからなかったんだよなあ。自分で手を動かさないとダメだな。

統計的機械翻訳入門 by id:nokuno さん

前回の tokyonlp にて、EMNLP の論文を9本紹介さしてもらったとき、統計的機械翻訳ネタの論文があったんで軽〜く入門。そのときに「誰か tokyonlp で機械翻訳やらないかなあ」とか思ってたんで、まさにぴったり(笑)。
メインは単語アライメントを欠損値として EM で推定する方法について。自分で実装するのはめんどくさそうだ……。

Frequency based IRM by @ さん

IRM(Infinite Relational Modeling) で頻度を使うようにした FIRM について紹介。
単語の共起関係からクラスタリングを行う。今ちょうど FSNLP の8章を読んでるんで、selectional preferences(選択選好) とか semantic similarity とかの話だよなあ、とか思いつつ聞く。
IRM はつい最近もどっかで見たんだけどどこだっけ? と思ってたら、NIPS 読み会での suzuvie さんの発表だった(笑)。


前日や当日に準備でひいひい言わなくていいのはやっぱり気楽だなあ(笑)。
でも次回はまた何かしゃべらせてもらう予定。そのときまでに何かおもしろいもの作ったらそれをやると思うけど、特になかったら何にしよう。HDP とか興味ある人ってそこそこいるのかな?