第4回 #DSIRNLP で Active Learning 入門について話しました

@overlast さん主宰のデータ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした＆ありがとうございました＞各位

こちらが発表資料。

Active Learning 入門 from Shuyo Nakatani

入門とか偉そうに歌ったけど勉強し始めてまだ1月半もないので、実は入門しているのは中谷本人である。
動機は資料にも書いたとおり、ドメイン適応をドメイン知識のある人が低コストで行うのに Active Learning の技術が使えるのでは、というあたり。
ここまで実験した範囲でそれなりの手応えはあるものの、非常に単純なテキスト分類問題で試しただけなので、もう少し難しくて現実的なタスクでもいろいろ試してみたいと思っている。

発表資料に間に合わなくて20数回の試行で Query-By-Committee の箱ひげ図を描いてしまっていたが、50回の試行も終わったのでそちらの図をここに載せておこう。大幅に違うものにならなくてよかった。

ああ、そう言えばうっかりチャートを縦に見る話ばかりしてしまったが、本当は横にも見ないといけなかったんだった。大失敗。
つまり「 active learning を適応して得た精度を得るために、random sampling だと何倍の訓練データが必要か」。
必要なグラフは資料に載っているので、興味のある向きは是非自分で確かめてほしい。active learning の有用性が実感できるだろう。

あと、こちらは発表時間その他から断念したのだが、oracle sampling(笑) や Expected Error Reduction の指標と相関性が高くて軽量な指標があったりしないかな、と探してみたりしていた。
それ用の図も蔵出しておこう。

これは横軸が MCMI[min] (Guo+ 2007)、青/赤/黄緑がそれぞれ対応するデータの least confident / margin sampling / entropy-based の指標を縦軸に取った散布図。こうしてみると、少なくとも線形な相関は全く無さそうだな〜……とわかってしまう。難しいのう。
資料作成の寝不足がまだ解消されてないのでこのくらいで。