#TokyoNLP で twitter で言語判定してみたというネタを話します

第8回自然言語処理勉強会 #TokyoNLP
http://atnd.org/events/22199

主催の id:nokuno さんを除けば、TokyoNLP できっと最多発表だと思うが、来週の第8回でもまたまたのこのこ発表。


今回は「∞-gram を使った短文言語判定」というタイトルで、かっこつけているが、要は twitter のツイートの言語判定をしてみました、というお話の予定。
以前、53言語を 99% 以上の精度で判定する language-detection という Java の言語判定ライブラリを開発し、Apache Solr にも組み込んでもらえる(見込み)と、一定の評価はいただいたのだが、いかんせん「短文の言語判定が苦手」という弱点があり。
53言語分あわせて 1MB ちょっとしかないプロファイル(JSON ファイル換算)でそんな短い文章の言語判定なんか土台無理に決まってて、しかもツイッターなんてもうデタラメな表現の宝庫なわけでムリムリ、各言語の膨大な辞書をプロファイルとして持って単語単位で判定すればそりゃできるだろうけど現実的ではないよなあ、とかとかネガティブな方向まっしぐらだったりしてた。一時期は。
でも、ん? 意外とできるかも? と、なんかふと思っちゃったら、ついつい作ってみたくなって作ってみた、という感じ。


language-detection と同じく、今回も目標は 99% 以上の精度。目標通りにいったのかは発表でのお楽しみ、ということで。
というか、今現在も必死にあれこれ作り込んでて、例によってギリギリまでいじっているんじゃあないかな(苦笑)。