第2回自然言語処理勉強会@東京 にのこのこ行ってきました。
ありがとうございました&お疲れ様でした>各位。
今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。
内容は、仕事で作った(←ここ重要)言語判定ライブラリの紹介。
前回の「本文抽出 using CRF」は検証プロトタイプであったわけだが、今回はオープンソースとして公開&最終的に製品に組み込むことを目標とした代物なので、「なんか良さげな感じ〜」だと駄目。目指すのは 50言語、99.うん%。
精度を上げるためにやれることならなんでもやる、というのがミッションなので、限りなく泥臭いことの積み重ねになる。
というわけでここ2ヶ月の積み重ねを資料にしてみたら、なんか膨大になってきて、また今回もしゃべりすぎてしまった(汗
楽しんでいただけたら幸い。
作成したライブラリはこちらにて Apache License 2.0 ですでに公開している。
言語プロファイルも付属している(まだ性能が出せていなかったデンマーク語などのいくつかの言語を除く46言語分)ので、すぐ試してもらえるようになっている。
- http://code.google.com/p/language-detection/
- http://code.google.com/p/language-detection/wiki/ProjectHomeJa (日本語)
ドキュメントやパラメータを調整する API の整備はこれからだが、「言語判定」という単目的のライブラリなので、たぶん難しくはないと思う。