言語判定

WebDB Forum 2013 で「どの言語でつぶやかれたのか、機械が知る方法」について発表しました。

11/27-28 に京都で開催された WebDB Forum 2013(第6回 Webとデータベースに関するフォーラム) の、サイボウズの技術報告セッションにて「どの言語でつぶやかれたのか、機械が知る方法」という題で発表させてもらいました。聞いて下さった方(ustream 中継含む…

言語判定のモデルパラメータを自己組織化マップで可視化

サイボウズでも巷の流行りに乗っかって、アドベントカレンダーなるものをやってて、担当した記事が今日公開された。 言語判定の仕組み - Cybozu Inside Out | サイボウズエンジニアのブログ 通常のアドベントカレンダーと違って、テーマは「技術ならなんでも…

NAIST で twitter 言語判定について発表してきました

5/14 に NAIST(奈良先端科学技術大学院大学) にて「∞-gramを使った短文言語判定」について発表してきました。素晴らしい機会をいただいてありがとうございました。 その時の資料を公開します。 内容は TokyoNLP #8 や言語処理学会2012@広島市大で発表したも…

NLP2012 での発表資料「極大部分文字列を使った twitter 言語判定」

言語処理学会の第18回年次大会(NLP2012)での発表「極大部分文字列を使った twitter 言語判定」で使用した資料を公開します。 極大部分文字列を使った twitter 言語判定 from Shuyo Nakatani www.slideshare.net論文は下記ページにて公開済み。 極大部分文字…

極大部分文字列を使った twitter 言語判定(中谷 NLP2012)

来たる 3/13〜16 に広島で行われる言語処理学会年次大会(NLP2012)にて発表する「極大部分文字列を使った twitter 言語判定」の論文を公開。 中谷 秀洋, 極大部分文字列を使った twitter 言語判定, 言語処理学会第18年次大会, 2012 http://ivoca.31tools.com/…

#TokyoNLP で「∞-gram を使った短文言語判定」を発表しました

TokyoNLP 第8回に のこのこ参加。主催者の id:nokuno さん、発表者&参加者のみなさん、そして会場を提供してくださった EC ナビさん改め VOYAGE GROUP さん& @ajiyoshi さん、お疲れ様でした&ありがとうございました。 今回は「∞-gram を使った短文言語判…

#TokyoNLP で twitter で言語判定してみたというネタを話します

第8回自然言語処理勉強会 #TokyoNLP http://atnd.org/events/22199 主催の id:nokuno さんを除けば、TokyoNLP できっと最多発表だと思うが、来週の第8回でもまたまたのこのこ発表。 今回は「∞-gram を使った短文言語判定」というタイトルで、かっこつけてい…

イタリア語/スペイン語/ポルトガル語の見分け方

イタリア語とスペイン語とポルトガル語はいずれもロマンス語と呼ばれる親戚みたいなもんで、母音で終わる単語が多めとか、代表的な機能語(助動詞や前置詞)が似た形をしているとか、いずれも主語が省略できるとか、共通した特徴を持っている。 そして使用地域…

言語判定プラグイン for Apache Nutch

オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作って…

Apache Nutch のプラグインの作り方

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? と Apache Nutch のプラグインと言語判別 - Mi manca qualche giovedi`? の続き。 Apache Nutch 1.2 をベースに、 IndexingFilter extension-point へのプラグインを作成…

Apache Nutch のプラグインと言語判別

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? のつづき。 Apache Nutch はさまざまな機能をプラグインで追加できる。プラグインは extension-points と呼ばれるインターフェースを実装することで提供される。 ドキュ…

言語判定ライブラリの英語版プレゼン資料

言語判定ライブラリですが、せっかく49言語対応しているので、おそまきながら英語の資料も作成。 Language Detection Library for Java from Shuyo Nakatani 英語はとても苦手なので、この英語はおかしいとかあればご指摘いただけたらとても嬉しいです。

WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010

11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズが本フォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時…

第2回 自然言語処理勉強会@東京

遅ればせながら 第2回 自然言語処理勉強会@東京 の感想。 まず、自分の発表「ナイーブベイズで言語判定」についていくつかフォロー。 長時間発表してしまって聞く方も疲れただろうに、いっぱい質問や意見をいただけたことを感謝。 「なぜナイーブベイズ? …

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました

第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani…