2010-01-01から1年間の記事一覧

言語判定プラグイン for Apache Nutch

オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作って…

NIPS 2010 読み会 まとめ

12/26(日) にサイボウズ/サイボウズ・ラボを会場に NIPS 2010 読み会が開催されました。 おつかれさまでした&ありがとうございました>主催の nokuno さん、参加者各位 NIPS 2010 読み会 Nan Ding and S.V.N. Vishwanathan の "t-Logistic Regression" を読…

NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading

この記事は NIPS 2010 読み会 用の資料です。 今回読む論文 Ding and Vishwanathan. t-Logistic Regression. NIPS 2010 http://books.nips.cc/papers/files/nips23/NIPS2010_0177.pdf http://www.cs.purdue.edu/homes/ding10/DinVis10.pdf nips.cc にある pa…

Apache Nutch のプラグインの作り方

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? と Apache Nutch のプラグインと言語判別 - Mi manca qualche giovedi`? の続き。 Apache Nutch 1.2 をベースに、 IndexingFilter extension-point へのプラグインを作成…

Apache Nutch のプラグインと言語判別

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? のつづき。 Apache Nutch はさまざまな機能をプラグインで追加できる。プラグインは extension-points と呼ばれるインターフェースを実装することで提供される。 ドキュ…

オープンソース Web 検索エンジン Apache Nutch の概要

Apache Nutch はオープンソースの Web 検索エンジン。 今年になってバージョン 1.0 が出て、Apache の TLP(トップレベルプロジェクト) になった。現在最新は v1.2。 Apache Nutch http://nutch.apache.org/ 乱暴に言うと、「検索エンジン Lucene +全文検索 …

言語判定ライブラリの英語版プレゼン資料

言語判定ライブラリですが、せっかく49言語対応しているので、おそまきながら英語の資料も作成。 Language Detection Library for Java from Shuyo Nakatani 英語はとても苦手なので、この英語はおかしいとかあればご指摘いただけたらとても嬉しいです。

第8回 データマイニング+WEB 勉強会@東京 #tokyowebmining

大森ベルポートの Nifty さんにて行われた第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) -大規模解析・ウェブ・クオンツ 祭り- : ATNDにのこのこ参加してきました。主催の @hamadakoichi さん始め、発表者・参加者各位、そして本当に本…

WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010

11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズが本フォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時…

第3回自然言語処理勉強会@東京 #tokyonlp

第3回自然言語処理勉強会@東京 ( #tokyonlp ) に例によってのこのこ行ってきました。お疲れ様でした&ありがとうございました>主催、発表、参加各位。 長丁場なのが玉に瑕? っていつもは主犯の一人だけど(汗 第3回自然言語処理勉強会@東京 : ATND 第3回…

極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長…

EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4本+5本紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手…

IBIS2010 に行ってきたよ(2日目) #ibis10

第13回情報論的学習理論ワークショップ (IBIS 2010) の2日目にも、のこのこ参加。 またまた簡単なまとめ。敬称略。 発表 今日は「情報理論屋さん」と「理論統計屋さん」のお話。 わかりやすくておもしろいか、さっぱりわからなくておもしろいか、の両極端。 …

IBIS2010 に行ってきたよ(1日目) #ibis10

東大 生産技術研究所(駒場第2キャンパス)にて、第13回情報論的学習理論ワークショップ (IBIS 2010) があったので、のこのこ参加。 え? もちろん業務ですとも。 というわけで、とても簡単ながらまとめ。敬称略。 発表 反実仮想モデルを用いた統計的因果推論…

F# で素数判定 (Miller-Rabin)

Miller-Rabin 素数判定法は、与えられた奇数が素数か否かを確率的に判定する手法。 合成数を間違って素数と判定してしまう可能性はあるが、素数を見逃すことはない。 非常に大きい数が素数かどうかを単発で判定することを高速に行える(連続して判定したい場…

Cybozu Developer Conference 2010 と エンジニアの未来サミット for students

先週の 10/22(金) にサイボウズ本社にて "Cybozu Developer Conference 2010" が行われました。 といっても、これは年に数回行われる未公開のイベント。 サイボウズグループ各社(サイボウズ本社、松山、上海、ベトナム、総研、ラボ)が集まり、互いの開発・研…

F# で汎用の関数(汎用のリテラル)を書く

F# の整数は int(32ビット整数), int64(64ビット整数), bigint(多倍長整数) があって、もちろんそれぞれ型が違う。 ベキ乗とか階乗とか、どの整数型でも同じことをしたいだけでも、普通に書いたらそれぞれ実装しないといけない。 ところで F# には自動汎化と…

FSNLP 5.4 Mutual Information(相互情報量) 追伸

ちょっと前に "Foundations of Statistical Natural Language Processing"(FSNLP) 5.4 の Mutual Information(相互情報量)について書いた。 http://d.hatena.ne.jp/n_shuyo/20100827/fsnlp そこで Pointwise Mutual Information(PMI) についての説明にいろい…

第2回 自然言語処理勉強会@東京

遅ればせながら 第2回 自然言語処理勉強会@東京 の感想。 まず、自分の発表「ナイーブベイズで言語判定」についていくつかフォロー。 長時間発表してしまって聞く方も疲れただろうに、いっぱい質問や意見をいただけたことを感謝。 「なぜナイーブベイズ? …

自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました

第2回自然言語処理勉強会@東京 にのこのこ行ってきました。 ありがとうございました&お疲れ様でした>各位。 今回も全然専門じゃあないのに「ナイーブベイズで言語判定」というタイトルで発表してきた。 ナイーブベイズによる言語判定 from Shuyo Nakatani…

gihyo.jp での機械学習連載の第5回が公開されました

gihyo.jp での機械学習連載の第5回が公開されました。 「機械学習 はじめよう」第4回 正規分布 前編 http://gihyo.jp/dev/serial/01/machine-learning/0004 「機械学習 はじめよう」第5回 正規分布 後編 http://gihyo.jp/dev/serial/01/machine-learning/00…

「Web本文抽出 using CRF」の学習用データの作り方

第2回自然言語処理勉強会@東京が 9/25 に行われます。 前回よりキャパの大きい会場&週末に参加募集が始まったばかりですが、早くもほぼ定員。 自然言語処理に興味のある人はぜひ。でも、計画的なドタキャンは運営の方にご迷惑がかかるのでやめてね。 今度…

「パターン認識と機械学習(PRML)」読書会(最終回)

9/5 の「パターン認識と機械学習」(PRML)読書会に のこのこ参加してきました。 昨年の6月から参加してきた PRML読書会も、17回目の今回で最終回。ほんとお疲れ様でした>各位。 今回は13章後半の線形動的システム(LDS, カルマンフィルタ)から、14章の終わり…

FSNLP 5.4 Mutual Information(相互情報量)

NLP

"Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ本)を読んでいるが、5.4 Mutual Information で詰まった。 書いてあることがいろいろ腑に落ちない。 まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「本当に…

Ruby/MySQL で ProtocolError が出るとき

そろそろ Ruby 1.9.2 の足音も聞こえてきたし、Ruby 1.8 用に作ってきた今までのスクリプトも 1.9 向けに直そうかな、せっかくだから MySQL/Ruby から Ruby/MySQL に切り替えよう、というシチュエーションでこんなエラーが出てしまう。 .../ruby-mysql-2.9.3…

PRML 読書会 #16 独立成分分析など+隠れマルコフモデル

すっかりブログに書くのが遅れてしまったが、「パターン認識と機械学習(PRML)」読書会(第16回)に 例によってのこのこ行ってきた。お疲れ様でした>各位。 今回の範囲は 12.4 章(独立成分分析 〜 GTM )と、13.1〜13.2 の隠れマルコフモデル(Hidden Markov…

ほどよく不自然な言語をつぶやき続けるスクリプト

Baidu さんちの不自然言語処理コンテスト用に何かネタを思いついたら作ってみようかな〜、とぼんやりしているうちに締め切りが過ぎていた。 と、残念がっていたらなんか締め切りが1日伸びたようなので、このまえ作っていた 不自然言語処理コンテストのコー…

最近読んだ論文(半教師CRF、教師有りLDA、TextRank)

読んだ自然言語処理や機械学習の論文を twitter でちょこっと紹介してみたりしている。 さらっと手短に書けていい感じ(と勝手に思っている)なのだが、論文名を書く余白がないのと、短いとは言え2個3個の tweet には分離してしまうあたりが減点。 というわ…

gihyo.jp で機械学習連載の第2回が公開されました

gihyo.jp での機械学習連載の第2回が公開されました。 「機械学習 はじめよう」第2回 確率の初歩 http://gihyo.jp/dev/serial/01/machine-learning/0002 今回は確率の話をチマチマしていますが、確率の定義とかそこらへんは結構あっさりで、実は「独立性」…

Ruby 1.9.2 で動かした場合だけメルセンヌツイスター

【追記】 コメント欄にて yugui さんにご指摘いただいた(多謝)のですが、Ruby 1.8.0 から標準の rand はメルセンヌツイスターに変わっていました……。というわけで、この記事はまるまる無用です……。 【/追記】 Ruby 1.9.2 からは Random クラスが追加されて…