LDA で実験 その1:stop words の扱い方でどう変わる?

LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメ…

Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る

Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、ス…

「機械学習はじめよう」で機械学習がはじまりました

gihyo.jp での機械学習連載の第8回が公開されました 機械学習 はじめよう 第8回「線形回帰・前編」 - gihyo.jp 今回は「線形回帰」の前段階として、「最小二乗法」の話です。 といっても、メインは「最小二乗法」そのものではなくて、そのとてもシンプルな手…

Latent Dirichlet Allocations(LDA) の実装について

昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはト…

Latent Dirichlet Allocations の Python 実装

LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話…

サイン入り「小悪魔女子大生のサーバエンジニア日記」いただいちゃいました

id:gothedistance さんこと、ござ先輩が本日サイボウズ・ラボに遊びに来てくださいました。お忙しいところありがとう〜。 で、インターネットで技術的な仕事をしてても、ルーティングとか名前解決とかよくわかんない人必読と巷で話題の「小悪魔女子大生のサ…

Mahout の開発環境を Maven+Eclipse で作る (2) Hadoop セットアップ

Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。 基本的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報が…

自然言語処理(機械学習) vs エンジニア

1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。 NL研 #signl200 まとめ(その2) - Togetter 単語の…

Mahout の開発環境を Maven+Eclipse で作る (1)

Mahout in Action 買ったんだけど、開発環境の作り方についてはほとんど何も書いてない。いや、それも大事なことだと思うぞ。 というわけで、Mahout 用の開発環境をちょっとまじめに作ってみた。 とりあえず今回は Mahout in Action のサンプルコードを Ecli…

機械学習関連の勉強会

実は日経ソフトウエアの記事は、TokyoWebMining #9 1st で話させていただいた「機械の代わりに人間が学習入門」とちょうど表裏の関係になっています。 「機械学習とは何か」「おもしろそうでしょう?」と語る表側に対し、では実際に勉強し始めると結構大変………

日経ソフトウエア3月号に機械学習の記事を書かせていただきました

本日 1/24 発売の日経ソフトウエア3月号の特集「クラウド&スマホ時代の3大コア技術」の機械学習の記事を書かせていただきました。日経ソフトウエア 2011年 03月号 [雑誌]作者: 日経ソフトウエア出版社/メーカー: 日経BP社発売日: 2011/01/24メディア: 雑誌…

第4回 自然言語処理勉強会@東京 #tokyonlp

第4回 自然言語処理勉強会@東京 : ATNDに のこのこ行ってきました。主催の id:nokuno さん、参加者&発表者のみなさん、そして会場提供して下さった EC ナビさん、ありがとうございました&お疲れ様でした。 第4回 #TokyoNLP - Togetter 詳しい内容は noku…

統計的機械学習セミナー (2) 教師無し&半教師分かち書き

昨日の続き。 持橋さんの教師なし&半教師分かち書きについて、わかる範囲で説明してみる。 「分かち書き」とは文章を単語に区切ること。日本語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日…

統計的機械学習セミナー (1) sequence memoizer

統計数理研究所にて行われた第2回統計的機械学習セミナーにのこのこ参加してきました。 http://groups.google.com/group/ibisml/browse_thread/thread/092f5fb3d45a91ea/8cae858cb8bfc00c 今回はノンパラメトリックベイズ特集ということでか、Yee Whye Teh …

機械の代わりに人間が学習入門 - #tokyowebmining 9

本日 1/16(日) にニフティさんにて開催された 第9回 データマイニング+WEB 勉強会@東京 にのこのこ参加してきました。主催の @hamadakoichi さん、運営の @doryokujin さん、講演者、参加者、そして会場を提供して下さったニフティさん、各位ありがとうご…

有名どころな機械学習手法の年表

ちょっと機械学習の比較的有名なモデルやアルゴリズムの初出について年表を作ってみた。 って今週末用の資料なんだけどねw 1805 Method of Least Squares 1901 PCA (Principal Component Analysis) 1905 Random Walk -1925 Logistic Regression 1936 Fisher…

独断と偏見によるノンパラ入門

「ノンパラメトリック」って言うくらいだからパラメータ無いんかと思ってたら、パラメータめっちゃあるし。 機械学習のネーミングのひどさはこれに始まった話じゃあないけど、それにしたって。 ノンパラの一番素朴なやつ( K-means とか)は本当にパラメータ無…

言語判定プラグイン for Apache Nutch

オープンソース Web 検索エンジン Apache Nutch の概要 Apache Nutch のプラグインと言語判別 Apache Nutch のプラグインの作り方 Apache Nutch についてちらほら調べてきたけど、いよいよ 言語判定ライブラリを使って Nutch 用の言語判定プラグインを作って…

NIPS 2010 読み会 まとめ

12/26(日) にサイボウズ/サイボウズ・ラボを会場に NIPS 2010 読み会が開催されました。 おつかれさまでした&ありがとうございました>主催の nokuno さん、参加者各位 NIPS 2010 読み会 Nan Ding and S.V.N. Vishwanathan の "t-Logistic Regression" を読…

NIPS 2010 論文読み会 / [Ding+] t-Logistic Regression #nipsreading

この記事は NIPS 2010 読み会 用の資料です。 今回読む論文 Ding and Vishwanathan. t-Logistic Regression. NIPS 2010 http://books.nips.cc/papers/files/nips23/NIPS2010_0177.pdf http://www.cs.purdue.edu/homes/ding10/DinVis10.pdf nips.cc にある pa…

Apache Nutch のプラグインの作り方

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? と Apache Nutch のプラグインと言語判別 - Mi manca qualche giovedi`? の続き。 Apache Nutch 1.2 をベースに、 IndexingFilter extension-point へのプラグインを作成…

Apache Nutch のプラグインと言語判別

オープンソース Web 検索エンジン Apache Nutch の概要 - Mi manca qualche giovedi`? のつづき。 Apache Nutch はさまざまな機能をプラグインで追加できる。プラグインは extension-points と呼ばれるインターフェースを実装することで提供される。 ドキュ…

オープンソース Web 検索エンジン Apache Nutch の概要

Apache Nutch はオープンソースの Web 検索エンジン。 今年になってバージョン 1.0 が出て、Apache の TLP(トップレベルプロジェクト) になった。現在最新は v1.2。 Apache Nutch http://nutch.apache.org/ 乱暴に言うと、「検索エンジン Lucene +全文検索 …

言語判定ライブラリの英語版プレゼン資料

言語判定ライブラリですが、せっかく49言語対応しているので、おそまきながら英語の資料も作成。 Language Detection Library for Java from Shuyo Nakatani 英語はとても苦手なので、この英語はおかしいとかあればご指摘いただけたらとても嬉しいです。

第8回 データマイニング+WEB 勉強会@東京 #tokyowebmining

大森ベルポートの Nifty さんにて行われた第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) -大規模解析・ウェブ・クオンツ 祭り- : ATNDにのこのこ参加してきました。主催の @hamadakoichi さん始め、発表者・参加者各位、そして本当に本…

WebDB Forum 2010 で「国際化時代の40カ国語言語判定」を発表しました #webdbf2010

11月11〜12日に早稲田大学 理工学院にて行われた Webとデータベースに関するフォーラム (WebDB Forum 2010) に参加してきました。 サイボウズが本フォーラムのシルバースポンサーを務めており、そちらの関係から 12日の技術報告セッションにおいて「国際化時…

第3回自然言語処理勉強会@東京 #tokyonlp

第3回自然言語処理勉強会@東京 ( #tokyonlp ) に例によってのこのこ行ってきました。お疲れ様でした&ありがとうございました>主催、発表、参加各位。 長丁場なのが玉に瑕? っていつもは主犯の一人だけど(汗 第3回自然言語処理勉強会@東京 : ATND 第3回…

極大部分文字列 の味見 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 のおまけ資料です。 [岡野原+ 2008] 全ての部分文字列を考慮した文書分類 http://ci.nii.ac.jp/naid/110006980330 n-gram と異なり、任意長の部分文字列を素性の候補としたい ただしそのままでは素性数が文章長…

EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3

この記事は 第3回 自然言語処理勉強会@東京 での発表資料です。 EMNLP 2010 (The 2010 Conference on Empirical Methods on Natural Language Processing) の論文を4本+5本紹介しています。質より数で勝負。 論文を広く浅く読むススメ(仮) 「たまたま手…

IBIS2010 に行ってきたよ(2日目) #ibis10

第13回情報論的学習理論ワークショップ (IBIS 2010) の2日目にも、のこのこ参加。 またまた簡単なまとめ。敬称略。 発表 今日は「情報理論屋さん」と「理論統計屋さん」のお話。 わかりやすくておもしろいか、さっぱりわからなくておもしろいか、の両極端。 …