2011-02-01から1ヶ月間の記事一覧

CICLing 2011 行ってきました

早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。 FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議…

LDA で実験 その1:stop words の扱い方でどう変わる?

LDA Python 実装編 LDA 解説編 というわけで連載じゃあないけど第3回。わざわざ自前で実装したんだから、LDA で細かい設定で実験してみる。 NLTK のブラウンコーパスの 0〜99 までの 100 個のドキュメントをコーパスとし、トピック数は K=20、ハイパーパラメ…

Mahout の開発環境を Maven+Eclipse で作る (3) Eclipse で Hadoop の開発環境を作る

Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、ス…

「機械学習はじめよう」で機械学習がはじまりました

gihyo.jp での機械学習連載の第8回が公開されました 機械学習 はじめよう 第8回「線形回帰・前編」 - gihyo.jp 今回は「線形回帰」の前段階として、「最小二乗法」の話です。 といっても、メインは「最小二乗法」そのものではなくて、そのとてもシンプルな手…

Latent Dirichlet Allocations(LDA) の実装について

昨日の "Latent Dirichlet Allocations in Python" の続きで実験結果を載せようかと思ったけど、先にやっぱりもうちょっと LDA を説明しておこう。LDA の初出は [Blei+ 2003] Latent Dirichlet Allocation 。 ただし [Blei+ 2003] で "LDA" としているのはト…

Latent Dirichlet Allocations の Python 実装

LDA とは "Latent Dirichlet Allocation"。文書中の単語の「トピック」を確率的に求める言語モデル。 「潜在的ディリクレ配分法」と訳されていることもあるが、その名前だと「それってなんだっけ?」という人のほうが多そうw。 各単語が「隠れトピック」(話…

サイン入り「小悪魔女子大生のサーバエンジニア日記」いただいちゃいました

id:gothedistance さんこと、ござ先輩が本日サイボウズ・ラボに遊びに来てくださいました。お忙しいところありがとう〜。 で、インターネットで技術的な仕事をしてても、ルーティングとか名前解決とかよくわかんない人必読と巷で話題の「小悪魔女子大生のサ…

Mahout の開発環境を Maven+Eclipse で作る (2) Hadoop セットアップ

Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。 基本的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報が…

自然言語処理(機械学習) vs エンジニア

1/28 に行われた第200回 NL研(情報処理学会の自然言語処理研究会)でのパネル討論会を @mamoruk さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。 NL研 #signl200 まとめ(その2) - Togetter 単語の…