クラスタ の検索結果:

無限関係モデル(Infinite Relational Model)の紹介資料+実装

…トリックベイズ」の「クラスタリングの事前確率」について - Mi manca qualche giovedi`? 古いネタを掘り起こしてきたのは、実装があるものを優先したため。 https://github.com/shuyo/iir/blob/master/clustering/irm.py この実装では、スライドでも説明しているとおり、ベルヌーイ分布をポアソン分布に替えた「0/1 じゃない関係解析」版を実装してみている。 が、ポアソン分布が外れ値に弱いので、ちょっと多い項…

コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより)

…ば、コサイン類似度をクラスタリングとか判別とかに使うわけで、そのとき 0.6 くらいの値しか出ないと、なんか小さいなあとか思っちゃってたけど、 0.6 くらいでも実は「結構かなり似ている」んじゃあないだろうか。 ランダムな2つのベクトルのコサイン類似度はどういう分布になるのだろう。 まず2次元空間で考える。 2次元球の周囲(つまり円)の上で、とりあえず適当なしきい値としてコサイン類似度が 1/2 以上になるのは、それはあるベクトルの±60度の中にもう1つのベクトルが入る場合で…

「続・わかりやすいパターン認識」13章「共クラスタリング」の無限関係モデル(IRM)の数式について #ぞくパタ

…13.9) 式の新規クラスタのときの式。 という記号が出てくる。 11章12章でさんざん見てきたので、ついうっかり知ってる記号だと思ってしまったかもしれないが、これも未定義である。 G_0 は11章12章ではディリクレ過程の基底分布として使われていた記号だが、13章では2次元の構造を持つクラスタを素のディリクレ過程ではモデリングできず、CRP(中華料理店過程)でモデリングされているため、そもそもディリクレ過程自体が出てこない。 「ディリクレ過程だったら基底分布にあたるもの」な…

「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について

…、これを使うと均等にクラスタリングされるのではなく、クラスタサイズが大きいものから順に小さくなっていくようなクラスタリングがされるように見えるのだが、その認識で正しいのか」といった感じの質疑があった。 いい質問。 実は「続・わかりやすいパターン認識」(以降「ぞくパタ」)では、 p225 の「クラスタリングの事前確率の考え方」のところに、ダイレクトにではないがその質問の答えにつながることが書いてあったりする。coffee break というコラムの形になっているので、つい読み飛…

ディリクレ過程(中華料理店過程)のトピック数(テーブル数)の期待値を導出してみる #ぞくパタ

…速くて便利だろう。 クラスタ数(トピック数)はわからないとはいっても目星くらいはあるだろうから、この期待値がその目安となる数字を少し超えるくらいにαを選ぶと良さそう。 あとは E[c] = O(αlog n) であることを大雑把に示してみる。 といっても として、さらに和を積分で近似してしまえばあっさり出る*1。 ちなみに、alpha = 1.0, n = 500 のとき(ぞくパタ 12章の実験の設定)、E[c] = 6.8 なのだが、αlog n = 6.2 とそれなりの近…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

…ム間の類似度を使ってクラスタリングを行う手法。タイトルには行列分解とあるが、あまり行列分解しているようには見えない。 pLSI によく似た式から出発して、最終的に item-topic distribution を得るという流れなのだが、一つ一つの手順の動機がつかめなくて、わかった気になれなかった。実験結果の数字は他の手法に比べてずいぶんいいのだが……。 類似度(確率)行列はアイテム数×アイテム数という巨大なものだが、提案されているアルゴリズムはそれに対してナイーブにループし…

第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました

…会に行くのは、最初からアウェイに決まってるような気がしないでもない(苦笑)。 終了後は懇親会を経て、さらに同日開催されていた さくさくテキストマイニングの懇親会に合流することに。 いつも定員いっぱい大人気の さくテキには遠慮して参加したこと無かったので、さくテキクラスタとは初めての交流。 眠くていろいろ憶えてないが(ぉぃ)、AR な話がたくさんでてておもしろかった。 *1:いつもの通り、公開資料から自己紹介パートは削除してます。自己紹介をまき散らすのってなんか気恥ずかしくて〜

Interactive Topic Modeling を読む (Hu, Boyd-Graber and Satinoff ACL2011)

…、分類後にトピックをクラスタリングするか ITM は LDA に「単語AとBは同じトピックに入って欲しい」という制約を「後から」入れられるモデル Notations Ω_j : 同じトピックに属するべき単語の集合(制約) Ω_i∩Ω_j=∅ (i≠j) C_j = |Ω_j| Ω=∪Ω_j K : トピック数 V : 語彙数 J : 制約数 w_dn : 文書 d の n 番目の単語 z_dn : w_dn の潜在トピック θ_d : 文書 d の トピック分布 φ_k, π…

PRML 4.1 の最小二乗法&フィッシャーの線形判別を試してみた

…りゃあデータ数の多いクラスタに決定面が寄るんだろうねえ、と推測。 それくらいなら簡単に確かめられるんだから、ちょっこり R でスクリプトを書いてみた。 library(MASS); blue <- 50 red <- 100 x1 <- mvrnorm(blue, c(1,3), matrix(c(2,0,0,0.5),2)); x2 <- mvrnorm(red, c(4,-1), matrix(c(3,0,0,0.5),2)); xx <- rbind(x1, x2); …

第4回 自然言語処理勉強会@東京 #tokyonlp

… 単語の共起関係からクラスタリングを行う。今ちょうど FSNLP の8章を読んでるんで、selectional preferences(選択選好) とか semantic similarity とかの話だよなあ、とか思いつつ聞く。 IRM はつい最近もどっかで見たんだけどどこだっけ? と思ってたら、NIPS 読み会での suzuvie さんの発表だった(笑)。 前日や当日に準備でひいひい言わなくていいのはやっぱり気楽だなあ(笑)。 でも次回はまた何かしゃべらせてもらう予定。そ…

NIPS 2010 読み会 まとめ

…akaki さん。 クラスタリングの各種手法を特徴(不変性、一貫性、richness を細分化した11項目)をもとに分類。最適なものを使いましょう、という話。 代表的な手法についてそれぞれの項目を満たすかどうかの表が出てくるのだが、richness 系が全部○だったりと、項目があまり分類の役に立っていないような気が…… [Mørup+] Infinite Relational Modeling of Functional Connectivity in Resting Sta…

Apache Nutch のプラグインと言語判別

…オンライン検索結果をクラスタリングするアルゴリズム(Google の検索結果にて同じドメインの結果がまとめられているのを実現するためのもの?) IndexingFilter Nutch Indexing Filter. インデックスのフィールドにメタデータを追加する Parser Nutch Content Parser. コンテンツからデータ(テキスト)を取り出す ScoringFilter Nutch Scoring. CrawlDatum クラス(コンテンツの取得からス…

EMNLP 2010 の論文紹介 / 自然言語処理勉強会@東京 #3

… Web 検索結果のクラスタリングによる Word Sense Induction(単語意味推論?) クエリーに対して動的にグラフを構築(初期ノードを検索結果のスニペットから得る)。エッジの共起度は Dice 。 グラフの閉路?(三角形&四角形)を評価してスコアの低い辺を消去するのがポイント。 実験では Suffix Tree などを使用した他の手法と比べて圧倒的によい結果。辺を捨てているところが効いているのか、測り方があっているのか。 [Agarwal+ 2010] Aut…

IBIS2010 に行ってきたよ(2日目) #ibis10

…逐次更新ができ、保持すべき情報が小さい(ランク数に対して線形)なら Web 系エンジニアならいろいろ使い道があるかもとか話す。 ただ、欠損値(こちらの検索結果には出てるけど、こっちには出てないページとか)の扱いとかがまだ課題。 ちょうどお話を聞いているときに、順位情報を使ってのクラスタリングなどを研究をされてる shima__shima 先生の臨時講義がその場で始まったりしてラッキー。 明日も行きたかったけど、家庭の事情で断念。残念無念。 *1:厳密解。指数時間かければ解ける

IBIS2010 に行ってきたよ(1日目) #ibis10

…ョンで「最小平均費用クラスタリング」の話を聞いて、また感心するのだけど、それはちょっとあとで。 スパース正則化学習の学習性能、特にスパース性と汎化誤差の関係について(鈴木) カーネル法は強力&便利だけど、カーネル関数の選び方、パラメータ、特徴量に全てが依存。Multiple Kernel Learning(MKL) でスパース正則化すれば、そういうのも決めてくれる。 L1 と L2 正則化を混ぜると、汎化性能があがる上に学習も速いっておもしろいねえ、と wk77 さんと話した…

第2回 自然言語処理勉強会@東京

…を探し回りつつ、漢字クラスタリングの特徴量を試行錯誤しつつ、ロシア語の精度が悪いのを調べるためにブルガリア語やマケドニア語の分布と比較しつつ*1、ペルシャ文字とデーヴァナーガリーを読めるようになるための書き取り練習しつつ、文字について調べているうちにいつのまにか Wikipedia で各国の歴史の記事を読みふけっている……みたいな。 明確にわかっているのは、Ruby プロトタイプに2週間(テストデータ集めと文字の正規化を一部含む)、Java 版(およびその他全て)に1ヶ月半、…

PRML 読書会 #13 「10.2 変分混合ガウス分布」資料(1)

…れば k 番目を最大クラスタになりやすくしたい、とかできるんだろうか? μ、Λはガウス分布の平均と精度なので、その共役事前分布であるガウス−ウィシャート分布を入れるwhere , 同時分布 事後分布 変分近似: (真の)事後分布を潜在変数 Z とパラメータ π, μ, Λ に分解する。 「ベイズ混合モデルについて実際に計算可能な解を得る上で、必要な唯一の仮定」 なにげに この2つの式が一番重要。 q(Z) を推定する where ρの各項を求めるには π,μ,Λ の事後分布が…

「パターン認識と機械学習」(PRML)読書会 #11 + R で K-means

…で K-means クラスタリング で、最近R触ってないな〜 K-means 簡単そうだな〜と思ったので、リハビリがてらにさっくり書いてみた。 PRML 9章で使われている Old Faithful のデータセットは PRML サポートサイトにて配布されているのでダウンロードして……なあんてしなくても、R に最初っから入っている。 # Old Faithful dataset を取得して正規化 data("faithful"); xx <- scale(faithful, a…

Mitaka.rb #5 で「明日使える超高速 Ruby」を話してきた

…rb #5 に、三鷹クラスタの一員として のこのこ行ってきた。 主催の @ysakaki さん他関係各位ありがとうございました&お疲れ様でした。 「Mitaka.rb ってどんなん?」という人には、→ @ysakaki さんのお料理写真いっぱいいっぱいの記事 をどぞ。食べ物は雄弁。 Mitaka.rb 参加は2回目。 前回 ( Mitaka.rb #3 pgcafe Nite! ) よりも三鷹率があがってる? 自宅から半径 100mなご近所さん話題とか、三鷹〜調布間のローカル…

iVoca の履歴から単語の難易度を計算

…テスト、利用者も同じクラスタに属している雰囲気。 でも、多種多様なユーザが参加してきた場合には単語の難易度順リストは大きく変わってしまうので、同等の的中率を維持するのは、きっと厳しい。 IRT が要求する「各単語が独立である」という仮定が適していないとしたら。 各単語ごとの「知っているかどうか」という確率変数は自明でない共分散を持ち、各ユーザが知っている/知らない単語を事前情報とする事後確率によって「個々のユーザが単語を知っている確率を求める」、そういうイメージはどうだろう。…

マッシュアップひとりブレスト

…動距離を入力。宿間の距離を緯度経度で算出し、目的地にたどりつくまでにどの宿に泊まっていけばよいかを一覧表示(なんなら途中のアルバイト情報も……) 宿のメタ情報からキーワードを抽出してタグ化するとか、クラスタ分類するとかして、宿情報間の類似度を算出。検索結果に類似した宿を一緒に表示する まじめなネタしか出てこなくなったので、ブレスト収束気味。 もっともっと馬鹿っぽいのを思いつきたかったのだが、車にあまり興味がない人なので、そちらのメタ情報のふくらませ方がピンと来なかった。残念。