機械学習

実験用 GPU 環境をどう準備したらいい?(非情報系が機械学習を使う研究をしたいとき)

深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。 前々回は、それを裏付けるよ…

何から勉強始めたらいい?(非情報系が機械学習を使う研究をしたいとき)

以前、「非情報系が機械学習を使う研究をしたいとき」という記事を書きましたが、内容の半分はサイボウズ・ラボユースの宣伝だったんで、今回はタイトル詐欺じゃあないことも書きます。いままで機械学習や深層学習に縁のなかった人が、それを使った研究を始…

非情報系が機械学習を使う研究をしたいとき

機械学習(深層学習・人工知能を含む)が使われる領域は、自然言語処理や画像処理といった機械学習の近隣とみなされる分野が従来のメインストリートでしたが、最近はそれ以外の分野の人からも機械学習を使った研究をしたいという声がよく聞かれるようになって…

TextCNN の pytorch 実装 (IMDb 感情分析)

いきなりタイトルと話が違うが、DistilBERT で Sentiment Analysis を実装してみた。transformersのBERTでfine-tuningして、IMDB映画レビューを評判分析するコードを動かしてみた。https://t.co/6V3OF0YQgb基本はHuggingFaceの公式ドキュメントからリンクさ…

Randomized Response のベイズ推論(3): 変分ベイズ

Randomized Response はアンケートの回答をランダム化することで、個人の回答は伏せつつ平均などの統計量を得る手法の1つ。 前回までの記事で、ランダム化された回答から真の割合を最尤推定とベイズ推定(ギブスサンプリング)で推定する方法とそれらの実験…

Randomized Response のベイズ推論(2): ギブスサンプリング

Randomized Response はアンケートの回答をランダム化することで、個人の回答は伏せつつ平均などの統計量を得る手法の1つ。 前回記事では、回答の割合の推定量を最尤推定で得る手順を紹介したが、割合の推定値が負になる可能性があることを示した。 shuyo.ha…

Randomized Response のベイズ推論(1)

Randomized Response は、センシティブな質問を含むアンケートなどを実施するとき、個々人の回答を知らずにその統計量(yes の割合など)を得る手法の1つ。例えばキセル乗車や浮気などの発生割合を調べたいとき、「あなたはキセル乗車をしたことがありますか?…

深層学習やプログラミングについては書かれていない「わけがわかる機械学習」

引き続き、確率の話が 1/3 もある入門本「わけがわかる機械学習」の宣伝エントリです。わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する作者:中谷 秀洋技術評論社Amazon2012年に深層学習が大規模画像認識コンペ(ILSVRC)で圧勝して以来、「…

機械学習の本なのに、なぜか確率の話が 1/3 を占める「わけがわかる機械学習」

「わけがわかる機械学習」という本を書きました。 一言でいうと、「機械学習はなぜそんなことをしたいか・してもいいか」を解説する入門本です。わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する作者: 中谷秀洋出版社/メーカー: 技術評論…

PRML ガール 〜とある文芸部の統計女子〜

これは「PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜」の幕間的なお話です。 未読の方は先にそちらをどうぞ。 PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足 「先輩、先輩。…

「機械学習 はじめよう」最終回

gihyo.jp で続けていた連載「機械学習 はじめよう」がとうとう最終回を迎えることができた。 第21回(最終回) 機械学習 はじめよう:機械学習 はじめよう|gihyo.jp … 技術評論社 初回の 2010年 7月から 3年以上にわたる連載がなんとか完結できたのも、読ん…

第4回 #DSIRNLP で Active Learning 入門について話しました

@overlast さん主宰の データ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした&ありがとうございました>各位 こちらが発表資料。 Active Learning 入門 from Shuyo N…

Active Learning を試す(Uncertainly Sampling 編)

教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデル…

R で Vanishing Component Analysis

どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner Vanishing Component Analysis を試作してみました – Tech.D-ITlab | Denso IT Laboratory researcher's blog sites 行けな…

PRML Wednesday (平日読書会) と読み始める人のための参考リンク集

毎週決まった平日の夜に 「機械学習とパターン認識」(PRML) を読み進めようという PRML Wednesday のキックオフにのこのこ顔を出してきた。主催の naoya_t さん&参加者のみなさん、お疲れ様でした&ありがとうございました。 PRML-Wednesday : ATND ほとん…

「ぷるむるクイズ☆2: tail-to-tail で話が違う!?」の解答編

下巻で一番大切な一文は p73 の「グラフはリンクが存在しないことをもって分布のクラスの性質に関する情報を表現する」やねんって儂が言わんかったら誰が言うてくれるねん! という使命感に思わず燃えてしまう PRML 第8章「グラフィカルモデル」(半分嘘)。 …

「ぷるむるクイズ☆ head-to-tail で新定理発見!?」の解答編

7/21 開催の PRML(パターン認識と機械学習) 読書会 復々習レーンにのこのこ参加してきました。主催者、発表者、参加者、そして会場を提供してくださったニフティさん、お疲れさまでした&ありがとうございました。 PRML復々習レーン #12 : ATND なんか Tokyo…

Labeled LDA (Ramage+ EMNLP2009) の perplexity 導出と Python 実装

3年前に実装したものの github に転がして放ったらかしにしてた Labeled LDA (Ramage+ EMNLP2009) について、英語ブログの方に「試してみたいんだけど、どういうデータ食わせたらいいの?」という質問コメントが。 うーん、そうね、そういうところ書いてない…

PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜

放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広…

機械学習×プログラミング勉強会にて「ノンパラベイズ入門の入門」を発表しました #pgml

11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼を…

階層ディリクレ過程を実装してみる (5) HDP-LDA の更新式を導出 (パープレキシティ)

HDP-LDA の更新式を実装できたら、それが正しく動いているのか、そして収束したかどうかを確認するために perplexity を求めたいところだが、こちらも例によって論文には詳細な数式は書き下されていないので、最後にこれをやっつけよう。 論文ではパープレキ…

DP-MRM (Kim+ ICML12) の数式を確認中

Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後…

DP-MRM (Kim+ ICML12) の更新式も導出

昨日の HDP-LDA の更新式導出のついでに、ICML 読み会で紹介した教師ありノンパラ LDA である (Kim+ ICML2012) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考…

階層ディリクレ過程を実装してみる (4) k の全条件付き分布と HDP-LDA の更新式を導出

来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃっ…

(Kim+ ICML12) Dirichlet Process with Mixed Random Measures @ICML読み会

7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Meas…

エンジニアから機械学習への要望

Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶 (Wagstaff ICML2012) Machine Learning that Matters (原論文) 機械学習のトップカンファレンス ICML にて、「機械学習はこのままでいいの?」という感じの論文が発表された。 細かい内容は…

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました

gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰を…

Double Array 実装してみた

今作りかけのもので、素性(文字列片)を格納するのに Trie を使っていたのだけど、50万件を超えたあたりからメモリに載らなくなってきて。 まあ dict を使っためちゃめちゃナイーブな実装だったので、そろそろダメかなあとは思っていたんだけど(苦笑)。 とい…

第2回 Tokyo.SciPy で「数式を numpy に落としこむコツ」を発表してきました

10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を n…

CRF を使った Web 本文抽出

とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web …