機械学習
深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。 前々回は、それを裏付けるよ…
以前、「非情報系が機械学習を使う研究をしたいとき」という記事を書きましたが、内容の半分はサイボウズ・ラボユースの宣伝だったんで、今回はタイトル詐欺じゃあないことも書きます。いままで機械学習や深層学習に縁のなかった人が、それを使った研究を始…
機械学習(深層学習・人工知能を含む)が使われる領域は、自然言語処理や画像処理といった機械学習の近隣とみなされる分野が従来のメインストリートでしたが、最近はそれ以外の分野の人からも機械学習を使った研究をしたいという声がよく聞かれるようになって…
いきなりタイトルと話が違うが、DistilBERT で Sentiment Analysis を実装してみた。transformersのBERTでfine-tuningして、IMDB映画レビューを評判分析するコードを動かしてみた。https://t.co/6V3OF0YQgb基本はHuggingFaceの公式ドキュメントからリンクさ…
Randomized Response はアンケートの回答をランダム化することで、個人の回答は伏せつつ平均などの統計量を得る手法の1つ。 前回までの記事で、ランダム化された回答から真の割合を最尤推定とベイズ推定(ギブスサンプリング)で推定する方法とそれらの実験…
Randomized Response はアンケートの回答をランダム化することで、個人の回答は伏せつつ平均などの統計量を得る手法の1つ。 前回記事では、回答の割合の推定量を最尤推定で得る手順を紹介したが、割合の推定値が負になる可能性があることを示した。 shuyo.ha…
Randomized Response は、センシティブな質問を含むアンケートなどを実施するとき、個々人の回答を知らずにその統計量(yes の割合など)を得る手法の1つ。例えばキセル乗車や浮気などの発生割合を調べたいとき、「あなたはキセル乗車をしたことがありますか?…
引き続き、確率の話が 1/3 もある入門本「わけがわかる機械学習」の宣伝エントリです。わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する作者:中谷 秀洋技術評論社Amazon2012年に深層学習が大規模画像認識コンペ(ILSVRC)で圧勝して以来、「…
「わけがわかる機械学習」という本を書きました。 一言でいうと、「機械学習はなぜそんなことをしたいか・してもいいか」を解説する入門本です。わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する作者: 中谷秀洋出版社/メーカー: 技術評論…
これは「PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜」の幕間的なお話です。 未読の方は先にそちらをどうぞ。 PRMLガール 〜 文芸部のマネージャーが「パターン認識と機械学習」を読んだら 〜 - 木曜不足 「先輩、先輩。…
gihyo.jp で続けていた連載「機械学習 はじめよう」がとうとう最終回を迎えることができた。 第21回(最終回) 機械学習 はじめよう:機械学習 はじめよう|gihyo.jp … 技術評論社 初回の 2010年 7月から 3年以上にわたる連載がなんとか完結できたのも、読ん…
@overlast さん主宰の データ構造と情報検索と言語処理勉強会(DSIRNLP) の第4回にのこのこ参加して、Active Learning 入門なるものを発表してきました。お疲れ様でした&ありがとうございました>各位 こちらが発表資料。 Active Learning 入門 from Shuyo N…
教師あり学習の教師データの作成はとても大変。例えば、twitter 言語判定のために、訓練・テストデータあわせて70万件のツイートに言語ラベルを振った人もいたりいなかったり。 Active Learning(能動学習) はそんな教師データ作成のコストを抑えながらモデル…
どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner Vanishing Component Analysis を試作してみました – Tech.D-ITlab | Denso IT Laboratory researcher's blog sites 行けな…
毎週決まった平日の夜に 「機械学習とパターン認識」(PRML) を読み進めようという PRML Wednesday のキックオフにのこのこ顔を出してきた。主催の naoya_t さん&参加者のみなさん、お疲れ様でした&ありがとうございました。 PRML-Wednesday : ATND ほとん…
下巻で一番大切な一文は p73 の「グラフはリンクが存在しないことをもって分布のクラスの性質に関する情報を表現する」やねんって儂が言わんかったら誰が言うてくれるねん! という使命感に思わず燃えてしまう PRML 第8章「グラフィカルモデル」(半分嘘)。 …
7/21 開催の PRML(パターン認識と機械学習) 読書会 復々習レーンにのこのこ参加してきました。主催者、発表者、参加者、そして会場を提供してくださったニフティさん、お疲れさまでした&ありがとうございました。 PRML復々習レーン #12 : ATND なんか Tokyo…
3年前に実装したものの github に転がして放ったらかしにしてた Labeled LDA (Ramage+ EMNLP2009) について、英語ブログの方に「試してみたいんだけど、どういうデータ食わせたらいいの?」という質問コメントが。 うーん、そうね、そういうところ書いてない…
放課後の学食は、普段なら常時腹を空かせた運動部の連中があちこちにたむろっているのだが、今日は珍しく先客は一人きりだった。 静かな様子にほっとしたカズは、まったり休憩でもしようとジュースを片手に奥の目立たない席を目指す。が、学食で筆記用具を広…
11/9 に開催された機械学習×プログラミング勉強会 vol.2 にのこのこ参加&発表。主催の愛甲さん、参加者&発表者の皆さん、会場を提供して下さった DeNA さんありがとうございました。 機械学習×プログラミング勉強会 vol.2 : ATND 愛甲さんから発表の依頼を…
HDP-LDA の更新式を実装できたら、それが正しく動いているのか、そして収束したかどうかを確認するために perplexity を求めたいところだが、こちらも例によって論文には詳細な数式は書き下されていないので、最後にこれをやっつけよう。 論文ではパープレキ…
Dirichlet Process with Mixed Random Measures (Kim+ ICML2012, 以下 DP-MRM) を実装してみようかと論文の計算式をひと通り確かめているのだが、いくつか気になることが。 k, l のサンプリング 論文の (9), (10) 式にあげられている k, l の全条件付き事後…
昨日の HDP-LDA の更新式導出のついでに、ICML 読み会で紹介した教師ありノンパラ LDA である (Kim+ ICML2012) Dirichlet Process with Mixed Random Measures (DP-MRM) の更新式も導出しておこう。 DP-MRM のモデルについては ICML 読み会での発表資料参考…
来週、サイボウズ・ラボユース合宿なんてのがあったりする(昨年の様子ちら見)。 ちょっと缶詰っぽい感じでコードをガジガジ書く機会になるので、この前の ICML 読み会で紹介した DP-MRM でも実装してみるかー、でも HDP-LDA の実装の細かいところ忘れちゃっ…
7/28 に行われた nokuno さん主催の ICML 2012 の論文読み会にのこのこ参加。お疲れ様でした&ありがとうございました>各位 「えーまたトピックモデルなの?(ぶーぶー)」とブーイングを浴びつつ、[Kim+ ICML12] Dirichlet Process with Mixed Random Meas…
Machine Learning that Matters(ICML 2012) 読んだ - 糞ネット弁慶 (Wagstaff ICML2012) Machine Learning that Matters (原論文) 機械学習のトップカンファレンス ICML にて、「機械学習はこのままでいいの?」という感じの論文が発表された。 細かい内容は…
gihyo.jp の連載「機械学習 はじめよう」の第11回「線形回帰を実装してみよう」が公開されました。 機械学習 はじめよう 第11回「線形回帰を実装してみよう」 https://gihyo.jp/dev/serial/01/machine-learning/0011 今回は、第8回と9回で紹介した線形回帰を…
今作りかけのもので、素性(文字列片)を格納するのに Trie を使っていたのだけど、50万件を超えたあたりからメモリに載らなくなってきて。 まあ dict を使っためちゃめちゃナイーブな実装だったので、そろそろダメかなあとは思っていたんだけど(苦笑)。 とい…
10/15 に IBM さんの渋谷オフィスにて開催された 第2回 Tokyo.SciPy にのこのこ参加してきました。主催の @sla さんはじめ、参加者・発表者各位おつかれさまでした&ありがとうございました。 せっかく行くならなんか発表したいよね、ということで「数式を n…
とある確率でカオスでタイムマシンな勉強会を 7/30 にサイボウズにて開催。 お疲れ様でした&ありがとうございました>各位 会のテーマに合うかなあと心配しつつ、以前 TokyoNLP #1 にて発表させていただいた、CRF(Conditional Random Fields) を使った Web …