第８回データマイニング+WEB 勉強会＠東京 #tokyowebmining

大森ベルポートの Nifty さんにて行われた第８回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining #8) －大規模解析・ウェブ・クオンツ祭り－ : ATNDにのこのこ参加してきました。主催の @hamadakoichi さん始め、発表者・参加者各位、そして本当に本当に遅い時間*1まで会場提供して下さった Nifty のみなさん、お疲れ様でした＆ありがとうございました。

mahout の予習をしていくつもりだったけど、セットアップだけで終了。

1. Mahout0.4 Frequent Pattern Mining - スケーラブルなパターン抽出- (@karubi さん)

頻出パターン抽出の一手法 FP-Growth を mahout で利用、mahout 簡単だよ、かわいいよ！　という話。
セットアップしてた mahout にて、小さいデータを fpg してみたらちゃんと動いた(っぽい)。

サポート(台)の大きいものが根本に来るように FP-Tree というものを作ってそこから頻出パターンを見つけ出す、というアルゴリズムらしいのだが、 {1,2,x}, {2,3,y}, {3,1,z} という場合(1,2,3 が全てサポート 2 で互い違い)は FP-Tree をどう作るのかな？
そういえばちょっと出てた「ビールとおむつ」の話はこのへんとか。「都市伝説化」についても解説有り。

おむつとビール（おむつとびーる） - ITmedia エンタープライズ

2. Mahout0.4 Random Forest - スケーラブルな集団学習分類・予測- (@hamadakoichi さん)

Apache Mahout - Random Forests - #TokyoWebmining #8

mahout で Random Forest する話。
今のところ決定木に縁がないので手を出してないけど*2、mahout のコマンドラインから使えるようになったら、「Random Forest も一応試してみておく」とかはありかも。

それはともかく、ここまで２つ終わった時点で４時間経過。
いくらなんでも話長すぎですｗ＞はまださん

3. 協調フィルタリングにおける希薄問題の解決法 - Random walk (@komiya_atsushi さん)

TokyoWebmining#8 協調フィルタリングにおける希薄問題の解決法 - Random walk

協調フィルタリングにおける sparsity 問題を Random walk によって解消する提案の話。
遷移確率をスムージングして、定常確率をモンテカルロで計算、早期終了を制御するために適当なパラメータを入れておく、と理解したけどあってる？
タイトルは Random walk だが、計算が普通のマルコフ連鎖の話になっているのがちょっと気になるところ。

4. セマンテックウェブとRDFDB (@hirosuke_asano さん)

セマンテックウェブとRDFDB

RDF を扱うデータベース。述語をちゃんと理解するのがポイント。でも推論はまだ実装されてないけどね！　って、えー。
「セマンテックウェブ」といえば必ず「本当にそんなことができるの？」という議論になるものだけど、ここでもやはりｗ
もちろん microformats 派ですがなにか？

5. アクセスデータ収集と解析 (@tomiyoichi さん)

アクセスデータ収集と解析

アクセスログ収集の手法などなど。
業務的に経験もあるので漠然と全般は知っているけど、アクセスログ収集において考えるべき要因がまとまっているので、「アクセスログって集めるだけでしょ？」って言ってる人に見せるのにいいかも。

6. ソーシャルアプリのログ解析(2)〜MongoDBとAjaxで作る解析フロントエンド＆解析事例紹介〜 (@doryokujin さん)

１日 4GBにものぼるソーシャルアプリの行動ログを解析するシステムのお話。
内容もおもしろいが、仕事を楽しんでいる様子と高いモチベーションが伝わってきて、ログ解析をやってみたくなるｗ
グラフ系のデータを扱う機会があれば Neo4j と Gremlin は試してみよう。

7. 住宅ローンのリスク管理 (@sstat3 さん)

http://www.slideshare.net/sstat3/jutaku-rohn-no-risuku-kanri-5773488

住宅ローンの話のようでいて、要因(利害、法令、その他もろもろ)がめちゃめちゃ多くて複雑＆長期の予測＆データ件数が多くない(涙目)状態のリスクの見積もりと聞けば、結構いろいろな対象に適応できる枠組みかも。
「金融は６割当たれば神」という話をこの前聞いたけど、それもうなずける。
意外と(?)アナログな話が多いのも、おもしろい。

今回初参加。以前から「なんかいつもすごい時間やってんなー」と外から見てたが、ここまでひどいとは！
@yanaoki さんのタイムキーパーも、はまださんやはまださんの暴走を止められず、３名のご発表が次回に繰り延べ。
そして、はまださんお得意の無茶ブリで、自分もなんか機械学習の広範な話を次回するらしい(他人事風)。
うーん何の話をするかなあ。汎化とか？

*1:ピザパーティ終了は 23時過ぎ。

*2:確率モデルが好きだから、できるだけ避けている、という可能性もｗ