第8回 データマイニング+WEB 勉強会@東京 #tokyowebmining

大森ベルポートNifty さんにて行われた第8回 データマイニング+WEB 勉強会@東京 ( #TokyoWebmining #8) -大規模解析・ウェブ・クオンツ 祭り- : ATNDにのこのこ参加してきました。主催の @ さん始め、発表者・参加者各位、そして本当に本当に遅い時間*1まで会場提供して下さった Nifty のみなさん、お疲れ様でした&ありがとうございました。


mahout の予習をしていくつもりだったけど、セットアップだけで終了。

1. Mahout0.4 Frequent Pattern Mining - スケーラブルなパターン抽出- (@ さん)

頻出パターン抽出の一手法 FP-Growth を mahout で利用、mahout 簡単だよ、かわいいよ! という話。
セットアップしてた mahout にて、小さいデータを fpg してみたらちゃんと動いた(っぽい)。


サポート(台)の大きいものが根本に来るように FP-Tree というものを作ってそこから頻出パターンを見つけ出す、というアルゴリズムらしいのだが、 {1,2,x}, {2,3,y}, {3,1,z} という場合(1,2,3 が全てサポート 2 で互い違い)は FP-Tree をどう作るのかな?
そういえばちょっと出てた「ビールとおむつ」の話はこのへんとか。「都市伝説化」についても解説有り。

2. Mahout0.4 Random Forest - スケーラブルな集団学習 分類・予測- (@ さん)

mahout で Random Forest する話。
今のところ決定木に縁がないので手を出してないけど*2、mahout のコマンドラインから使えるようになったら、「Random Forest も一応試してみておく」とかはありかも。


それはともかく、ここまで2つ終わった時点で4時間経過。
いくらなんでも話長すぎですw>はまださん

3. 協調フィルタリングにおける希薄問題の解決法 - Random walk (@ さん)

協調フィルタリングにおける sparsity 問題を Random walk によって解消する提案の話。
遷移確率をスムージングして、定常確率をモンテカルロで計算、早期終了を制御するために適当なパラメータを入れておく、と理解したけどあってる?
タイトルは Random walk だが、計算が普通のマルコフ連鎖の話になっているのがちょっと気になるところ。

4. セマンテックウェブとRDFDB (@ さん)

RDF を扱うデータベース。述語をちゃんと理解するのがポイント。でも推論はまだ実装されてないけどね! って、えー。
「セマンテックウェブ」といえば必ず「本当にそんなことができるの?」という議論になるものだけど、ここでもやはりw
もちろん microformats 派ですがなにか?

5. アクセスデータ収集と解析 (@ さん)

アクセスログ収集の手法などなど。
業務的に経験もあるので漠然と全般は知っているけど、アクセスログ収集において考えるべき要因がまとまっているので、「アクセスログって集めるだけでしょ?」って言ってる人に見せるのにいいかも。

6. ソーシャルアプリのログ解析(2)〜MongoDBとAjaxで作る解析フロントエンド&解析事例紹介〜 (@ さん)

1日 4GBにものぼるソーシャルアプリの行動ログを解析するシステムのお話。
内容もおもしろいが、仕事を楽しんでいる様子と高いモチベーションが伝わってきて、ログ解析をやってみたくなるw
グラフ系のデータを扱う機会があれば Neo4j と Gremlin は試してみよう。

7. 住宅ローンのリスク管理 (@ さん)

住宅ローンの話のようでいて、要因(利害、法令、その他もろもろ)がめちゃめちゃ多くて複雑&長期の予測&データ件数が多くない(涙目)状態のリスクの見積もりと聞けば、結構いろいろな対象に適応できる枠組みかも。
「金融は6割当たれば神」という話をこの前聞いたけど、それもうなずける。
意外と(?)アナログな話が多いのも、おもしろい。


今回初参加。以前から「なんかいつもすごい時間やってんなー」と外から見てたが、ここまでひどいとは!
@ さんのタイムキーパーも、はまださんやはまださんの暴走を止められず、3名のご発表が次回に繰り延べ。
そして、はまださんお得意の無茶ブリで、自分もなんか機械学習の広範な話を次回するらしい(他人事風)。
うーん何の話をするかなあ。汎化とか?

*1:ピザパーティ終了は 23時過ぎ。

*2:確率モデルが好きだから、できるだけ避けている、という可能性もw