CICLing 2011 行ってきました

早稲田大で行われていた CICLing 2011 (International Conference on Intelligent Text Processing and Computational Linguistics) の最終日にのこのこ行ってきました。
FSNLP の 10章をちょうど読み終わったばかりという初心者が、自然言語処理の国際会議を聴きに行っちゃう無謀っぷり。
ちょうど1年くらい前、まだ PRML の 10章を読んでた頃に SIG-DMSM #12 (IBISML の前身?)に のこのこ行って、「わかるところはなんとかギリギリ。わからんところは言葉からしてさっぱりわからん……」と知恵熱でそうなほどぐるぐるしてたりしてたわけだが、ちょうどおんなじ感じ。


国際会議なんだから、感想も英語。


そっちに書いてないことをちらほら。
ラス2のパネルディスカッションのテーマが "Papers must be accompanied by software and data?"。よく聞く話だけど、各国の研究者がこんだけ集まった場だとどういう話になるんだろう? とちょっとワクワク。
座長のアレクサンダーさんが「 science は再現できるもの」と前振りではっきり言ってしまったので、「個別論はもちろんあるけど、やっぱり公開した方がいいよね」という結論はその時点で決定。あとは個別の話を熱くやり合った後、「やっぱり公開した方がいいと思う人〜?」でみんな手を挙げて終了。うーん、エントロピー小さいっす。


ラス1の special event は、FSNLP の著者でもある Manning 先生による "What's the relation between academic research software and open source tools?"。ありゃ、さっきの話と一緒ですか、と一瞬思ったけど全然違っておもしろかった。
自分の研究目的とはいえ、せっかく書いたのだから他の人にも使ってもらえたら、と思うのはとても自然。でもそのためにはいろいろ考えなきゃだよ、というあたりは Manning 先生ご自身が Stanford NLP にて研究室の成果物を Open Source として公開しているから説得力ある。


この2つは一応別の話だけど、どちらも「コードを公開」という行為自体は一緒なので、同じ枠組みで議論できるのでは、と個人的には感じている。本来、コードやデータが公開されている場合は baseline やテストデータとして使ってもらいやすいはず(すると引用数が上がる)なので、それを促進するような枠組みを用意する(とりあえず見つけてもらわないとね!)とか、今後は必要に迫られたエンジニアがこの分野に乗り込んでくることがどんどん増えると思うので、そういうコード職人が fork しやすい形(ライセンス含む)でソースを公開するとか、そういったことを研究者に教えたりガイドラインを用意したり、そういう事々まで含んだエコシステムを構築すれば、「公開した方がいいよね?」とかわざわざ議論するまでもないことになるんじゃあないかな。そういう気がしている。


ということもホントなら英語で書くべきなんだけど、まだそこまでの表現力がない(苦笑)。