自然言語処理(機械学習) vs エンジニア

1/28 に行われた第200回 NL研(情報処理学会自然言語処理研究会)でのパネル討論会を @ さんが twitter で中継してくださってて、これが本当にとてもおもしろかった。Togetter でのまとめがこちら。


単語のいくつかは残念ながらわからないが(笑)、「自然言語処理機械学習も、どちらのアカデミックの世界にも身を置いたことのない門外漢のエンジニア」という立場で普段考えていることといろいろオーバーラップしている部分、齟齬を起こしている部分があって、思い出してはこれを読み返している。
まだあれこれ思い悩んでいる部分でもあるので、多分まとまらないし、明日にはまた違うことを考えてるかもなんだけど、ちょっと書き散らかしてみよう。


この「外の人が xx年前にすでに解かれた問題で苦しんでいる」は自然言語処理に限らずよく聞く話で、多分「今時の若いもんは」くらいに歴史のある常套句。
外の人は基本的網羅的な勉強とかやってないから「解きたい問題」が自然言語処理の中でどのような用語で表現され、どのように定式化が行われているか知るすべがなく、解かれていることを知りようがない。
したがって問題解決には中の人が周知に向けた運動をするしかないのだが、直接のインセンティブがないのでなかなかうまくいかない。「自然言語処理って素敵! かっこいい!!」と認められる機会が増えて、裾野が広がり、優秀な人が集まり、ひいては予算が増える、という間接的な効果をモチベーションに出来る人は少ない。


それでももし本当に宣伝したいなら、もっと外部インターフェースを洗練させないといけない。ちょっと卑近な例で言えば、素性は「すじょう」じゃあなくて「そせい」です、とか言ってたらダメ。
一番ひどいのは「機械学習」で、この誤解を招きやすい名称は門外漢に無駄に夢を見させておいて、中の人は「そんなことできるわけないじゃあないですか」と冷たく返すか、「人工知能機械学習を一緒にするな」と逆ギレするかで、そもそも名称に問題があると認識してくれていない。


ウェブの人は自然言語処理の人を頼れているだろうか。それが出来る人はまだとても局所的にしか存在しない気がする。
上に書いたことともかぶるけど、自然言語処理の人を頼るのにも自然言語処理の知識がないとそもそも的確な質問が出来ないので、そこがネック。
また、エンジニアにとっては定量的な指標ももちろん重要だけど、定性的な効果・主観的な評価も同じくらい、あるいはそれ以上に重要。また、精度的には限りなく 100% (のように感じるレベル)に近づけなければならない。そのためならどこまでも泥臭い努力を惜しまないし、ズルだってする。90% しか出ないならそれでもいい企画とか見せ方とかも重要。
だけどこういう方面には、アカデミックの人のモチベーションは基本的に無いので、そこらへんの齟齬も「ウェブの人」と「自然言語処理の人」のマッチングが一筋縄ではいかない理由になりうる。


今ってある意味すごい時期で、機械学習の関連分野って今現在も日進月歩でどんどん進化している最中なのに、ここ10年以内の最新成果を専門家でなくても、つまり在野のエンジニアであっても、あるいは高校生とかでも実用に引っ張ってくることが出来る可能性があるし、しかもそれによって今まで出来なかったことが出来てしまったりする。
もっと時間が経てば、それらの分野も今よりずっとカリキュラムとして洗練され、勉強するコストも下がってくるだろうけど、多分30年くらいはかかる。
だからエンジニアは、今そこらへんの技術が欲しかったら、自分から近づいていこう。いくしか。


昔ならベイズは牧師だったし、フーリエは知事だったし、ガウス天文台の所長だったし。
最近はあまりそういうことがなくて、最新技術は専門家だけのものになっているけど、今の機械学習関連分野にはエンジニアが(がんばれば)突っ込んでいける平原がいっぱい広がっているのかな、と。そのとき、さっきまでマイナス点のように挙げていたいろんな齟齬は全てチャンスでしかなく。


自然言語処理で軽くあげられただけでもこんなに未開の原野が。先行者利益ウハウハ……。


みたいなことを考えて、日々ぐふぐふしているわけですよ!
やっぱりまとまんないな。