はじめての生成文法・前編 - #TokyoNLP 5

第5回 自然言語処理勉強会@東京 にのこのこ行ってきました。
いつもいつもありがとうございます>主催の @さん、会場の ECナビさん(@さん)、発表者、参加者の皆さん


今回も、いつものように新境地で「生成文法」について発表させてもらった……という予定だったのだが、資料作りが間に合わず*1&分量がインフレを起こして、急遽前後編にわけさせてもらったら、生成文法が出てくる直前で「次回に続く」。ほんとすんません&次回もよろしく。


追記
後編はこちら。

【/追記


こちらが資料。眠くて変なテンションで、ずっとネイティブの関西弁でしゃべりとおしてたような気がする。まあ過ぎたことだし。



要約すると、「シニフィアンシニフィエ? うんうん、なんか聞いたことはあるある。んーでも、どっちがどっちか憶えられないんだよなあ……」から1ヶ月頑張って勉強したら、チョムスキー先生の似顔絵が描けるようになりました! という内容。だいたいあってる?


以前、あんちべさんに「いやー今回の shuyo さんの発表も難しくて全然わかりませんでしたよ。はっはー」と言われて、むきー次こそは! と今回はとことん易しくしたつもりなんだが、どうだったろう。しかしやはり、付け焼き刃の知識をわかりやすく語る(ボトムアップで再構築する)というのはとてつもなくやっかいな仕事で、そこらへんが間に合わなかった敗因なんだけどね。てへ。
ほんとうは社内の掲示板で今回のネタを小出しにした中で出てきた議論とかとってもおもしろかったので、そこら辺の要素も入れたかったし*2、サピア=ウォーフ仮説とか wug-test とか失語症まわりとかもほんとういろいろ盛り込みたかったのだけど、尺の関係でみんなボツ。悲しい。


あとは、質疑で聞かれた中で憶えていることをプレイバックしておく。


まず「なんでまたいきなり言語学/生成文法?」と聞かれてたっけ?
自分の中ではまあまあ必然だったので、そんなに不思議に感じられると意外なのだけど。


直接には、FSNLP をちびちび読んでて 12章までなんとかたどり着き、ようやくゴールが見えてきた感があるはずのところ、なんかすっきりしない。
というのも、ことあるごとに言語学まわりの用語がちらほらちらほら出てきて、その一部は TokyoNLP #3 での @さんの 「FSNLPの3章を読む」で多少解消してもらえたものの、まだまだ大半が未解決で積み残し感はんぱ無い。
ちょうど Parsing を読んでたこともあり、じゃあやっぱ生成文法ひととおりやっつけておくか! てな感じ。
別に生成文法にこだわりがあるわけではなくて、多分この次は認知言語とか意味論とかをもうちょっとかじっちゃおうかな、とか思ってる。


で、落ち着いて考えたら、もう一つくらい理由が出てきて。
機械学習とか NLP では当然定量的な指標で評価をするわけだけど、個人的にはあそこらへんの定量的な値をあんまり信用していない。とくに自然言語の実用上では収束の目安とかそんなくらいにしか使えないんじゃあないの〜とか不遜なこと考えてたりする。
で、結果を評価するなら perplexity を計算しなきゃダメとか言われたりなんかすると、「なになに、その自然言語のモデルは 1次元に射影できるんだ。へー、そりゃすっげーーわ」と、今、いつもしっかり被ってる猫が何匹かまとめて吹っ飛んでいったのが見えたのでここらへんでやめておくが、まあそんなこんなで定性的に見なきゃだめだよね的な言動に結実したりする。
でも「定性的」ってかっこつけてるけど、それ「主観的」の言い換えに過ぎなくない? とか突っ込まれるとぐうの音も出ない。
そこで、なんとか主観性を抑えた定性的評価のヒントが見つからないかなあ、というのも言語学に興味を持った動機かも。


質疑の中で「言語学の本でなんかおすすめのありますか?」とも聞かれた。
というわけでここでも改めて紹介しておこう。アフィつきで(笑)。
もちろん独断と偏見で選ばれているし、資料の最終ページにある参考文献に挙げた書籍や論文で全てなので、それ以外にももっと良い本が当然あるだろう点は、あらかじめ。

ユーモアと皮肉がバランスよく聞いた文章が小気味よく、読んでいてとても楽しい入門書。
ただし、言語学に対する警戒を解くための本であって、言語学について詳しく知りたいという欲求は満たしてはくれない。

言語学の流れが一通りわかる本。ソシュールヤーコブソンレヴィ=ストロース、パース、そしてチョムスキー、その他言語学の話に出てくる人物を一通り俯瞰できるので、それっぽい会話について行けるようになるw
「20世紀」とあるけど、実質「言語学」=「20世紀言語学」だし、19世紀の比較言語学にも触れてくれているし、プラトンとかは呼ばなくたって出てくるし、だいたい全部と思っていいくらい。

タイトルに「生成文法」とあるが、音韻論・形態論・統語論・意味論・語用論・コーパス言語学などなど、言語学の主要な分野を一通り幅広く概観できる。
他のほとんどの言語学の本は、著者の信じている仮説がいかに正しいかを訴えることに忙しいのに対し(偏見?)、「言語研究入門〜」は、

(p18)
みなさんのなかには、「そんな原理や規則が頭の中にあるとは思えない。なぜなら、いくら考えてもどうしてもそういう規則が意識上に上がってこない。それらは、言語学者という人たちの作り事なんじゃないですか」というような疑問を持つ人がいるのではないでしょうか。

といった言葉に代表されるように、とてもフェアな姿勢で書かれている。言語学の外の人が変なストレス無く読み進めることができる貴重な本。

タイトルに包含関係があって上の本と混乱するかもだが、こちらは生成文法オンリーの全く別の本。
言語学の本には、用語の扱いが雑なものが多いのだが(偏見?)、「生成文法を〜」は用語をとても注意深く丁寧に扱ってくれている印象を受けた。例えば、未定義語が非常に少ないし、用語の英名を初出時以外にも頻繁に併記してくれている。二言目には「で、結局その言葉の定義はなんなの?」が口癖の定義厨には本当にありがたい。
ちなみに X-bar が、なぜ「X'(エックスプライム)」と書いて「エックスバー」と読むのか、その理由(噴飯もの!)を教えてくれたのもこの本だけ。気になる人は「生成文法を〜」の p51 を開いてみよう*3

生成文法 2.0(原理とパラメータのアプローチ)に基づいて、普遍文法を組み立てていこう、という読み物。
「普遍文法なんてあるわけない!」という人が読むのはキツイが、そうでなければ「あーそうか、普遍文法って本当にこんな形なのかも」「生成文法ってよくできてるなあ」と思わせてくれるかもしれない。
普遍文法を扱っている関係から、英語と語順と違う日本語が大いに例文として取り上げられていて、日本人には身近で読みやすいという点もポイント高いかも。


あ、生成文法 2.0 とか 3.0 とかここで呼んでいるのは勝手に独断なので、余所でしゃべんないでください(苦笑)。

原書の方がずっと安かったので調子乗ってそちらを買ってしまい、まだ 1/4 くらいしか読めてないけど。
こちらも生成文法 2.0(原理とパラメータのアプローチ)に基づいて、生得説を語る本。生得説を信じてみたい人におすすめだけど、例文が英語ばっかりでとっつき悪いかも。
あ、サピア=ウォーフ仮説を全否定している第3章はツマンナカッタですw(サピア=ウォーフ信じてるので〜)。

生成文法 3.0(ミニマリスト・プログラム)についてのエッセイ。いくつかミニマリスト・プログラムについて概説したものの中では、これが一番しっくり来た。
というわけで、元数学科の人間が解釈したミニマリスト・プログラムとは……は、「はじめての生成文法・後編」のメインネタの一つなので、まだないしょ。

そういえば参考文献に挙げ忘れてた。
お安いデジタル版の方を持っているが、普通の PDF なので、未知の用語とかがあったときにとりあえず検索してみる→周辺情報も一通りチェック、という使い方ができて、何かと重宝。
ただし用語の定義とかの網羅性がまだ弱いし、Wikipedia に勝ってるか、と聞かれたら……日本語版には勝ってます!(キリ なので、第2版に期待(ぉ

番外編。
歴史上の 10人の人物の一生から「イタリア史」を描き出す物語。


どの人物のお話もとてもとてもとてもおもしろいのだが、白眉はやっぱり神聖ローマ皇帝フリードリヒ(フェデリーコ)2世。そう、「実験しちゃった」あの人。
例の実験(「はじめての生成文法・前編」参照)以外にも逸話の多い人で、次期皇帝なのに(だからこそ)公開出産で衆人環視のなか生まれてきたとか、十字軍花盛りの時代、神聖ローマ皇帝ともなれば当然軍勢を率いてエルサレムを奪還しに行かないといけないのに、法王の要請に「そのうちいく」「明日から本気出す」とのらくら答え続け、とうとう破門されてしまったとか、破門されたから諸王の協力も得られず、手持ちのわずかな軍勢で十字軍(法王非公認)としてエルサレム方面に向かいつつ、エルサレムを統治していたスルタンと文通で交流を深め、10年間の期限付きながらエルサレム統治権を無血譲渡してもらうことに成功(不意打ちの初回十字軍以外でエルサレムの奪還に成功したのはこのときだけ)とか、ほかにもみんなに馴染みのあるところではフィボナッチ(フィボナッチ数列を「紹介」したあの人)のパトロンだったりとか、ほんと TokyoNLP でしゃべりたいことがいっっっぱいあったのに、どうも噂によると言語学にも NLP にも関係ないらしいというのと、うっかりどれか1つでもしゃべり出すと芋づるで止まらなくなりそうだったので泣く泣くあきらめた。
「イタリアという国」が昔からあるものだと思っている人、「イタリア史」とわざわざ括弧付きにしないといけない理由が見当つかない人には是非読んでみて欲しい本。っていうか、ここで紹介した本の中で特に1冊おすすめは? と聞かれたら、迷わず「物語イタリアの歴史」(ぉぃ)。

*1:直前の sleepy_yoshi さんの発表中にようやく完成

*2:当初、前半の言語獲得や生得説はさらっと流すつもりだったのだけど、社内の議論を通じて、こここそが生成文法の動機であり、やっぱりしっかりやらないとダメだと悟った点は唯一反映されている

*3:せっかちな人は プライム - Wikipedia言語学の項をどうぞ。