読むだけで単語を覚えるには何冊読めばいい？

辞書なんか引いたことなくても日本語の単語はいっぱい知っている。本を読んだり会話したりという中で覚えているからだ。
じゃあ、英語だって同じような感じで覚えられるんじゃあないの？　量が足りないって？
じゃあ一体どれくらい本を読めば、辞書を引かなくても単語の意味がわかるようになるの？

なんかのトリビアか宿題くんみたいなタイトルだが、でもまあこういうの興味あるよね？

「単語を覚える」という条件さえ定量化してしまえば計算できるはず。

まあ３０回くらい登場すれば、その単語をきっちり覚えてないまでも「見たことある」くらいにはなるよね〜

という感じで、「単語を覚える」＝「その単語を３０回読んだことがある」としてみよう。

そして、the とか of とか、とっくに覚えているに決まっている単語もその中には含まれる。
「３０回以上出現した単語」の数が 5000 を超えたら、「読むだけで単語が覚える」ことが可能になり始める、としてみよう。
語彙数 5000 の人がモデルケースと言うことだ。

これで全ての条件が定量化されたので、後は解くだけ。

これらを解くためには、総語数を横軸、「３０回以上出現した単語」の数を縦軸としたグラフを書けば良い。
そういうグラフがあれば、語彙数の閾値 5000 については、各人が自分のケースを当てはめて考えてみることもできる。

さて、必要な材料は、このブログでは毎度毎度お馴染みの Project Gutenberg。
手順はこうだ。

(1) August 2003 CD に含まれている約 600 テキストから本文を抽出。英語以外のテキストも結構混じっているので、それはさすがに抜いておこう。
(2) テキストを語数の少ない順に並べて、使用されている語彙を分析していく。その際、各語を原形に変換しておく方が都合良いだろう。
(3) １テキストごとに、各語彙の使用頻度を累積しながら、総語数と、３０回以上使用されている語彙数を吐き出させる。

実は別の目的のために (2) までは済ませてすでにデータベースに突っ込んであるので、 (3) のための簡単なスクリプトを書くだけで、ぱしっと csv ファイルを生成。
そうしてできたグラフがこれだ。

横軸が「総語数」、
縦軸が「覚えられる語彙数＝３０回以上登場した単語の個数」だ。

覚えられる語彙数が 5000 を超えるのは、総語数 250万語あたり。
つまり、語彙数 5000 のあなたは 250万語読めば、後は読むだけでどんどん語彙が増えていく*1。辞書とか引かなくても。

250 万語ってどれくらい？　という人のために、目安になりそうな有名な作品とだいたいの語数をあげておこう。

作品名	語数
不思議の国のアリス	２．５万語
クリスマスキャロル	３万語
チャーリーとチョコレート工場	４万語
ハリーポッター１巻	７万語
赤毛のアン(１作目)	１１万語
ゲームの達人	１４万語

大人向けのペーパーバック(分厚い奴)だったら、おおむね１０万語前後なので２５冊という計算になるが、語彙数 5000 の人が大人向けのペーパーバックを辞書なしでいきなり読むのは多分無理。

しっかりした児童書ならだいたい４万語前後のものが多いので、６０冊。
多読の場合だと千語から数千語レベルのもっと薄い本から始めるので、１冊あたりで平均するとその半分の２万語*2と考えると、１２０冊。
これが「読むだけで単語を覚えるには洋書何冊必要？」の答え。

自分の場合、総語数が 500万語あたりから、知らない単語に出くわしてもすんなり意味がわかったり、わからないまでも見たことある単語だなこれは、という機会が急激に増えてきた、という実感がある。
で、このグラフを見ると、語彙 7000 程度に相当している。うーん 5000 くらいかと思っていたけど、いろいろやっているうちにそれなりに増えてきたらしい。まあでもそう言われてみれば確かに TOEIC の点数的にはそれくらいかもしれん。
などなど、グラフを逆にたどって新しい発見、ということもできたりする。

他にも、グラフからおもしろい数字を見ていくと、

100万語だと語彙 3000。語彙 3000 は高校一年生の語彙力で、おそらく多くの成人日本人の語彙力がこれくらい(と勝手に思っている)
1000万語だと語彙 11000。語彙 12000 あれば、新聞が辞書なしですらすら読めるレベル。

多読ではまず目指すのは 100万、次は 1000万ということをよく言われるわけだが、なるほど、こうしてみると単なる切りのいい数字というだけではなく、意味のある目標なのかもしれないなあ、と解釈することができる。

ちなみに以下余談。

ドキュメント内の使用語彙頻度はべき分布に従うことがわかっている。
つまり実は、この手のグラフは全体的には直線になる（＝語彙数が総語数に比例する）。

上のグラフの場合、一見ゆるやかなカーブを描いているように見えるかもしれないが、それは総語数が少ないうちだけ。
400万語を超えたあたりからはきれいな直線になっている。
今回の話題ではせいぜい 1000万語くらいで十分だったのでそれ以降は捨てたが、コーパスに使用した August 2003 CD 全体では総語数 7000万語。
データを全部使えば、400万語から始まる直線がきれいにそのまま伸びていくところを見ることができる。

この「語彙数が総語数に比例する」というのは直感には反するのだが、言葉は無限にあると言うことを指してもいるわけでとてもおもしろいと思う。

それから、今回は英語のテキストを分析したわけだが、要は「使用語彙頻度はべき分布に従う」ということが今回のお話の鍵なので、何語であっても傾向は変わらない。
また、ドキュメントの種類にも依存しない。せいぜいグラフの傾きがちょっと変わるくらいだろう*3。

*1:というのを言い過ぎに感じるなら、「見たことある単語がどんどん増えていく」と読み替えるなりなんなり

*2:実は id:n_shuyo の多読が 250冊で 500万語なので、まさに１冊あたり２万語だったりする

*3: Graded Reader や VOA Special English のように、あえて使用語彙に制限をつけて作成されたテキストだとさすがにこの限りではない、と思う