イタリア語とスペイン語とポルトガル語はいずれもロマンス語と呼ばれる親戚みたいなもんで、母音で終わる単語が多めとか、代表的な機能語(助動詞や前置詞)が似た形をしているとか、いずれも主語が省略できるとか、共通した特徴を持っている。
そして使用地域が近接しているため、コーパスをかき集めてくると、混ざって取得されてしまって、うーんどれがどの言語? ということになりがち。
イタリア語は個人的に以前やっていたので「見ればわかる」のだが、スペイン語やポルトガル語はよくわかっていなかったので、見分けポイントをちょいとまとめてみた。
つまり人間言語判定のコツ。
イタリア語
- 頻出する固有の機能語は il, di, per, in など。
- 子音で終わる単語が非常に限られており、ほとんどの単語が o, e, a, i で終わる
- アクセント付きの母音は単語の末尾にしか現れない
- アルファベットは 22 文字。j, k, x, y は使われない(外来語を除く)
イタリア語のアルファベットは実質 22字と、英語で親しんでいるアルファベットのサブセット。
つまり、馴染みのない記号やヒゲが付いた文字が基本出てこないので、とても易しい雰囲気を感じる(※:個人の印象です)。
スペイン語(カスティーリャ語)
- 頻出する固有の機能語は en, el, y
- 伊葡仏で頻出する単語 e, é は使わない。
- 母音で終わる単語も多いが、〜os で終わる単語もかなり多い
- ñ(チルダ付き n)がある
- 疑問文の先頭に ¿(逆さのハテナ) が付く(twitter とかでは省略されているかも)
ñ はイタリア語にもポルトガル語にもないので、これがあればスペイン語の可能性はかなり高まる。まあでも、el や y あたりで見分けるのが手っ取り早いかな。
ポルトガル語
- 固有の頻出単語は o, eu, do, não, com など
- 西伊仏で頻出する la は使わない。
- 3つの中では一番子音で終わる単語が多い。-as, -es, -er, -ar, -m など。
- ç(セディーユ付き c) と ãõ(チルダ付き ao), âêô(ハット付き aeo) がある
イタリア語にもスペイン語にも無いチルダ付き&ハット付きの母音がそれなりに頻出するので、3言語の中で見分ける分には心配しなくてもいい。
ただ、ガリシア語と見分けるのは難しそう(まだよくわかってない)。
スペイン語・ポルトガル語はホントあんまりわかってないので、突っ込み歓迎。
他にも近隣で使われている言語にカタルーニャ語とバスク語があるが、こちらは(もっと)未勉強。バスク語はなんか全然違うらしいから、(わかってしまえば)見分けポイントははっきりしてそう。
あ。フランス語入れるの忘れてた。
まあでもフランス語は母音で終わる単語が少なくて上の3つとは間違えにくいから、いっか。
est が出てくればフランス語って憶えていれば十分?