意味を考える 2 -- パラレル・コーパス
「私はあなたを愛しています。」 この文の「意味」は、何かと言われると、なかなか答えるのが難しい。(日本語では、まずこういう言い方はしないと思うのだが、そのことはおいておく。) ただ、"I love you." の「意味」はと聞かれれば、「私はあなたを愛しています。」だと答えるのは易しい。 「それは、意味の意味が違う。」 確かに、そうかもしれない。 それでは、「二つの言語で、同じ意味が表現されている」と考えるのは、どうなのだろうか? この文章で使われている「意味」は、先に「なかなか答えるのが難しい」と考えた「意味」そのものではないだろうか? とりあえず、二つのことを、この後の議論のために、作業仮説として確認しておこう。 1. 二つの言語を比較すると、意味は取り出しやすく(感じる)。 2. 意味は、言語によって表現されるが、言語によらないものを指し示す。 実は、現代の自動翻訳技術は、二つの言語で、同じ意味を持つ文を大量に集め、それを学習させるのが基本技術だ。「私はあなたを愛しています。」= "I love you." という文例をたくさん集めておく。「私はあなたを愛しています。」の「意味」を考えて、頭を抱えることはない。 ただ、そのデータ(「パラレル・コーパス」「パラレル・データ」と言ったりする)の規模は、多分多くの人の想像を超えていると思う。 機械翻訳についての基本的なカンファレンスは WMT "Workshop on Machine Translation" である。(2018年のページは、こちら。http://www.statmt.org/wmt18/ もっとも、僕は、二年近く最近の動向をフォローしていない) WMTは、機械翻訳の研究のために、基本的なパラレル・コーパスを研究者に提供している。WMT 14 https://goo.gl/9d4cyi WMT‘14の英語(En)<-> フランス語(Fr)データセットには、 3,600万の文のペアが含まれている。 WMT‘14の英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアが含まれている。 かなりの規模だ。 ところがである。僕が、Goog