意味を考える 2 -- パラレル・コーパス

「私はあなたを愛しています。」

この文の「意味」は、何かと言われると、なかなか答えるのが難しい。(日本語では、まずこういう言い方はしないと思うのだが、そのことはおいておく。) ただ、"I love you." の「意味」はと聞かれれば、「私はあなたを愛しています。」だと答えるのは易しい。

「それは、意味の意味が違う。」 確かに、そうかもしれない。

それでは、「二つの言語で、同じ意味が表現されている」と考えるのは、どうなのだろうか? この文章で使われている「意味」は、先に「なかなか答えるのが難しい」と考えた「意味」そのものではないだろうか?

とりあえず、二つのことを、この後の議論のために、作業仮説として確認しておこう。

 1.  二つの言語を比較すると、意味は取り出しやすく(感じる)。
 2.  意味は、言語によって表現されるが、言語によらないものを指し示す。

実は、現代の自動翻訳技術は、二つの言語で、同じ意味を持つ文を大量に集め、それを学習させるのが基本技術だ。「私はあなたを愛しています。」= "I love you."  という文例をたくさん集めておく。「私はあなたを愛しています。」の「意味」を考えて、頭を抱えることはない。

ただ、そのデータ(「パラレル・コーパス」「パラレル・データ」と言ったりする)の規模は、多分多くの人の想像を超えていると思う。

機械翻訳についての基本的なカンファレンスは WMT "Workshop on Machine Translation" である。(2018年のページは、こちら。http://www.statmt.org/wmt18/ もっとも、僕は、二年近く最近の動向をフォローしていない) 

WMTは、機械翻訳の研究のために、基本的なパラレル・コーパスを研究者に提供している。WMT 14  https://goo.gl/9d4cyi
 
WMT‘14の英語(En)<-> フランス語(Fr)データセットには、 3,600万の文のペアが含まれている。
WMT‘14の英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアが含まれている。

かなりの規模だ。

ところがである。僕が、Google ニューラル機械翻訳の論文 https://goo.gl/islUXa
を読んで、一番衝撃を受けたのは、彼らが使っているパラレル・コーパスの規模であった。

Googleは、内部に、英語 <-> 日本語(Ja)、英語 <-> 韓国語(Ko)、英語 <-> スペイン語(Es)、英語 <-> ポルトガル語(Pt) 等々の多くのデータセットを持っているが、その規模は、先のWMTのデータセットより、 2〜3桁大きいという。二倍・三倍ではないのだ。500万ペアの三桁倍は、50億ペアだ! 億単位の規模のパラレル・コーパスが「学習」に使われているのだ。(この辺りは、最近の BERT の動きとも関連している。)

現代のパラレル・コーパスの例と、古代エジプト象形文字の解読に使われたパラレル・コーパスである「ロゼッタ・ストーン」を示す。(楔形文字の解読 に利用された「ベヒストゥン碑文」もパラレル・コーパスである。)

機械翻訳技術は、確かに素晴らしい。ただ、それは「賢い」のだろうか? 僕は、シャンポリオンやローリンソンの方が、ずっと賢く感じてしまうのだ。



コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について