Google ニューラル機械翻訳

【 意味の共通表現「インター・リンガ」の発見 】

今回取り上げる「Googleニューラル機械翻訳」には、論文が二つあります。一つは、システムのアーキテクチャーを述べたもので、もう一つは、このアーキテクチャーを「多言語」に拡張したシステムの機能の紹介です。

まず、第一論文のアーキテクチャーの方から見ていきましょう。

 【 Attention Mechanism 】

実は、「Googleニューラル機械翻訳」のアーキテクチャーに大きな影響を与える考え方が、同じ頃生まれます。それを Attention Mechanism といいます。

先に見た、Ilya Sutskever らの翻訳システムでは、翻訳さるべき文は、Encoderで、一旦、ある決まった大きさの次元(例えば8000次元)を持つベクトルに出力されます。このベクトルを入力としてDecoderが翻訳文を生成します。

Attention Mechanism を提唱した Bahdanau らは、入力された文が長いものであっても短いものであっても同じ大きさの固定長ベクトルに変換されることや、Decoderでの翻訳が、すべて、encoderの最終出力に圧縮された情報一つに依存することに疑問を呈します。

彼らは、EncoderとDecorderを直結することをやめ、かつ、後段のDecorderでの翻訳の各ステップに、前段のEncorderの情報を生かすアーキテクチャーを提案します。それがAttention Mechanismです。

Decoderでの作業中に、「そこを訳すのなら、ちょっとEncoderのこの部分の情報に注意(Attention)を払って」と注意を喚起する仕掛けです。

「Googleニューラル機械翻訳」のアーキテクチャーは、全面的に、このAttention Mechanismを取り入れたものです。

「Googleニューラル機械翻訳」だけではありません。その後の大規模言語モデルへの発展は、アーキテクチャー的には、このAttention Mechanismの発展と考えることができます。次回取り上げる "Trandforner" アーキテクチャーは、Attention Mechanismの最終進化系と言えるものです。それが、現在の「大規模言語モデル」の技術的基礎になりました。

 【 第二論文が面白い! 】

そういう意味では、「Googleニューラル機械翻訳」のアーキテクチャーが、その後の言語システムに与えた影響は、大きなものがあります。ただ、このアーキテクチャーは、歴史的には意味があると思うのですが、最新のものではありません。

ただ、「Googleニューラル機械翻訳」の第二論文は、とても面白いものです。それは、今読み返しても新鮮なものです。

一つは「ゼロ・ショット翻訳」。
例えば、 ポルトガル語 → 英語と英語 → スペイン語で訓練された言語モデルが、明示的にはスペイン語・ポルトガル語のパラレル・コーパスが与えられたことがないのにも関わらず、スペイン語 → ポルトガル語の翻訳ができてしまうのです。学習用のコーパスなしでも「初見」でも翻訳できるのでこれを「ゼロ・ショット翻訳」と言います。

もう一つは、「インター・リンガの存在」の示唆。
この論文で挙げられている例では、日本語と韓国語と英語で、「成層圏は、高度10kmから
50kmの範囲にあります」という意味の文を、三ヶ国語でそれぞれ翻訳します。

日本語 → 韓国語、日本語 → 英語、韓国語 → 日本語、韓国語 → 英語、英語 → 日本語、英語 → 韓国語と6通りの翻訳が可能です。これらの6種類の翻訳は、「同じ意味」を、ある言語から他の言語に変換するものです。

「Googleニューラル機械翻訳」は、先に見たように Attention Mechanism を利用しているのですが、6種類の翻訳の際に生成される6種類の Attention ベクトルを可視化すると、言語にかかわらず、同様の意味を持つ文章が近い領域にクラスタリングされていることがわかったというのです。

第二論文は、この現象を、言語の違いを超えて、同じ意味を表す共通の表現が存在することの証拠だと言います。この意味の共通表現を「インター・リンガ」と呼んでいます。

全ての言語の基礎には、全ての人間に共通な、生物学的に固有な能力があると考える、Chomsky が喜びそうな話ですね。最近は、こうした話題を、「大規模言語モデル」の界隈では、あまり聞きません。残念なことです。

後半で取り上げる、DisCoCatのTai-Danaeの研究は、Chomskyが「生物学的」なものとした「普遍文法」を、「数学的」に把握する試みだと、僕は考えています。

-------------------------------------

「 Google ニューラル機械翻訳 」を公開しました。
https://youtu.be/lvyCEr2B6Rw?list=PLQIrJ0f9gMcMpryyqVYL-T8Z4zQ-ejvpF

資料pdf
https://drive.google.com/file/d/11zlIVfLl27ErtKdTsf3YUwzYOZllMl5P/view?usp=sharing

blog:「意味の共通表現「インター・リンガ」の発見 」
https://maruyama097.blogspot.com/2023/04/google.html

「ことばと意味の数学的構造」まとめページ
https://www.marulabo.net/docs/math-structure/

「ことばと意味の数学的構造」セミナー申し込みページ

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について