【 インターリンガ -- 言語をまたぐ「意味の共通表現」の発見 】
今回のセッションでは、現在の大規模言語モデル成立の画期となった「Googleニューラル機械翻訳」(以下、GNMTと略記します)を取り上げます。このシステムは、以前の翻訳システムにはないいくつかの特徴を備えています。まず、それを見ていきましょう。
【 多言語翻訳を単一モデルで】
GNMT以前の機械翻訳システムは、基本的には特定の二つの言語間の翻訳のために作られたものでした。このスタイルだと、n個の言語の組み合わせで翻訳システムを作ろうとすれば、n(n-1)個の翻訳システムが必要になります。
GNMTは、アーキテクチャを大幅に変更することなく、単一のモデルを使用して複数言語のペアを処理するための十分に単純で効率的な方法を提供します。
その上、まず、多言語モデルは、単一言語ペアのモデルよりハンディがあるにもかかわらず、多対1のモデルは、単一モデルより翻訳の精度が向上することが示されたのです。
【 「ゼロショット翻訳」が可能 】
「ゼロショット翻訳」というのは、明示的な訓練データがない言語ペアの間でも翻訳が可能だということです。
例えば、「ポルトガル語から英語へ翻訳」「英語からスペイン語へ翻訳」で訓練されたGNMTは、明示的な訓練データと訓練がないにもかかわらず、「スペイン語からポルトガル語」の翻訳が可能となります。
また、「英語からポルトガル語への翻訳」「英語からスペイン語への翻訳」で訓練されたGNMTも、同様に、「スペイン語からポルトガル語」の翻訳が可能となります。
不思議です。
GNMTを複数の言語にまたがってトレーニングすることで、個々の言語レベルでのパフォーマンスが向上し、ゼロ・ショット翻訳も有効になることがわかるということが、この論文の結論なのですが、それは何を意味しているのでしょうか?
一つの考え方は、言語にかかわらず、GNMTは、同じ意味を持つ文をが同じような方法で表現される何らかの共有表現を学習していると考えることです。論文は、こうした考えを支持する証拠を発見したといいます。これは、とても興味深いことなので、少し詳しく見てみましょう。
【「文の意味の共通表現」の存在の発見 】
以前のIlyaたちの翻訳モデルでは、Encoderの最後の出力である「固定長ベクトル」が「文の意味の表現」だと解釈され、Decoderの入力に与えられていました。
ただ、Attentionモデルでは、こうした考えを放棄して、EncoderからDecoderに与えられるのはEncoderの最終状態ではなく、 Encoderの全ての内部状態をDecoderが必要に応じて利用するという形に置き換えられました。GNMTは、Attention メカニズムを採用しています。
確かに、こうしたAttentionのメカニズムを通じてEncoderからDecoderに渡される情報の総体を「文の意味の表現」と考えることはできるのですが、そのイメージは、以前の「固定長ベクトル」による表現ほど明確ではありません。
ただ、GNMTの作者たちは、Attentionのメカニズムを通じてEncoderからDecoderに渡される情報を、Attentionベクトルとして取り出して、その特徴を詳しく調べ始めます。
そうすると、驚くべきことに、言語は異なっていても「同じ意味」を持つ文のAttentionベクトルは、同じものになることを発見します。(正確には、同じ意味を持つ文のAttentionベクトルは近くに集まってクラスターを作ることを見出したのですが)
彼らは、これを言語をまたぐ(Inter Lingua)「意味の共通表現」が存在することを発見したと主張します。
固定長ベクトルからAttentionベクトルに形は変わっていますが、言語を問わず共通する意味の分散表現が存在するという主張は、とても重要なものだと僕は考えています。
------------------------------
「 Googleニューラル機械翻訳 」 を公開しました。
https://youtu.be/lZDbF8Qvmlk?list=PLQIrJ0f9gMcMl-rOnfK6S5EPXazITzFeK
資料pdf
https://drive.google.com/file/d/17gSZyoaYN6Lcy2NC_PF02fwlOvspVRgj/view?usp=sharing
blog:「インターリンガ -- 言語をまたぐ「意味の共通表現」の発見 」
https://maruyama097.blogspot.com/2023/01/blog-post_26.html
まとめページ
https://www.marulabo.net/docs/meaning/
コメント
コメントを投稿