Transformerの登場
Transformerの登場 今回は、意味の分散表現論の流れの中で、最も重要な技術的達成の一つであるTransformerの話です。この間、2回のInterludeを挟んで話題が飛んでいたので、これまでの投稿を振り返りから始めていきたいと思います。一部の議論の重複お許しください。 Interlude以前の投稿で、2014年のIlya Sutskever らによる「文の意味のベクトル表現の発見」が、意味の分散表現論の大きな転機となったことを紹介してきました。 「文の意味のベクトル表現の発見」 https://maruyama097.blogspot.com/2025/12/blog-post_30.html そこでも述べましたが、特に重要な出来事は、この発見に刺激を受けてBengioのグループが、Attention メカニズムを提案したことです。(以前の資料では、Attentionメカニズムの提案は、2016年になっていますが、正確には、2014年です。詳しくは、このblogのAppendixをご覧ください。) 今回のテーマのTransformerは、このAttention メカニズムの集大成です。 そのことは、2017年のTransformerの論文タイトルの "Attention Is All You Need" https://arxiv.org/pdf/1706.03762 によく表れています。 同時に、意味の分散表現論にとって、Transformerの登場は画期的なものでした。そのことは、翻訳モデルとして提起されたTransformer のアーキテクチャーが、大規模言語モデルの最も基本的なエンジンに姿を変えて、論文発表後9年たった今日も、生き続けていることを見ればわかると思います。 翻訳システムの進化 Transformer論文の出る一年前の2016年、当時のAI技術の中心領域であった機械翻訳の分野で、画期的な成果が世に出ます。前回のポストで紹介した、「Googleニューラル機械翻訳 GNMT」です。それは、2014年の Ilya Sutskever の Sequence to Sequence の翻訳システムの進化系です、 Ilyaの翻訳システムでは、Enc...