Show, Attend and Tell
【 Show, Attend and Tell ! 】
現代の大規模言語モデルのエンジンは、「意味の分散表現」と「Attention Mechanism」を中核とするTransformerなのですが、Attention Mechanism を提唱した最初の論文は、2016年のBahdanauらによる次の論文です。
"Neural machine translation by jointly learning to align and translate"
https://arxiv.org/pdf/1409.0473.pdf
このアーキテクチャーは、Googleの「ニューラル機械翻訳システム」に直ちに取り入れられ、機械翻訳のブレークスルーを引き起こしました。
これらの二つのシステムは、いずれも、RNNをエンジンとするものでしたが、「意味の分散表現」と「Attention Mechanism」を技術的中核とする点では、現代のTransformer エンジンと大きな共通点があります。この二つのシステムを、Transfomerの「祖型」と考えることができると僕は考えています。
実は、2016年のBahdanauらの論文より前に、Attentionの重要性を指摘した論文があるのです。それは、2015年のKelvin Xu らの次の論文です。
"Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"
http://arxiv.org/pdf/1502.03044v2.pdf
BahdanauもKelvin Xuも、Bengioの研究グループに属する人で、Attentionについてのこの二つの先駆的な論文には、いずれにも、Bengio が Last Author として名を連ねています。
興味深いことは、ここで提唱されているのは、画像に対するAttentionを利用することで、画像からCaptionを生成することができるというシステムでした。
このシステムは、画像認識のエンジンにCNNを利用し、Caption生成にはRNNをエンジンとして利用するという混合エンジンのシステムでしたが、二つのエンジンの間をつなぐのが、Attention でした。
簡単にいうと、画像のある部分にAttentionを固定した時(それは文字通りあるオブジェクトに「注意」を集中することです)、そのオブジェクトに対応する単語を生成するというものです。視点が移動するにつれて、Captionが生成されることになります。
これは、前回見た、画像中のオブジェクトの認識に、Window Sliding を利用するというアプローチと、よく似ていると僕は考えています。
大規模言語モデルはMulti-Modal化して、画像認識の能力と同時に画像を記述するテキストを生成する能力も獲得しようとしているわけですが、この点では、Kelvin Xu らシステムは、その「祖型」と考えることができると思います。
今回のセッションでは、この "Show, Attend and Tell" 論文を紹介します。
"Show, Attend and Tell " というのは、こんな意味だと思います。
「画像を僕に見せて。僕は画像を注意深くチェックするから。そうすれば、僕は 、君にその内容を言葉で話すことができるよ。」
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C
コメント
コメントを投稿