Show, Attend and Tell

【 Show, Attend and Tell ! 】

現代の大規模言語モデルのエンジンは、「意味の分散表現」と「Attention Mechanism」を中核とするTransformerなのですが、Attention Mechanism を提唱した最初の論文は、2016年のBahdanauらによる次の論文です。

 "Neural machine translation by jointly learning to align and translate"
 https://arxiv.org/pdf/1409.0473.pdf

このアーキテクチャーは、Googleの「ニューラル機械翻訳システム」に直ちに取り入れられ、機械翻訳のブレークスルーを引き起こしました。

これらの二つのシステムは、いずれも、RNNをエンジンとするものでしたが、「意味の分散表現」と「Attention Mechanism」を技術的中核とする点では、現代のTransformer エンジンと大きな共通点があります。この二つのシステムを、Transfomerの「祖型」と考えることができると僕は考えています。

実は、2016年のBahdanauらの論文より前に、Attentionの重要性を指摘した論文があるのです。それは、2015年のKelvin Xu らの次の論文です。

 "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"
 http://arxiv.org/pdf/1502.03044v2.pdf 

BahdanauもKelvin Xuも、Bengioの研究グループに属する人で、Attentionについてのこの二つの先駆的な論文には、いずれにも、Bengio が Last Author として名を連ねています。

興味深いことは、ここで提唱されているのは、画像に対するAttentionを利用することで、画像からCaptionを生成することができるというシステムでした。

このシステムは、画像認識のエンジンにCNNを利用し、Caption生成にはRNNをエンジンとして利用するという混合エンジンのシステムでしたが、二つのエンジンの間をつなぐのが、Attention でした。

簡単にいうと、画像のある部分にAttentionを固定した時(それは文字通りあるオブジェクトに「注意」を集中することです)、そのオブジェクトに対応する単語を生成するというものです。視点が移動するにつれて、Captionが生成されることになります。

これは、前回見た、画像中のオブジェクトの認識に、Window Sliding を利用するというアプローチと、よく似ていると僕は考えています。

大規模言語モデルはMulti-Modal化して、画像認識の能力と同時に画像を記述するテキストを生成する能力も獲得しようとしているわけですが、この点では、Kelvin Xu らシステムは、その「祖型」と考えることができると思います。

今回のセッションでは、この "Show, Attend and Tell" 論文を紹介します。
"Show, Attend and Tell " というのは、こんな意味だと思います。

「画像を僕に見せて。僕は画像を注意深くチェックするから。そうすれば、僕は 、君にその内容を言葉で話すことができるよ。」

------------------------------------------------------------

ショートムービー 「 Caption生成の試みとAttention 」を公開しました
https://youtu.be/Ad3r1ceK-b4?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

ショートムービー 「 Caption生成の試みとAttention 」のpdf資料
https://drive.google.com/file/d/1Yn0HouPLC-MwvbHMiMVB3-priJ4Ljteg/view?usp=sharing

blog : 「 Show, Attend and Tell !  」
https://maruyama097.blogspot.com/2023/09/show-attend-and-tell.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

マルレク「大規模言語モデルの展開」のまとめページ

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について