Vision Transformer の画像embedding
【 Vision Transformerの画像embedding 】
大規模言語モデルがMulti-Modal なAI に展開して上で、大きな役割を果たしたシステムがあります。それが、2021年に Google が発表した Vision Transformer です。
自然言語処理の世界では、Transformerベースの大規模言語モデルが大きな成功を収めていたのですが、画像情報処理の世界では、近年に至るまで CNN ( Convolution Neural Network )が主流でした。
それに対して、GoogleのVision Transformer は、大規模な画像情報処理の世界でも、CNNを全く利用せずに、Transformer だけで最先端のCNNのシステムを上回る性能を発揮できることを示しました。
このことは、Transformerをエンジンとする一つのシステムで、自然言語処理と画像処理のタイプの異なる二つの処理が同時に可能になることを意味しています。Vision Transformer が、Multi-ModalなAIへの突破口となったというのは、そういうことです。
【 Vision Transformer 論文、二回に分けて紹介します 】
今回のセミナーに向けて、この論文を二回に分けて紹介したいと思います。
今回のセッションでは、大規模言語モデルの自然言語処理のエンジンであるTransformer が、どのように画像処理のエンジンに転用できたかを、画像のembeddingを中心にお話しします。
次回のセッションでは、Vision Transformer を用いた画像処理では、Attentionがどのような役割を果たしているのかを考えてみたいと思います。
【 Vision Transformer のアーキテクチャー 】
Vision Transformerが自然言語だけではなく、画像も処理できるのは、次のような手法を用いているからです。
「元の画像を小さな画像パッチに分割し、これらのパッチの線形なembeddingのシーケンスをTransformerへの入力として提供する。」
画像パッチは、自然言語処理アプリケーションにおけるトークン(単語)と同じように扱われ、教師あり方式で画像分類モデルを学習します。論文タイトルの "An Image Is Worth 16x16 Words" というのは、このことを指しています。
注目すべきことは、この画像のembedding の方法を除いては、Vision Transformer は、元のTransformerの実装を、可能な限り修正しないようにしています。
ですから、もしも、自然言語処理での標準的なTransformerの実装を知っていれば、この画像のembedding の方法さえ理解すれば、ほとんど、Vision Transformer の振る舞いを理解できることになります。
このセッションでは、主要に、この画像のembedding の手法をみていこうと思います。
【 大規模訓練とInductive Bias 】
ただ、これだけで高い画像認識能力が得られるのでしょうか?実は、中規模のデータで学習した場合、Vision Transformer は、同規模のCNNより劣った性能しか出せません。
それも当然です。CNNには画像認識の特徴に応じた特別の機能がシステムに組み込まれているのですが、Transformerには、そうした特殊な仕掛けは存在しませんから。こうしたことを、「Vision Transformer には、CNNが持つ "Inductive Bias" は存在しない」というふうに表現することがあります。
ところが、より大規模なデータセット(1,400万~3,000万画像)でモデルを学習させると、様相は一変します。画像認識の能力で、Vision Transformer が、最先端のCNNをあっさり抜き去るのです。
このことを、この論文は、「大規模訓練が、帰納的バイアスに勝ることを発見した。」と表現します。
この"Inductive Bias"という概念については、いつか別の機会に触れたいと思っています。(ちなみに僕は、"Deductive Bias" の持ち主なので、生成AI系での"Inductive Bias"論には、偏見を持っています。)
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C
コメント
コメントを投稿