Google Vision Transformer

【 画像処理でのGoogleとOpenAIのアプローチの違い 】

現在の人工知能技術の技術的な焦点の一つは、「Multimodalな人工知能」 の実現にあります。このセッションでは、大規模言語の上に Multimodalな人工知能を実現しようとする動きを紹介しようとおもいます。

マルチモーダルな人工知能とは、現在のテキスト中心の人間と人工知能のインターフェースを大きく変える「見ることも聞くことも話すこともできる」インターフェースを備えた人工知能のことです。

ただ、AIが「聞くこと話すこと」と比べて、AIが「見ること」を実現するのは技術的には様ざまな難しさがあります。ですから、マルチモーダルなAIを目指す技術の大きな関心は、AIが「見ること」の実現にむけられていると僕は考えています。


【 Vision Transformer とは何か? 】

大規模言語モデルがMulti-Modal なAI に展開して上で、大きな役割を果たしたシステムがあります。それが、2021年に Google が発表した Vision Transformer です。

自然言語処理の世界では、Transformerベースの大規模言語モデルが大きな成功を収めていたのですが、画像情報処理の世界では、近年に至るまで CNN ( Convolution Neural Network )が主流でした。

それに対して、GoogleのVision Transformer は、大規模な画像情報処理の世界でも、CNNを全く利用せずに、Transformer だけで最先端のCNNのシステムを上回る性能を発揮できることを示しました。

このことは、Transformerをエンジンとする一つのシステムで、自然言語処理と画像処理のタイプの異なる二つの処理が同時に可能になることを意味しています。

Vision Transformer が、Multi-ModalなAIへの突破口となったというのは、そういうことです。


【 Vision Transformer のアーキテクチャー 】

Vision Transformerが自然言語だけではなく、画像も処理できるのは、次のような手法を用いているからです。

「元の画像を小さな画像パッチに分割し、これらのパッチの線形なembeddingのシーケンスをTransformerへの入力として提供する。」

画像パッチは、自然言語処理アプリケーションにおけるトークン(単語)と同じように扱われ、教師あり方式で画像分類モデルを学習します。

論文タイトルの "An Image Is Worth 16x16 Words" というのは、このことを指しています。

注目すべきことは、この画像のembedding の方法を除いては、Vision Transformer は、元のTransformerの実装を、可能な限り修正しないようにしています。

ですから、もしも、自然言語処理での標準的なTransformerの実装を知っていれば、この画像のembedding の方法さえ理解すれば、ほとんど、Vision Transformer の振る舞いを理解できることになります。

Vision Transformer のembedding については、MaruLaboのページ「大規模言語モデルの展開 -- マルチモーダルへ」 https://www.marulabo.net/docs/multimodal/ のリンクを参照ください。


【 Vision Transformerが登場した時代 】

留意して欲しいのは、2021年のこのモデルが、Transformerを搭載した大規模言語モデルの規模拡大による快進撃の中で生まれたことです。

 「Transformersの計算効率とスケーラビリティのおかげで、100Bを超えるパラメータを持つ前例のないサイズのモデルを訓練することが可能になった(Brown et al.) モデルとデータセットが増大する中、性能が飽和する兆候はまだない。」

「NLPにおけるTransformerのスケーリングの成功に触発され、我々は標準的なTransformerを、可能な限り少ない修正で、画像に直接適用する実験を行う。」


【 Vision Transformerが発見したこと 】

「ImageNetのような中規模のデータセットを強力な正規化なしで学習した場合、これらのモデルの精度は、同程度のサイズのResNetsを数%下回る。

この一見がっかりするような結果は予想通りかもしれない: Transformerは、変換の等価性や局所性といったCNNに固有の帰納的バイアスのいくつかを欠いているため、十分な量のデータで訓練してもうまく汎化できない。

しかし、より大規模なデータセット(1,400万~3,000万画像)でモデルを学習させると、様相は一変する。我々は、大規模訓練が帰納的バイアスに勝ることを発見した。」


【 OpenAIのCLIPのアプローチ 】

CLIPは、GoogleのVision Transfomer のすこし後に、OpenAIによって公開された「テキストとイメージを結合する」を目標とするプロジェクトです。

それは、「見ることも聞くことも話すこともできる」ChatGPTとして最近公開されたGPT-4Vや、テキストから自由に画像を生成することのできるDall E-3の基礎技術です。

OpenAIのCLIPの一つの特徴は、現在のコンピュータによる画像処理技術の現状に満足できないことを率直に語ることから始めていることです。

「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。」

最大のものは、データセットの問題だとOpenAIは言います。
先に見た Vision Transformer は、”Inductive Bias Free”なシンプルなアーキテクチャーでも、データセットの規模を拡大すると、画像認識の性能を上げられることを強調し、「大規模訓練が帰納的バイアスに勝ることを発見した。」と豪語していたのですが、OpenAIのCLIPのアプローチは、すこし違ったものです。

「典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を必要とする。」

「また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できず、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」

なかなか辛辣です。

「我々はこのような問題を解決することを目的としたニューラルネットワークを発表する。」

それがCLIPだといいます。

「それは、インターネット上に豊富に存在する多種多様なnatural language supervisionを用いて、多種多様な画像で学習される。これは重要な変更点である。」

GoogleとOpenAIで、少しマルチモーダルAIの実装の方向性について、違いがあることは、留意してもらえたらと思います。

--------------------------------


ショートムービー「 Google Vision Transformer 」を公開しました。
https://youtu.be/7b7KyEQovZU?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm

「 Google Vision Transformer 」のpdf資料https://drive.google.com/file/d/1bj9GCJ8RjhbX8ME5t6se3K1eEIef1tti/view?usp=sharing

blog 「 画像処理でのGoogleとOpenAIのアプローチの違い 」
https://maruyama097.blogspot.com/2023/11/google-vision-transformer.html

ショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm

角川セミナー 「ChatGPTはどう変わろうとしているのか」まとめページ
https://www.marulabo.net/docs/kadokawa1124/

角川セミナー 「ChatGPTはどう変わろうとしているのか」申し込みページ


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について