CLIP -- Contrastive Representation Learning

【 「似ているもの」は近くに、「違うもの」は遠くに 】

「テキストとイメージの」結合を目指したOpenAIのプロジェクトCLIPを紹介しています。

これまで、第一に、"natural language supervision" という、ことばで画像の意味を伝えるというアプローチと、第二に、人手によるラベル付は行わず、インターネット上のテキストとイメージのペアを見つけて巨大な訓練用データセットを作ったという話をしてきました。

今回のセッションでは、CLIP ( "Contrastive Language-Image Pre-training" ) という名前の元となった "Contrastive Representation Learning" というCLIP の訓練法を紹介します。

contrastive というのは、日本語の「コントラスト」の形容詞形です。「コントラストのはっきりした」という意味です。"Contrastive Representation Learning" を「対比的表現学習」と訳していいと思います。

この訓練法は、画像認識での定番のCNNの訓練法とも、大規模言語モデルのTransformerの訓練法とも、少し違ったものです。では何故、これらの「実績」のある訓練法ではなく、CLIPは別の訓練法を選んだのでしょう?

それは、「最先端のコンピュータビジョン・システムは、非常に大量の計算を使用する。」からです。インターネットから沢山のテキストと画像のペアを集めて、巨大なデータセットを作ったとしても、現実的には計算能力が追いつかないのです。

CLIPが選択した "natural language supervision" は非常に魅力的なアプローチです。ただ、OpenAIのCLIPチームは、いろいろな試行錯誤の中で、このアプローチをスケールさせる成功の鍵は、やはり、その学習効率であることに気づきます。

そこで選択されたのが、"Contrastive Representation Learning" だったのです。

直観的には、対比的表現学習は、比較することによって学習します。何と何を比較するのでしょう?  比較は「似ている」入力のペア(これを「正のペア」とよびます)と、「似ていない」入力のペア(これを「負のペア」とよびます))の間で行うことができます。

何のために、こういう「似ている」「似ていない」のコントラウトがはっきりしているものを、わざわざ比較するのでしょう?

対比的表現学習では、普通はエンコーダーが生成するデータの特徴を表す「特徴embedding」の他に、もう一つのembedding 「表現embedding」を考えます。空間で言えば、「特徴embedding」がマップされる「特徴空間」の他に、「表現embedding」がマップされる「表現空間」を考えます。

特徴embeddingから表現embeddingへの変換を行うのを、「ヘッド」と呼びます。

「似ている」という特徴をもつサンプルは、この「表現空間」への埋め込みでは「近く」にマップされ、「似ていない」という特徴を持つサンプルは、この「表現空間」では「遠く」にマップされるべきだと考えます。「表現空間」は、二点間の距離が定義された計量空間です。

従って、肯定的なサンプルと否定的なペアのサンプルを対比することで、「表現空間」で、肯定的なペアの表現は引き寄せられ、否定的なペアの表現は遠くに押しやられることになります。

対比的表現学習については、あらためてマルチモーダルとの関係で、その働きを紹介できたらと考えています。

ただ、これで計算効率の問題が、解決されるわけではないのです。

CLIP論文の第6章、"Limitation"は、次のように述べています。

「スケーリングは今のところ着実に性能を向上させており、継続的な改善の道筋を示唆しているが、ゼロショットCLIPが全体的な最先端性能に到達するためには、約1000倍の計算量の増加が必要であると推定される。これは現在のハードウェアでは訓練不可能である。CLIPの計算効率とデータ効率を改善するためのさらなる研究が必要であろう。」

「CLIPはまた、ディープラーニングのデータ効率の悪さにも対処していない。その代わりにCLIPは、何億もの学習例に拡張可能な監視ソースを使用することで補っている。CLIPモデルのトレーニング中に見られるすべての画像が1秒に1枚の割合で提示された場合、32のトレーニングエポックにわたって見られる128億枚の画像を反復するのに405年かかる。」

まだまだ、課題はあるようです。

------------------------------------------------------------


ショートムービー 「 CLIP -- Contrastive Representation Learning 」を公開しました
https://youtu.be/LqaR3LBfvy8?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

ショートムービー 「 CLIP -- Contrastive Representation Learning 」のpdf資料
https://drive.google.com/file/d/1dFlPzmlEAZKbVmdQWIfjJw8wieYNUXoq/view?usp=sharing

blog : 「 「似ているもの」は近くに、「違うもの」は遠くに 」
https://maruyama097.blogspot.com/2023/09/clip-contrastive-representation-learning.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

マルレク「大規模言語モデルの展開」のまとめページ

マルレク「大規模言語モデルの展開」の申し込みページ
https://multimodal.peatix.com/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について