CLIP -- Contrastive Representation Learning
【 「似ているもの」は近くに、「違うもの」は遠くに 】
「テキストとイメージの」結合を目指したOpenAIのプロジェクトCLIPを紹介しています。
これまで、第一に、"natural language supervision" という、ことばで画像の意味を伝えるというアプローチと、第二に、人手によるラベル付は行わず、インターネット上のテキストとイメージのペアを見つけて巨大な訓練用データセットを作ったという話をしてきました。
今回のセッションでは、CLIP ( "Contrastive Language-Image Pre-training" ) という名前の元となった "Contrastive Representation Learning" というCLIP の訓練法を紹介します。
contrastive というのは、日本語の「コントラスト」の形容詞形です。「コントラストのはっきりした」という意味です。"Contrastive Representation Learning" を「対比的表現学習」と訳していいと思います。
この訓練法は、画像認識での定番のCNNの訓練法とも、大規模言語モデルのTransformerの訓練法とも、少し違ったものです。では何故、これらの「実績」のある訓練法ではなく、CLIPは別の訓練法を選んだのでしょう?
それは、「最先端のコンピュータビジョン・システムは、非常に大量の計算を使用する。」からです。インターネットから沢山のテキストと画像のペアを集めて、巨大なデータセットを作ったとしても、現実的には計算能力が追いつかないのです。
CLIPが選択した "natural language supervision" は非常に魅力的なアプローチです。ただ、OpenAIのCLIPチームは、いろいろな試行錯誤の中で、このアプローチをスケールさせる成功の鍵は、やはり、その学習効率であることに気づきます。
そこで選択されたのが、"Contrastive Representation Learning" だったのです。
直観的には、対比的表現学習は、比較することによって学習します。何と何を比較するのでしょう? 比較は「似ている」入力のペア(これを「正のペア」とよびます)と、「似ていない」入力のペア(これを「負のペア」とよびます))の間で行うことができます。
何のために、こういう「似ている」「似ていない」のコントラウトがはっきりしているものを、わざわざ比較するのでしょう?
対比的表現学習では、普通はエンコーダーが生成するデータの特徴を表す「特徴embedding」の他に、もう一つのembedding 「表現embedding」を考えます。空間で言えば、「特徴embedding」がマップされる「特徴空間」の他に、「表現embedding」がマップされる「表現空間」を考えます。
特徴embeddingから表現embeddingへの変換を行うのを、「ヘッド」と呼びます。
「似ている」という特徴をもつサンプルは、この「表現空間」への埋め込みでは「近く」にマップされ、「似ていない」という特徴を持つサンプルは、この「表現空間」では「遠く」にマップされるべきだと考えます。「表現空間」は、二点間の距離が定義された計量空間です。
従って、肯定的なサンプルと否定的なペアのサンプルを対比することで、「表現空間」で、肯定的なペアの表現は引き寄せられ、否定的なペアの表現は遠くに押しやられることになります。
対比的表現学習については、あらためてマルチモーダルとの関係で、その働きを紹介できたらと考えています。
ただ、これで計算効率の問題が、解決されるわけではないのです。
CLIP論文の第6章、"Limitation"は、次のように述べています。
「スケーリングは今のところ着実に性能を向上させており、継続的な改善の道筋を示唆しているが、ゼロショットCLIPが全体的な最先端性能に到達するためには、約1000倍の計算量の増加が必要であると推定される。これは現在のハードウェアでは訓練不可能である。CLIPの計算効率とデータ効率を改善するためのさらなる研究が必要であろう。」
「CLIPはまた、ディープラーニングのデータ効率の悪さにも対処していない。その代わりにCLIPは、何億もの学習例に拡張可能な監視ソースを使用することで補っている。CLIPモデルのトレーニング中に見られるすべての画像が1秒に1枚の割合で提示された場合、32のトレーニングエポックにわたって見られる128億枚の画像を反復するのに405年かかる。」
------------------------------------------------------------
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C
https://multimodal.peatix.com/
コメント
コメントを投稿