CLIPのデータセットと予測サンプル

9月 21, 2023

【 CLIPの性能を見る】

このセッションでは、CLIPがどのようなデータセットを訓練用データを構築したのか、また、CLIPがどのような性能を持つかを、いくつかのサンプルで見ていこうと思います。

CLIPの基本的なアイデアの一つは、さまざまな画像認識タスクをを訓練する大規模なデータセットを、インターネット上に大量に存在するテキストと画像のペアから構築しようということです。そこでは、natural language supervision によるテキストが与える画像の解釈が重要な役割を果たします。

【従来の研究で利用されたデータセット】

既存のコンピュータビジョンの研究では、主にMS-COCO、Visual Genome、YFCC100M の3つのデータセットを使用しています。

MS-COCOとVisual Genomeは高品質のクラウドラベル付きデータセットですが、それぞれ約10万枚のトレーニング写真からなり、現代の基準からすると小規模です。

YFCC100Mは1億枚の写真からなります。ただ、各画像のメタデータはまばらで、品質も様々です。英語の自然言語のタイトルや説明文を持つ画像だけを残すようにフィルタリングした結果、 YFCC100Mデータセットは6分の1に縮小され、わずか1500万枚の写真になりました。これはImageNetとほぼ同じサイズです。

それら以外にも、画像認識で利用されたデータセットは沢山あります。この論文では、27個のデータセットを紹介して、それをCLIPの性能評価用に利用しています。

【 CLIPはどのようなデータセットで訓練されたのか? 】

「natural language supervisionの主な動機は、インターネット上で公開されている大量のデータである。既存のデータセットはこの可能性を十分に反映していないため、それらのデータセットのみでの結果を考慮することは、この研究分野の可能性を過小評価することになる。」

「この問題に対処するため、我々はインターネット上の様々な公開ソースから収集した4億組の（画像、テキスト）データセットを新たに構築した。」

「可能な限り幅広い視覚的概念をカバーするため、構築プロセスの一環として、テキストが50万件のクエリのいずれかを含む（画像、テキスト）ペアを検索した。」

「クエリごとに最大2万件の（画像、テキスト）ペアを含めることで、結果をおおよそクラスバランスさせた。得られたデータセットの総語数は、GPT-2の学習に使用したWebTextデータセットとほぼ同じである。このデータセットをWebImageTextのWITと呼ぶ。」

【 CLIPの性能をサンプルで見る】

ビデオ・スライドでは、CLIPがどのような画像認識の能力を持っているかを、36個のサンプルで紹介しています。これらの例は、OpenAIがCLIP論文のAppendix で公開しているものです。認識に成功した例だけではなく、失敗した例も含まれています。

CLIPは、先にあげた27のデータセットのテストデータの画像で試してみると、16のデータセットでは、元のモデルより優れた成績を上げています。（ただ、残りの11のデータセットでは性能が劣ります。）

まあ、目の覚めるような成績ではないかもしれません。がっかりした人がいるかもしれません。でも、それが現在の到達点だということは、知っておいていいことだと思います。

この27のデータセットというのは、基本的にはそれぞれ特定の分野の特定のカテゴリーの認識に特化して人間の手でラベル付されたものです。CLIPの訓練用データセットWITでは、そうした人間の介入は最小限に抑えられています。それでも、ほぼ同等の性能をマークできたことは評価できることだと思います。これからの飛躍に期待しましょう。

【次回のトピックス】

次回は、CLIP（Contrastive Language-Image Pre-training）の名前の元となっていて、CLIPの実装の基本になっているContrastive Representation Learning　（対比的表現学習）について説明しようと思います。

------------------------------------------------------------

ショートムービー「 CLIPのデータセットと予測サンプル」を公開しました

https://youtu.be/zto2CnB_-Kc?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

ショートムービー「 CLIPのデータセットと予測サンプル」のpdf資料

https://drive.google.com/file/d/1bngaxYQqdliOvlZeEclWRnBdHNDJEJhg/view?usp=sharing

blog : 「 CLIPの性能を見る」

https://maruyama097.blogspot.com/2023/09/clip_0349528492.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C

マルレク「大規模言語モデルの展開」のまとめページ

https://www.marulabo.net/docs/multimodal/

マルレク「大規模言語モデルの展開」の申し込みページ
https://multimodal.peatix.com/

このブログを検索

過去・現在・未来

CLIPのデータセットと予測サンプル

コメント

コメントを投稿

このブログの人気の投稿

初めにことばありき

密度行列とは何か？

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来