CLIPのデータセットと予測サンプル
【 CLIPの性能を見る 】
このセッションでは、CLIPがどのようなデータセットを訓練用データを構築したのか、また、CLIPがどのような性能を持つかを、いくつかのサンプルで見ていこうと思います。
CLIPの基本的なアイデアの一つは、さまざまな画像認識タスクをを訓練する大規模なデータセットを、インターネット上に大量に存在するテキストと画像のペアから構築しようということです。そこでは、natural language supervision によるテキストが与える画像の解釈が重要な役割を果たします。
【 従来の研究で利用されたデータセット】
既存のコンピュータビジョンの研究では、主にMS-COCO、Visual Genome、YFCC100M の3つのデータセットを使用しています。
MS-COCOとVisual Genomeは高品質のクラウドラベル付きデータセットですが、それぞれ約10万枚のトレーニング写真からなり、現代の基準からすると小規模です。
YFCC100Mは1億枚の写真からなります。ただ、各画像のメタデータはまばらで、品質も様々です。英語の自然言語のタイトルや説明文を持つ画像だけを残すようにフィルタリングした結果、 YFCC100Mデータセットは6分の1に縮小され、わずか1500万枚の写真になりました。これはImageNetとほぼ同じサイズです。
それら以外にも、画像認識で利用されたデータセットは沢山あります。この論文では、27個のデータセットを紹介して、それをCLIPの性能評価用に利用しています。
「この問題に対処するため、我々はインターネット上の様々な公開ソースから収集した4億組の(画像、テキスト)データセットを新たに構築した。」
「可能な限り幅広い視覚的概念をカバーするため、構築プロセスの一環として、テキストが50万件のクエリのいずれかを含む(画像、テキスト)ペアを検索した。」
「クエリごとに最大2万件の(画像、テキスト)ペアを含めることで、結果をおおよそクラスバランスさせた。得られたデータセットの総語数は、GPT-2の学習に使用したWebTextデータセットとほぼ同じである。このデータセットをWebImageTextのWITと呼ぶ。」
------------------------------------------------------------
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C
https://multimodal.peatix.com/
コメント
コメントを投稿