【 GPT-4Vの技術的達成と限界 】
今回と次回のセッションでは、「VisualなAI」の課題を、 二回に分けて二つの切り口から考えます。
今回扱う一つの切り口では、OpenAIの「VisualなAI」へのアプローチを技術的な側面から展開した 「CLIP論文」をベースに、 GPT-4Vの「技術的達成と限界」を考えたいと思います。
次回のセッションで扱うもう一つの切り口は、機械の視覚能力と人間の視覚能力との比較をしてみることです。そこからVisualなAIの課題を考えます。
二つ目の切り口は、「視覚能力の進化」を考えることに帰着すると僕は考えているのですが、その進化史には機械が登場します。
<< GPT-4VとCLIP論文>>
GPT-4Vの技術的達成と限界を見る今回のセッションは、OpenAIの「CLIP論文」に依拠しています。
これについては、先月行ったマルレク「大規模言語モデルの展開 -- マルチモーダルへ」の
"Part 3 CLIP: Connecting text and images" を参照ください。
https://www.marulabo.net/docs/multimodal/#part-3-clip-connecting-text-and-images
【 GPT-4Vの技術的達成 】
OpenAIのAIによる画像認識技術に対する認識は、なかなかシビアなものです。そうした観点は注目に値します。
「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。
典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を要する。また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できない。
これらは、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」
OpenAI は言います。「我々はこのような問題を解決することを目的としたニューラルネットワークを発表する。」それが CLIP だといいます。
「それは、インターネット上に豊富に存在する多種多様なnatural language supervisionを用いて、多種多様な画像で学習される。これは重要な変更点である。」
CLIPの達成したことは、ある意味で画期的なものでした。
CLIPの基本的なアイデアの一つは、さまざまな画像認識タスクをを訓練する大規模なデータセットを、インターネット上に大量に存在するテキストと画像のペアから構築しようということです。
「インターネット上で公開されている大量のこの形式のデータを利用し、4億の(画像とテキストの)ペアからなる新しいデータセットを作成した」
もう一つの中心的アイデア “natural language supervision” というのは、自然言語で書かれたテキストの意味を抽出して(それは、大規模言語モデルがもっとも得意とするところです)、その管理下で画像処理のタスク処理を行うということです。それは、画像の「意味」を対応するテキストが与えると考えることです。
こうしたアプローチで、CLIPは、この節の冒頭に引用した「コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけ」かねない問題の多くを解決したのです。
【 GPT-4Vの技術的限界 】
CLIP論文が重要なのは、単に、こうしたCLIPの達成を述べているからではありません。
CLIP論文の第6章には「限界」という章が設けられています。
「CLIPにはまだ多くの限界がある。 … ここではそれらを要約してまとめる。」
これが、興味深い情報を提供しています。そのいくつかを簡単に紹介しようと思います。詳しくは、動画なりそのpdfをご覧ください。
・必要な計算量について
「ゼロショットCLIPが全体的な最先端性能に到達するためには、約1000倍の計算量の増加が必要であると推定される。これは現在のハードウェアでは訓練不可能である。」
・学習効率の悪さ
「CLIPモデルのトレーニング中に見られるすべての画像が1秒に1枚の割合で提示された場合、32のトレーニングエポックにわたって見られる128億枚の画像を反復するのに405年かかる。」
・苦手なタスクの存在
「「CLIPのゼロショット性能は、いくつかの種類のタスクではまだかなり弱いことがわかった。 … 画像内のオブジェクトの数を数えるような、より抽象的で体系的なタスクでも苦戦する。… CLIPのゼロショット性能が偶然に近いレベルであるタスクはまだまだたくさんあると確信している.」
・訓練データに含まれないデータの認識
「CLIPは、MNISTの手書き数字では88%の精度しか達成できなかった。このことは、CLIPが深層学習モデルの脆い汎化という根本的な問題にほとんど対処していないことを示唆している。代わりにCLIPはこの問題を回避しようとし、このような大規模で多様なデータセットで学習することで、すべてのデータが効果的に分布内となることを期待している。これは素朴な仮定である。」
・画像に対してキャプションを生成できるわけではないこと
「CLIPは様々なタスクやデータセットに対して柔軟にゼロショット分類器を生成することができるが、それでもCLIPは生成されたゼロショット分類器内の概念のみから選択するという制限がある。これは、新しい出力を生成できる画像へのキャプション付けのような真に柔軟なアプローチと比較すると、大きな制限である。」
・データセットの「バイアス」の問題
「CLIPはインターネット上の画像と対になったテキストで学習される。これらの画像とテキストのペアはフィルタリングされておらず、キュレーションもされていないため、CLIPモデルは多くの社会的バイアスを学習することになる。」
等々、長くなるので以下省略しますが、様々な問題が指摘されています。
僕は OpenAIのこうした「率直さ」は好きです。あまり、がっかりさせてもいけないと思い、「CLIPの可能性と研究課題」というセクションにまとめておきました。
「今はこうだが、そのうちChatGPTみたいに大化けするかもしれない。」といった期待があることと、弱点克服のための今後の研究課題をまとめておきました。
---------------------------------
ショートムービー「 「VisualなAI」の課題 (1) 」を公開しました。
https://youtu.be/koKo_hkTPwA?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU
ショートムービー 「 「VisualなAI」の課題 (1) 」のpdf資料https://drive.google.com/file/d/1ASSHVma7BXhoXfXYRd6ToPHHYaerpxVS/view?usp=sharing
blog : 「 GPT-4Vの技術的達成と限界 」
https://maruyama097.blogspot.com/2023/10/visualai-1.html
セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU
マルレク「AIの利用とインターフェースを考える」のまとめページ
https://www.marulabo.net/docs/personalai/
コメント
コメントを投稿