「VisualなAI」の課題 (1)
【 GPT-4Vの技術的達成と限界 】 今回と次回のセッションでは、「VisualなAI」の課題を、 二回に分けて二つの切り口から考えます。 今回扱う一つの切り口では、OpenAIの「VisualなAI」へのアプローチを技術的な側面から展開した 「CLIP論文」をベースに、 GPT-4Vの「技術的達成と限界」を考えたいと思います。 次回のセッションで扱うもう一つの切り口は、機械の視覚能力と人間の視覚能力との比較をしてみることです。そこからVisualなAIの課題を考えます。 二つ目の切り口は、「視覚能力の進化」を考えることに帰着すると僕は考えているのですが、その進化史には機械が登場します。 << GPT-4VとCLIP論文>> GPT-4Vの技術的達成と限界を見る今回のセッションは、OpenAIの「CLIP論文」に依拠しています。 https://openai.com/research/clip https://arxiv.org/pdf/2103.00020.pdf これについては、先月行ったマルレク「大規模言語モデルの展開 -- マルチモーダルへ」の "Part 3 CLIP: Connecting text and images" を参照ください。 https://www.marulabo.net/docs/multimodal/#part-3-clip-connecting-text-and-images 【 GPT-4Vの技術的達成 】 OpenAIのAIによる画像認識技術に対する認識は、なかなかシビアなものです。そうした観点は注目に値します。 「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。 典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を要する。また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できない。 これらは、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」 OpenAI は言います。「我々はこのよ