GPT-4V System Cardを読む

【「眼を持ったGPT-4」にできること】

今回のセッションでは、先月末(2023/09/25)に公開されたOpenAIの "GPT-4V System Card" というドキュメントを紹介します。https://cdn.openai.com/papers/GPTV_System_Card.pdf

GPT-4Vというのは、"GPT-4 with Vision" という意味で、「画像入力」機能を GPT-4に組み込んだOpenAIのマルチモーダルなAIモデルの最新版です。

GPT-4V System Cardは、OpenAIがどのようにGPT-4の視覚機能を配備する準備をしたかを概説しています。重要なことは、このSystem Cardでは、GPT-4Vの安全性が分析されていることです。

この間、マルレクでは大規模言語モデルが、Visualな能力の獲得を中心とするマルチモーダルなAIに展開していくだろうという話をしてきました。"GPT-4V = GPT-4 with Vision" のローンチは、まさにこうした流れを体現するものです。

ただ、「GPT-4が眼を持ったらどうなるのだろう？」というイメージを、皆が具体的に持っているわけではないように僕は感じています。

GPT-4V System Card には、画像とテキストによるプロンプトを組み合わせると AIはどんなことができるようになるかという具体的なサンプルが、沢山、提供されています。

今回のセッションを通じて、多くの人がマルチモーダルなAIと人間との対話のイメージを具体的に持ってもらえればいいと思っています。

---------------------------------

ショートムービー「 GPT-4V System Cardを読む」を公開しました。
https://youtu.be/uGSP3QJcKwE?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

ショートムービー「 GPT-4V System Cardを読む」のpdf資料
https://drive.google.com/file/d/1AANJB6GP15vb4NCpGqQI14XkEpSMOF18/view?usp=sharing

blog : 「「眼を持ったGPT-4」にできること」　

https://maruyama097.blogspot.com/2023/10/gpt-4v-system-card.html

セミナーに向けたショートムービーの再生リスト

https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

マルレク「AIの利用とインターフェースを考える」のまとめページ

https://www.marulabo.net/docs/personalai/

過去・現在・未来