GPT-4V System Cardを読む

【 「眼を持ったGPT-4」にできること 】

今回のセッションでは、先月末(2023/09/25)に公開されたOpenAIの "GPT-4V System Card" というドキュメントを紹介します。https://cdn.openai.com/papers/GPTV_System_Card.pdf

GPT-4Vというのは、"GPT-4 with Vision" という意味で、「画像入力」機能を GPT-4に組み込んだOpenAIのマルチモーダルなAIモデルの最新版です。

GPT-4V System Cardは、OpenAIがどのようにGPT-4の視覚機能を配備する準備をしたかを概説しています。重要なことは、このSystem Cardでは、GPT-4Vの安全性が分析されていることです。

この間、マルレクでは大規模言語モデルが、Visualな能力の獲得を中心とするマルチモーダルなAIに展開していくだろうという話をしてきました。"GPT-4V = GPT-4 with Vision" のローンチは、まさにこうした流れを体現するものです。

ただ、「GPT-4が眼を持ったらどうなるのだろう?」というイメージを、皆が具体的に持っているわけではないように僕は感じています。

GPT-4V System Card には、画像とテキストによるプロンプトを組み合わせると AIはどんなことができるようになるかという具体的なサンプルが、沢山、提供されています。

今回のセッションを通じて、多くの人がマルチモーダルなAIと人間との対話のイメージを具体的に持ってもらえればいいと思っています。

---------------------------------

ショートムービー「 GPT-4V System Cardを読む 」を公開しました。
https://youtu.be/uGSP3QJcKwE?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

ショートムービー 「 GPT-4V System Cardを読む 」のpdf資料
https://drive.google.com/file/d/1AANJB6GP15vb4NCpGqQI14XkEpSMOF18/view?usp=sharing

blog : 「 「眼を持ったGPT-4」にできること 」 
https://maruyama097.blogspot.com/2023/10/gpt-4v-system-card.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

マルレク「AIの利用とインターフェースを考える」のまとめページ
https://www.marulabo.net/docs/personalai/


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について