投稿

「VisualなAI」の課題 (1)

 【 GPT-4Vの技術的達成と限界 】 今回と次回のセッションでは、「VisualなAI」の課題を、 二回に分けて二つの切り口から考えます。 今回扱う一つの切り口では、OpenAIの「VisualなAI」へのアプローチを技術的な側面から展開した 「CLIP論文」をベースに、 GPT-4Vの「技術的達成と限界」を考えたいと思います。 次回のセッションで扱うもう一つの切り口は、機械の視覚能力と人間の視覚能力との比較をしてみることです。そこからVisualなAIの課題を考えます。 二つ目の切り口は、「視覚能力の進化」を考えることに帰着すると僕は考えているのですが、その進化史には機械が登場します。 << GPT-4VとCLIP論文 >> GPT-4Vの技術的達成と限界を見る今回のセッションは、OpenAIの「CLIP論文」に依拠しています。 https://openai.com/research/clip   https://arxiv.org/pdf/2103.00020.pdf これについては、先月行ったマルレク「大規模言語モデルの展開 -- マルチモーダルへ」の "Part 3 CLIP: Connecting text and images" を参照ください。 https://www.marulabo.net/docs/multimodal/#part-3-clip-connecting-text-and-images 【 GPT-4Vの技術的達成 】 OpenAIのAIによる画像認識技術に対する認識は、なかなかシビアなものです。そうした観点は注目に値します。 「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。 典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を要する。また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できない。 これらは、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」 OpenAI は言います。「我々はこのよ

GPT-4V System Cardを読む

【 「眼を持ったGPT-4」にできること 】 今回のセッションでは、先月末(2023/09/25)に公開されたOpenAIの "GPT-4V System Card" というドキュメントを紹介します。 https://cdn.openai.com/papers/GPTV_System_Card.pdf GPT-4Vというのは、"GPT-4 with Vision" という意味で、「画像入力」機能を GPT-4に組み込んだOpenAIのマルチモーダルなAIモデルの最新版です。 GPT-4V System Cardは、OpenAIがどのようにGPT-4の視覚機能を配備する準備をしたかを概説しています。重要なことは、このSystem Cardでは、GPT-4Vの安全性が分析されていることです。 この間、マルレクでは大規模言語モデルが、Visualな能力の獲得を中心とするマルチモーダルなAIに展開していくだろうという話をしてきました。"GPT-4V = GPT-4 with Vision" のローンチは、まさにこうした流れを体現するものです。 ただ、「GPT-4が眼を持ったらどうなるのだろう?」というイメージを、皆が具体的に持っているわけではないように僕は感じています。 GPT-4V System Card には、画像とテキストによるプロンプトを組み合わせると AIはどんなことができるようになるかという具体的なサンプルが、沢山、提供されています。 今回のセッションを通じて、多くの人がマルチモーダルなAIと人間との対話のイメージを具体的に持ってもらえればいいと思っています。 --------------------------------- ショートムービー「 GPT-4V System Cardを読む 」を公開しました。 https://youtu.be/uGSP3QJcKwE ?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU ショートムービー 「 GPT-4V System Cardを読む 」のpdf資料 https://drive.google.com/file/d/1AANJB6GP15vb4NCpGqQI14XkEpSMOF18/view?usp=sharing blog :

メディアの理論モデル

【 メディアとAIのモデルの違い 】 前回、メディアのマルチモーダル化の歴史を概観しました。メディアのマルチモーダル化の中心はVisual化とみなしていいと僕は考えているのですが、それが産業に与えた影響は非常に大きななものです。メディアのVisual化は、圧倒的な数の利用者を獲得して巨大な市場を作り上げました。 こうした議論を延長して、AIのマルチモーダル化の進行が進む中、VisualなAIの登場がAIの利用者拡大の鍵になると考えることは可能でしょうか? そうではないと僕は考えています。メディアとAIとの単純なアナロジーは成り立たないし、VisualなAIというコンセプトは、曖昧なものです。 メディアのVisual化への流れを一貫して推し進めてきたのは、メディアの利用者である人間の強い具体的な欲求です。多くの人間がメディアのVisual化を強く欲したということです。 メディアとは異なるモデルを持つマルチモーダルなAIには、そうした力は働かないように思えます。 このセッションでは、メディアとAIのモデルの違いを考えます。 【 シャノンのモデル 】 メディアのモデルの基礎にあるのは、メッセージの送り手と受け手からなる、シャノンが定式化した一般的な「コミュニケーションのモデル」です。送り手側でメッセージは信号に変換され、通信チャンネルに送り込まれ、受け手側は通信チャンネルから信号を受け取り、その信号をメッセージに変換します。 このシャノンのモデルは、極めて一般的なものです。送り手・受け手ともに人間であってもいいし機械であってもいいし、メッセージと通信チャンネルを通る信号の区別があるのは重要なのですが、メッセージについては様々なタイプが想定可能です。メッセージは、モールス符号でもいいし、文字列の並びでも、音声データでも構わないのです。 シャノンは、このモデルを「一般的なコミュニケーション・システムの図式」と呼ぶのですが、現代の言葉の使い方からいうと、「一般的な通信システムの図式」と考えた方がいいかもしれません。ただ、そのことは、シャノンのモデルが「狭い」ことを意味するものではありません。 シャノンが行った抽象化による飛躍は強烈なものでした。彼は、このモデルでは、「メッセージの意味は重要ではない」と断言します。なぜなら、このモデルの基本的な関心は、送り手が送り出したメッセージ

ボイスAIはAI利用拡大のゲームチェンジャー 4

【 メディアのマルチモーダル化について 2 】 近未来のAI技術が視覚情報をどのように扱うことができるかについて考えてみたいのですが、その前に、メディアと視覚情報の関係を考えてみたいと思います。 前回見たように、近現代の電気・電子的メディアの電信・電話・ラジオ・テレビというマルチモーダル化の流れを振り返ってみると、多くの人に訴求する人間のメディアの進化をドライブしている力は、マルチモーダル化への欲求と抽象的に考えるのではなく、視覚情報「をも」扱うメディアへの志向だと考えた方がよさそうです。 視覚情報「をも」扱うメディアというのは、テキストも音声も視覚情報も扱うメディアという意味なのですが、その中核は視覚情報です。まぎれがなければ、「Visualなメディア」と呼ぶことにしましょう。 コミュニケーションとメディアと情報蓄積の中心舞台がインターネットに移行して以降も、Visualなメディアへの志向の強さは、ある意味で、驚くべきものです。 インターネットは、テキストベースのメディアとして出発しました。インターネットの新しいメディアとしての特徴を代表するFacebookやTwitterといったSNSも、もとはテキストベースでしたが、InstagramやTikTokといったVisualなSNSの挑戦を受けています。こうした動きは、これもまたインターネット・メディアの特徴と目されていたCGMが、商業的にはほぼYouTubeに一本化される中で、あたらしいCGMへの欲求として解釈することができるかもしれません。 新しいインターネット・メディアであるSNSやCGMばかりではなく、Visualな旧メディアである映画やテレビもインターネットへの参入を果たします。こうして、インターネットはVisualなメディアとして統合されつつあるようにも見えます。インターネットはVisualな情報で溢れ、その帯域の圧倒的部分はそれで占められています。 ここまで読んでくれた読者に、注意してほしいことがあります。それは、ここから議論が転調するということです。 メディアのVisual化についていろいろ書いてきたのですが、これまでの議論は、一本調子のものでした。何が一本調子かといえば、その延長で考えれば、VisualなAIの登場がAIの利用者拡大の鍵になると考えられるという議論が可能なように思えるからです。 でも

ボイスAIはAI利用拡大のゲームチェンジャー 3

【 メディアのマルチモーダル化について 】 マルチモーダルなAIへのAI技術の展開は、新しいインターフェースの開発とそうしたインターフェースを搭載した新しいデバイスの登場を準備します。それがAIをめぐる開発競争の、次の段階での重要な舞台になると僕は考えています。 ただ、それを「インターフェース」の問題としてだけで考えるのは、近未来の予測としては狭いのだと感じています。 「感じる」というのは、曖昧に思われるかもしれません。それは僕が技術的な「予測」というより、これまでなかった何か新しいものが生まれるかもしれないという「予感」レベルの話をしているからかもしれません。 ただ、そうした「予感」には、根拠がないわけではありません。(「予感」は、まだ見ぬ未来を考える上では重要なものだと、僕は考えています。) 少なくとも、近現代の電気・電子的なメディアは、その長くはない歴史の中でも、マルチモーダル化のいくつかの波を経験しています。 電信から電話へ:これは「信号」(これはテキストの亜種と考えられます)から「音声」へのマルチモーダル化です。信号から音声へという同じモーダルの変化が、次の例でも現れます。電話はリアルタイムで「双方向性」を持つという点では画期的なメディアだと思います。 無線通信からラジオへ:ここでは、信号から音声へというモーダルの変化とともに、「1対1」から「1対多」というモードの変化が重要です。ただし、ラジオには「双方向性」はありません。 ラジオからテレビに:テレビは、基本的にはラジオの特性(「音声」「一対多」「一方向」)を引き継いだまま、それに「イメージ」を追加したマルチモーダル化です。 とても雑なまとめですが(インターネットの話がぬけていますね)、ここで僕が強調したかったことは、メディアのマルチモーダル化は、その利便性によって多くの利用者を獲得し、それまで存在しなかった新しい強力な産業を創出する、とても強い力を持っていたということです。 メディアのマルチモーダル化は、決して同じ産業構造上の同一のデバイス上での「インターフェース」の進化ではありませんでした。それは、新しいデバイス(電話・ラジオ・テレビ等)を産み出し、新しい産業を台頭させ、産業構造を変えました。 21世紀初頭に起きたIT産業の再編は、インターネットという新しいメディアの上での、クラウドとクラウド・デバ

ボイスAIはAI利用拡大のゲームチェンジャー 2

【 ボイスAIはAI利用拡大のゲームチェンジャー 2 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 それでは、なぜ、僕は "hear and speak" するAI に注目しているのでしょうか?  前回も述べたように、ChatGPTの入出力を音声にするのは、技術的には簡単なことです。ただ、ChatGPTのChat は、「おしゃべり」や会話ではなく、テキストの交換です。それは、インターネットとスマホが普及するまでは、耳と発話が不自由な人のコミュニケーションのスタイルでした。 そうしたコミュニケーションのインターフェースを、近未来のAIが引き継ぐかは、よく考える必要があると思います。 人間の言語能力は、約10万年前(その時期は特定されているわけではありません)、話す・聞く能力として開花し、そのスタイルが人間という生物種に固有な能力として維持されてきました。 それに対して、文字の利用は、長くとも数千年の歴史しかありません。正確にいうと世界の大多数の人が文字を使えるようになったのは、近現代になって、いわゆる「民族国家」「市民社会」が成立し、具体的には、学校制度が定着してからです。短く見積もれば、この100~200年の間に起きた変化です。 人間が、全体としては、言語生活の歴史の大部分を文字なしで過ごしてきたということ、また、文字の利用は、人間の生物学的な「ネイティブ」な能力ではないということは、人間のコミュニケーションの志向に深いところで影響を与えていると思います。 ネット上のコミュニケーションのスタイルは、ChatGPTを含めて、話す・聞くに対して、書く・読むが優位になったと考えることもできます。他方では、ネット上のコミュニケーションの拡大は、むしろ多くの人の「文字離れ」を起こしていると考えることもできます。 後者の「文字離れ」の志向が強まるという現象は、人間の言語活動の成り立ちと歴史から見ると、むしろ自然なことかもしれません。 ただ、文字の利用については、留意すべき重要なことがあります。それは、文字の利用には二つ

ボイスAIはAI利用拡大のゲームチェンジャー

【 ボイスAIはAI利用拡大のゲームチェンジャー 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 せっかちなのか、すぐOpenAIのスマートフォン・アプリで音声入出力を試した見たのですが思うようには動きません。 先の記事の最後に、こう書いていました。 「PlusとEnterpriseのユーザーは、今後2週間で音声と画像を体験できるようになります。その後すぐに、開発者を含む他のユーザーグループにもこれらの機能を展開できることを楽しみにしています。」 「今後2週間で」なんですね。 僕は、音声で入出力ができる「ボイスAI」に大きな期待を持っています。 でも、アプリ・ショップを見ると、すでにChatGPTの入出力を音声で可能にするというアプリは沢山あります。それは、文字を音声に変える、あるいは、音声を文字に変える技術は、すでに確立しているからです。 でも、僕が期待しているのは、そんなアプリじゃないんです。 少し視点を変えてみましょう。 ChatGPTのサービスの登録者は一億人を超えたと言われています。それはそれですごいことです。ただ、スマホやインターネットの利用者は数十億人はいるはずです。ChatGPTの利用者は、数の上では、スマホの利用者よりはるかに少ないのです。 「早く使いこなして差をつけよう」といった記事も少なくないのですが、それはAI技術を活用できるのは少数で、使えない人が沢山残るだろうと想定しているように感じてしまいます。 利用者が少ない技術やサービスは、あまり発展しないものだと僕は考えています。勝負は、サービスや製品が、圧倒的多数の人に行き渡るかどうかから始まります。その時期を超えてから、いくつかの生き残りをかけた本当の競争が展開されるでしょう。 少なくとも、AI技術の利用者の拡大にとっては、音声で入出力ができる「ボイスAI」の登場は、重要な意味を持っていると思います。 それでは、現在のChatGPTの入出力を音声に変えれば、利用者は急拡大するのでしょうか? 多分、そうはならないと思います。現在のChatGPTのインターフェ