投稿

来週のセミナーの技術的背景について

イメージ
【 来週のセミナーの技術的背景についての補足 】 来週のセミナーですが、いつものセミナーと少し違って、近未来の話をしています。 現在の技術からは、あるいはその現実的な評価からは、すこし飛躍していると感じている人も少なくないと思います。 今回のセッションでは、来週のセミナーの「技術的背景」について、すこし補足しようと思います。 実は、それについてまとめた資料があります。それは、先月のセミナー「大規模言語モデルの展開 -- マルチモーダルへ」 https://www.marulabo.net/docs/multimodal/ の「はじめて」の部分なんです。 大抵の人がそうだと思いますが、僕は資料ができてから「最後」に「はじめに」の部分を書きます。この「はじめに」は、セミナーの概要をまとめて次回のセミナーの予告をしたものでした。 「いや、そのスライドのpdfはもう読んだ」という人も多いと思います。ありがとうございます。でも、ビデオでは、スライドに書かなかったことをいろいろ「しゃべって」います。 「いやいや、ビデオも最後まで観たよ」という方もいらっしゃると思います。本当に、ありがとうございます。ご苦労様でした。 僕のテキストを読もうが読むまいが、僕のビデオを最後まで見ようが途中で止めようが、それはみなさんの選択です。僕がどうこうできることではありません。 で、じつは、こうしたやりとりをしたかったわけではありません。今回の投稿では、ビデオよりテキストが好きだという人に対して、また、テキストになってないけどビデオでは喋っているといういるという「言い訳」をしなくてもいいように、「はじめて」の次のビデオ、全文、書き起こしてテキストにしました。 https://youtu.be/dgN8KS9PLTs?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C ご苦労なことです。(僕がです)  でも、そうじゃないんです。簡単でした。この約30分のYouTubeの文字起こし、あっという間におわりました。 "YouTube Summary with ChatGPT & Claude" というChromeのプラグインをゲットして、YouTubeの画面から、"Transcript & Summary" というメニュ

悲観論と楽観論

【 John Baezの悲観論と楽観論 】 9月26日に John Baezの講演があった。楽しみにしていたのだが聞き漏らしてしまった。 ちょうど、9月25日にOpenAIがMultimodalなAIについての発表があったもので、そっちに走ってしまった。 ただ、スライドは公開されているので、簡単に紹介したい。 http://math.ucr.edu/home/baez/struggle/ 「 我々は完新世 Holoceneを離れ、人類の活動によって生物圏が急速に変化する人新世Anthropocene という新たな段階に入った。 我々は現在だけでなく遠い未来をも変えつつある。 しかし、人新世の問題は、地球温暖化の問題だけではないのだ。  ▶絶滅する種の割合はバックグラウンドの100~1000倍  ▶1950年以降、大型海洋魚の個体数は90%減少  ▶生物量ベースでみると、哺乳類の96%は人間か家畜になり、野生はわずか4%。  ▶植物が生産する化学エネルギーの約4分の1は、現在、人間が使用している。  ▶人間は、大気中の窒素を他のすべてのプロセスを合わせたよりも多く摂取し、その窒素をエタノールに変換している。  ▶自然のバックグラウンドの8~9倍のリンが海洋に流入している。」 人口爆発(もちろん人間の)と地球温暖化を中心とした、この辺りの彼の議論は、以前にも紹介したことがある。地球の他の生命を道連れに破滅に向かった突き進む、人間の未来については、悲観的だと思う。 ただ、今回の講演で興味深かったのは、次のフレーズだ。 「しかし、それらを考えることで、危機を乗り切る生命の能力について、楽観的になれるかもしれない。」 彼は、何を考えて楽観的になったのだろう? 「地球温暖化の中で私たちの未来に思いを馳せるとき、私たちがどうやってここまで来たのかを振り返ることには価値がある。生命が誕生した後も、地球上の生命が成功するのは当然の結論ではなかったのだ! この講演では、私たちの惑星の歴史から、スリリングでゾッとするようなエピソードをいくつか紹介する。例えば、惑星テイアとの衝突、ほとんどの海が凍った「スノーボール・アース現象」、恐竜時代を終わらせた小惑星衝突などだ。よく知られているものもあれば、理論的にしか説明されていないものもある。 しかし、それらを考えることで、危機を乗り切る生命の能

10/28 マルレクへのお誘い

【 マルチモーダルなAIの登場の中で AIの未来を考える 】 現在のAI技術の注目すべきトレンドの一つは、「マルチモーダルなAI」の登場です。 「マルチモーダルなAI」というのは、キーボードとスクリーンでテキストをやり取りすることしかできない現在のAIを、眼で見ることも、耳で聞くことも、口で話すこともできるように能力を拡張したAIのことです。 今回のセミナーでは、マルチモーダルなAIの登場という流れの中で、AIの未来を考えてみようと思います。 【  Be My AI ! --「パーソナルなAI」を展望する 】 今回のセミナーで僕が示したいと思っているのは、一言でいえば、「パーソナルなAIへ」という展望です。 自分の目や耳や口をもつAIの登場といえば、AIロボットがしだいしだいに人間を押し除けてゆく、AI優位の近未来をイメージする人も、少なくないと思います。 そうではなく、様々な局面で我々人間を支援する、あくまでも人間のために役にたつAIを考えたいと思います。 そういうAIを展望する一つの鍵は、すべての人が日常的にAIをパーソナルなアシスタントとして利用し、また、AIにとって人間のアシスタントであることが、競争的優位性を持つようにAIの未来を設計することだと、僕は考えています。   Be My AI ! 僕は、この言葉を OpenAIのドキュメントの片隅で見つけたのですが、この言葉が気に入っています。 【 メディアのマルチモーダル化は、世界を変えてきた 】 AIのマルチモーダル化の流れは、こうした展望を可能にするものでしょうか? 最初に確認したいことは、先行したメディアのマルチモーダル化は、電報、電話、ラジオ、テレビ、… といったいくつかの段階があるのですが、それらはすべてユーザーの欲求に応えたものでした。 メディアのマルチモーダル化は、ユーザーを急速に拡大し、メディアのパーソナライズ化を促進し、ビジネスとして大きな成功を収めてきました。それは、それまで存在しなかった新しい強力な産業を創出する、とても強い力を持っていたのです。 クラウドとクラウドのデバイスであるスマートフォンを中核とする現代のIT産業の基礎も、メディアの中心がインターネットへと変化する中で生まれた産業構造の変化です。 21世紀の初頭に起きたこの変化は、GAFAMの勝利の時代として、この四半世紀続いてい

「VisualなAI」の課題 (1)

 【 GPT-4Vの技術的達成と限界 】 今回と次回のセッションでは、「VisualなAI」の課題を、 二回に分けて二つの切り口から考えます。 今回扱う一つの切り口では、OpenAIの「VisualなAI」へのアプローチを技術的な側面から展開した 「CLIP論文」をベースに、 GPT-4Vの「技術的達成と限界」を考えたいと思います。 次回のセッションで扱うもう一つの切り口は、機械の視覚能力と人間の視覚能力との比較をしてみることです。そこからVisualなAIの課題を考えます。 二つ目の切り口は、「視覚能力の進化」を考えることに帰着すると僕は考えているのですが、その進化史には機械が登場します。 << GPT-4VとCLIP論文 >> GPT-4Vの技術的達成と限界を見る今回のセッションは、OpenAIの「CLIP論文」に依拠しています。 https://openai.com/research/clip   https://arxiv.org/pdf/2103.00020.pdf これについては、先月行ったマルレク「大規模言語モデルの展開 -- マルチモーダルへ」の "Part 3 CLIP: Connecting text and images" を参照ください。 https://www.marulabo.net/docs/multimodal/#part-3-clip-connecting-text-and-images 【 GPT-4Vの技術的達成 】 OpenAIのAIによる画像認識技術に対する認識は、なかなかシビアなものです。そうした観点は注目に値します。 「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。 典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を要する。また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できない。 これらは、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」 OpenAI は言います。「我々はこのよ

GPT-4V System Cardを読む

【 「眼を持ったGPT-4」にできること 】 今回のセッションでは、先月末(2023/09/25)に公開されたOpenAIの "GPT-4V System Card" というドキュメントを紹介します。 https://cdn.openai.com/papers/GPTV_System_Card.pdf GPT-4Vというのは、"GPT-4 with Vision" という意味で、「画像入力」機能を GPT-4に組み込んだOpenAIのマルチモーダルなAIモデルの最新版です。 GPT-4V System Cardは、OpenAIがどのようにGPT-4の視覚機能を配備する準備をしたかを概説しています。重要なことは、このSystem Cardでは、GPT-4Vの安全性が分析されていることです。 この間、マルレクでは大規模言語モデルが、Visualな能力の獲得を中心とするマルチモーダルなAIに展開していくだろうという話をしてきました。"GPT-4V = GPT-4 with Vision" のローンチは、まさにこうした流れを体現するものです。 ただ、「GPT-4が眼を持ったらどうなるのだろう?」というイメージを、皆が具体的に持っているわけではないように僕は感じています。 GPT-4V System Card には、画像とテキストによるプロンプトを組み合わせると AIはどんなことができるようになるかという具体的なサンプルが、沢山、提供されています。 今回のセッションを通じて、多くの人がマルチモーダルなAIと人間との対話のイメージを具体的に持ってもらえればいいと思っています。 --------------------------------- ショートムービー「 GPT-4V System Cardを読む 」を公開しました。 https://youtu.be/uGSP3QJcKwE ?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU ショートムービー 「 GPT-4V System Cardを読む 」のpdf資料 https://drive.google.com/file/d/1AANJB6GP15vb4NCpGqQI14XkEpSMOF18/view?usp=sharing blog :

メディアの理論モデル

【 メディアとAIのモデルの違い 】 前回、メディアのマルチモーダル化の歴史を概観しました。メディアのマルチモーダル化の中心はVisual化とみなしていいと僕は考えているのですが、それが産業に与えた影響は非常に大きななものです。メディアのVisual化は、圧倒的な数の利用者を獲得して巨大な市場を作り上げました。 こうした議論を延長して、AIのマルチモーダル化の進行が進む中、VisualなAIの登場がAIの利用者拡大の鍵になると考えることは可能でしょうか? そうではないと僕は考えています。メディアとAIとの単純なアナロジーは成り立たないし、VisualなAIというコンセプトは、曖昧なものです。 メディアのVisual化への流れを一貫して推し進めてきたのは、メディアの利用者である人間の強い具体的な欲求です。多くの人間がメディアのVisual化を強く欲したということです。 メディアとは異なるモデルを持つマルチモーダルなAIには、そうした力は働かないように思えます。 このセッションでは、メディアとAIのモデルの違いを考えます。 【 シャノンのモデル 】 メディアのモデルの基礎にあるのは、メッセージの送り手と受け手からなる、シャノンが定式化した一般的な「コミュニケーションのモデル」です。送り手側でメッセージは信号に変換され、通信チャンネルに送り込まれ、受け手側は通信チャンネルから信号を受け取り、その信号をメッセージに変換します。 このシャノンのモデルは、極めて一般的なものです。送り手・受け手ともに人間であってもいいし機械であってもいいし、メッセージと通信チャンネルを通る信号の区別があるのは重要なのですが、メッセージについては様々なタイプが想定可能です。メッセージは、モールス符号でもいいし、文字列の並びでも、音声データでも構わないのです。 シャノンは、このモデルを「一般的なコミュニケーション・システムの図式」と呼ぶのですが、現代の言葉の使い方からいうと、「一般的な通信システムの図式」と考えた方がいいかもしれません。ただ、そのことは、シャノンのモデルが「狭い」ことを意味するものではありません。 シャノンが行った抽象化による飛躍は強烈なものでした。彼は、このモデルでは、「メッセージの意味は重要ではない」と断言します。なぜなら、このモデルの基本的な関心は、送り手が送り出したメッセージ

ボイスAIはAI利用拡大のゲームチェンジャー 4

【 メディアのマルチモーダル化について 2 】 近未来のAI技術が視覚情報をどのように扱うことができるかについて考えてみたいのですが、その前に、メディアと視覚情報の関係を考えてみたいと思います。 前回見たように、近現代の電気・電子的メディアの電信・電話・ラジオ・テレビというマルチモーダル化の流れを振り返ってみると、多くの人に訴求する人間のメディアの進化をドライブしている力は、マルチモーダル化への欲求と抽象的に考えるのではなく、視覚情報「をも」扱うメディアへの志向だと考えた方がよさそうです。 視覚情報「をも」扱うメディアというのは、テキストも音声も視覚情報も扱うメディアという意味なのですが、その中核は視覚情報です。まぎれがなければ、「Visualなメディア」と呼ぶことにしましょう。 コミュニケーションとメディアと情報蓄積の中心舞台がインターネットに移行して以降も、Visualなメディアへの志向の強さは、ある意味で、驚くべきものです。 インターネットは、テキストベースのメディアとして出発しました。インターネットの新しいメディアとしての特徴を代表するFacebookやTwitterといったSNSも、もとはテキストベースでしたが、InstagramやTikTokといったVisualなSNSの挑戦を受けています。こうした動きは、これもまたインターネット・メディアの特徴と目されていたCGMが、商業的にはほぼYouTubeに一本化される中で、あたらしいCGMへの欲求として解釈することができるかもしれません。 新しいインターネット・メディアであるSNSやCGMばかりではなく、Visualな旧メディアである映画やテレビもインターネットへの参入を果たします。こうして、インターネットはVisualなメディアとして統合されつつあるようにも見えます。インターネットはVisualな情報で溢れ、その帯域の圧倒的部分はそれで占められています。 ここまで読んでくれた読者に、注意してほしいことがあります。それは、ここから議論が転調するということです。 メディアのVisual化についていろいろ書いてきたのですが、これまでの議論は、一本調子のものでした。何が一本調子かといえば、その延長で考えれば、VisualなAIの登場がAIの利用者拡大の鍵になると考えられるという議論が可能なように思えるからです。 でも