投稿

10月, 2023の投稿を表示しています

AIの基礎となるもの -- 人間の認識能力の構造

【 AIと人間の関係を考える 】 今回のセッションは、今回のセミナーの「パーソンルなAI」「Be My AI !」というコピーの背景にある 「AIと人間との関係」をどのように考えているかを、あらためてまとめたものです。 基本的には、人間の認識能力の構造が、AI利用の基礎になるという話なのですが、結論は、楽観的なものです。何度か述べたように、僕は、AIが我々人間の手助けをするようになるだろうと考えています。 スライドは、ほとんど画像なので、ここで説明するよりも、見ていただくのが一番早いと思います。 セミナーは、明日開催です。セミナー開始の直前まで、お申し込みを受け付けています。皆様の参加をお待ちしています。 申し込みは、こちらからお願いします。 https://personalai.peatix.com/ --------------------------------- ショートムービー「 AIの基礎となるもの -- 人間の認識能力の構造」を公開しました。 https://youtu.be/_-wXtNrvfqc ?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU ショートムービー 「 AIの基礎となるもの -- 人間の認識能力の構造 」のpdf資料 https://drive.google.com/file/d/1EIHEvVdOaf9-xT66N0zVCMluds5xZaW_/view?usp=sharing blog : 「 AIと人間の関係を考える  」 https://maruyama097.blogspot.com/2023/10/ai_01066799093.html セミナーに向けたショートムービーの再生リスト https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU マルレク「AIの利用とインターフェースを考える」のまとめページ https://www.marulabo.net/docs/personalai/

今週末(9/28)のマルレクの講演資料公開しました。

【 今週末(9/28)のマルレクの講演資料公開しました 】 マルレク「AIの利用とインターフェースを考える」は、今週土曜日 9/28 開催です。 セミナーの申し込みページは、 https://personalai.peatix.com/ です。 お申し込みお待ちしています。 講演の概要は、次のようになっています。 ⚫️ Part 1 : はじめに -- パーソナルなAIを展望する  ・マルチモーダルなAIの登場の中でAIの未来を考える  ・ボイスAIはAI利用拡大のゲームチェンジャー ⚫️ Part 2 : メディアのマルチモーダル化から学ぶ  ・世界を変えてきたメディアのマルチモーダル化  ・マルチモーダルなメディアとマルチモーダルなAI ⚫️ Part 3 : AIのマルチモーダル化の始まり  ・「眼を持ったGPT-4」にできること -- GPT-4V System Cardを読む  ・「眼を持ったAI」の課題 -- GPT-4Vの技術的達成と限界 ⚫️ Part 4 : AIの進化と人間の役割  ・「眼を持つ機械」 -- 人間の感覚能力の拡大  ・AIの力と人間の力 -- 人間の力の再評価   [ ・DALL-E 3でのCLIPの利用  ]  [ ・人間の未来についての楽観論と悲観論 ] 概要に興味を持たれた方は、次の講演資料をご利用ください。 https://drive.google.com/file/d/1DdPQbnVkp84NvroUuuvr7qYLEDEbwy-E/view?usp=sharing お詫びしなければいけないのですが、ここには、先日予告した、CLIPのnatural language supervision と DALL-E 3の関係を論じた「DALL-E 3でのCLIPの利用」のセクションとセミナー全体のまとめとしての「人間の未来についての楽観論と悲観論」のセクションは含まれていません。 これらは、今回のセミナーからは割愛し、後日、セミナーのAppendix として公開することを考えています。 セミナー全体のまとめページは、こちらになります。   https://www.marulabo.net/docs/personalai/ セミナーに向けたショートムービーの再生リストはこちらです。 https://www.youtube

「眼を持つ機械」 -- 人間の感覚能力の拡大

【 「VisualなAI」は、どう「進化」するのか? 】 今回のセッションでは、GPT-4Vのような、マルチモーダルなAIへの志向を持つAI技術が登場する中で、それがどのような発展の可能性を持つのかを考えてみようと思います。 【 「機械」の定義 あるいは、「機械」には何ができるのか?】 最初に、以下の議論で出てくる「機械」という言葉を、僕がどのように使っているかを説明したほうがいいと思います。 時計や自動車は、もちろん、機械です。ただ、メカニカルなものだけを機械と考えているわけではありません。照明器具、冷蔵庫といった電気製品、スマホやコンピュータ等の電子機器も「機械」とみなしています。 問題は、AI です。「人工知能とは機能であって実体ではない」と考えることも可能かもしれません。ただ、僕は、AIも「機械」だと考えています。それは、現代の人工知能研究が、チューリングの「機械は考えることは可能か?」という問いから始まったと考えているからです。こうした考えによれば、人工知能とは「考える機械」のことに他なりません。 「機械」の概念の中心には、「人間が作ったもの・人工物」というのはありそうです。でも、それ自身機械とみなせる大規模な自動化工場で、機械である自動車が生産されるのなら、「機械は、人間が作ったもの」という規定は適切なものではなくなります。 チューリングが「機械は考えることは可能か?」という問題を提起した頃、フォン・ノイマンは、「自分自身と同じ機械を生み出す機械は可能か?」という問題を提起して、それを肯定的に解いてみせました。ワトソン=クリックがDNAを発見する前の話です。フォン・ノイマンのアプローチは、以前に紹介したAgent-Base-Modelの遠祖になりました。 僕に、ある「機械」のイメージがあったとしても、「機械」に属するもの、あるいは「機械」の属さないものを数え上げて、そのリストを作るのは不可能です。現在の認識から作られた「定義」を明確にすることにこだわるのは、あまり生産的ではないかもしれません。 なぜなら、こうした「機械」や「考える機械」といった言葉の定義やその言葉の含意は、時代と共に変化するものだということです。ある場合には、全く正反対のものに変わることもあります。 例を挙げましょう。今から 50年前の1970年代初め、コンピュータの専門家の中に、人工知

AIの力と人間の力 -- 人間の力の再評価

【「人間の持つ諸能力の再評価」というフェーズ 】  今回のセミナーで、AIの利用とインターフェースについて考えようとしています。この問題では、AIと人間の関係はどういうものなのかという問題が基本的だと思います。 AI研究の一つの目標は、人間とは独立の「考える機械」、機械から構成された自律した「知能」を作り上げることです。 当たり前に思われるかもしれませんが、こうしたAIを作り出そうとしているのは、人間です。人間が人間を生物学的に生み出す(procreate)ように、AIがAIを生み出す(create)わけではありません。 未来のAIがどういう力を持つのかは未知数ですが、はっきりしていることは、それは、人間の力によって生まれるだろうということです。 問題は、AIが人間とは独立の自律的な「知能」をすでに獲得しているかのような意識が生まれはじめていることです。「人間によって生み出されたAIだが、人間を超える能力を持つ存在として、人間の前に登場している」と。 僕は、そうした現象は、人間の本来持つ力が、人間の元を離れ人間の外部のAIの力としてあらわれているものだと考えています。 ただ、今回のセッションで、僕が強調したいのは、そうした深い射程を持ちうる「疎外論」とは少し違ったものです。 それは、AI研究の現段階は、「AIの能力の卓越」としてではなく、むしろ「人間の持つ諸能力の再評価」のフェーズとして特徴づけられるのではという問題提起です。 そうした認識は、ブレイクスルーをもたらしたChatGPT成立の背景分析と現在のAI技術がいまだ不十分で不完全であるという観察に基づいています。 【 機械と人間の関係 】 さきに、「人間の力が、AIの力として現れている」と言いましたが、若干の補足を。 AIと人間の関係だけでなく、AIやコンピュータを含む機械と人間の関係を考えることは意味があると思います。そこでは、人間の力が機械の力として現れているわけではありません。しばしば機械の力は人間を上回ります。 自動車より早く走れなくとも、ブルトーザーに腕力ではかなわなくとも、我々は人間は機械より劣った存在だと考えることはありません。なぜなら、それは人間にとって意味のある人間にとって役に立つ「人間の能力の拡張」だからです。 それについては、視覚能力の拡大としての機械を中心に、前回の「眼をもったAiはどう

来週のセミナーの技術的背景について

イメージ
【 来週のセミナーの技術的背景についての補足 】 来週のセミナーですが、いつものセミナーと少し違って、近未来の話をしています。 現在の技術からは、あるいはその現実的な評価からは、すこし飛躍していると感じている人も少なくないと思います。 今回のセッションでは、来週のセミナーの「技術的背景」について、すこし補足しようと思います。 実は、それについてまとめた資料があります。それは、先月のセミナー「大規模言語モデルの展開 -- マルチモーダルへ」 https://www.marulabo.net/docs/multimodal/ の「はじめて」の部分なんです。 大抵の人がそうだと思いますが、僕は資料ができてから「最後」に「はじめに」の部分を書きます。この「はじめに」は、セミナーの概要をまとめて次回のセミナーの予告をしたものでした。 「いや、そのスライドのpdfはもう読んだ」という人も多いと思います。ありがとうございます。でも、ビデオでは、スライドに書かなかったことをいろいろ「しゃべって」います。 「いやいや、ビデオも最後まで観たよ」という方もいらっしゃると思います。本当に、ありがとうございます。ご苦労様でした。 僕のテキストを読もうが読むまいが、僕のビデオを最後まで見ようが途中で止めようが、それはみなさんの選択です。僕がどうこうできることではありません。 で、じつは、こうしたやりとりをしたかったわけではありません。今回の投稿では、ビデオよりテキストが好きだという人に対して、また、テキストになってないけどビデオでは喋っているといういるという「言い訳」をしなくてもいいように、「はじめて」の次のビデオ、全文、書き起こしてテキストにしました。 https://youtu.be/dgN8KS9PLTs?list=PLQIrJ0f9gMcNq1c2SNCMXp8BbIn1XK76C ご苦労なことです。(僕がです)  でも、そうじゃないんです。簡単でした。この約30分のYouTubeの文字起こし、あっという間におわりました。 "YouTube Summary with ChatGPT & Claude" というChromeのプラグインをゲットして、YouTubeの画面から、"Transcript & Summary" というメニュ

悲観論と楽観論

【 John Baezの悲観論と楽観論 】 9月26日に John Baezの講演があった。楽しみにしていたのだが聞き漏らしてしまった。 ちょうど、9月25日にOpenAIがMultimodalなAIについての発表があったもので、そっちに走ってしまった。 ただ、スライドは公開されているので、簡単に紹介したい。 http://math.ucr.edu/home/baez/struggle/ 「 我々は完新世 Holoceneを離れ、人類の活動によって生物圏が急速に変化する人新世Anthropocene という新たな段階に入った。 我々は現在だけでなく遠い未来をも変えつつある。 しかし、人新世の問題は、地球温暖化の問題だけではないのだ。  ▶絶滅する種の割合はバックグラウンドの100~1000倍  ▶1950年以降、大型海洋魚の個体数は90%減少  ▶生物量ベースでみると、哺乳類の96%は人間か家畜になり、野生はわずか4%。  ▶植物が生産する化学エネルギーの約4分の1は、現在、人間が使用している。  ▶人間は、大気中の窒素を他のすべてのプロセスを合わせたよりも多く摂取し、その窒素をエタノールに変換している。  ▶自然のバックグラウンドの8~9倍のリンが海洋に流入している。」 人口爆発(もちろん人間の)と地球温暖化を中心とした、この辺りの彼の議論は、以前にも紹介したことがある。地球の他の生命を道連れに破滅に向かった突き進む、人間の未来については、悲観的だと思う。 ただ、今回の講演で興味深かったのは、次のフレーズだ。 「しかし、それらを考えることで、危機を乗り切る生命の能力について、楽観的になれるかもしれない。」 彼は、何を考えて楽観的になったのだろう? 「地球温暖化の中で私たちの未来に思いを馳せるとき、私たちがどうやってここまで来たのかを振り返ることには価値がある。生命が誕生した後も、地球上の生命が成功するのは当然の結論ではなかったのだ! この講演では、私たちの惑星の歴史から、スリリングでゾッとするようなエピソードをいくつか紹介する。例えば、惑星テイアとの衝突、ほとんどの海が凍った「スノーボール・アース現象」、恐竜時代を終わらせた小惑星衝突などだ。よく知られているものもあれば、理論的にしか説明されていないものもある。 しかし、それらを考えることで、危機を乗り切る生命の能

10/28 マルレクへのお誘い

【 マルチモーダルなAIの登場の中で AIの未来を考える 】 現在のAI技術の注目すべきトレンドの一つは、「マルチモーダルなAI」の登場です。 「マルチモーダルなAI」というのは、キーボードとスクリーンでテキストをやり取りすることしかできない現在のAIを、眼で見ることも、耳で聞くことも、口で話すこともできるように能力を拡張したAIのことです。 今回のセミナーでは、マルチモーダルなAIの登場という流れの中で、AIの未来を考えてみようと思います。 【  Be My AI ! --「パーソナルなAI」を展望する 】 今回のセミナーで僕が示したいと思っているのは、一言でいえば、「パーソナルなAIへ」という展望です。 自分の目や耳や口をもつAIの登場といえば、AIロボットがしだいしだいに人間を押し除けてゆく、AI優位の近未来をイメージする人も、少なくないと思います。 そうではなく、様々な局面で我々人間を支援する、あくまでも人間のために役にたつAIを考えたいと思います。 そういうAIを展望する一つの鍵は、すべての人が日常的にAIをパーソナルなアシスタントとして利用し、また、AIにとって人間のアシスタントであることが、競争的優位性を持つようにAIの未来を設計することだと、僕は考えています。   Be My AI ! 僕は、この言葉を OpenAIのドキュメントの片隅で見つけたのですが、この言葉が気に入っています。 【 メディアのマルチモーダル化は、世界を変えてきた 】 AIのマルチモーダル化の流れは、こうした展望を可能にするものでしょうか? 最初に確認したいことは、先行したメディアのマルチモーダル化は、電報、電話、ラジオ、テレビ、… といったいくつかの段階があるのですが、それらはすべてユーザーの欲求に応えたものでした。 メディアのマルチモーダル化は、ユーザーを急速に拡大し、メディアのパーソナライズ化を促進し、ビジネスとして大きな成功を収めてきました。それは、それまで存在しなかった新しい強力な産業を創出する、とても強い力を持っていたのです。 クラウドとクラウドのデバイスであるスマートフォンを中核とする現代のIT産業の基礎も、メディアの中心がインターネットへと変化する中で生まれた産業構造の変化です。 21世紀の初頭に起きたこの変化は、GAFAMの勝利の時代として、この四半世紀続いてい

「VisualなAI」の課題 (1)

 【 GPT-4Vの技術的達成と限界 】 今回と次回のセッションでは、「VisualなAI」の課題を、 二回に分けて二つの切り口から考えます。 今回扱う一つの切り口では、OpenAIの「VisualなAI」へのアプローチを技術的な側面から展開した 「CLIP論文」をベースに、 GPT-4Vの「技術的達成と限界」を考えたいと思います。 次回のセッションで扱うもう一つの切り口は、機械の視覚能力と人間の視覚能力との比較をしてみることです。そこからVisualなAIの課題を考えます。 二つ目の切り口は、「視覚能力の進化」を考えることに帰着すると僕は考えているのですが、その進化史には機械が登場します。 << GPT-4VとCLIP論文 >> GPT-4Vの技術的達成と限界を見る今回のセッションは、OpenAIの「CLIP論文」に依拠しています。 https://openai.com/research/clip   https://arxiv.org/pdf/2103.00020.pdf これについては、先月行ったマルレク「大規模言語モデルの展開 -- マルチモーダルへ」の "Part 3 CLIP: Connecting text and images" を参照ください。 https://www.marulabo.net/docs/multimodal/#part-3-clip-connecting-text-and-images 【 GPT-4Vの技術的達成 】 OpenAIのAIによる画像認識技術に対する認識は、なかなかシビアなものです。そうした観点は注目に値します。 「ディープラーニングはコンピュータ・ビジョンに革命をもたらしたが、現在のアプローチにはいくつかの大きな問題がある。 典型的なビジョン・データセットは、作成に労力とコストがかかる一方で、狭い範囲の視覚概念しか教えない。標準的なビジョン・モデルは、1つのタスクと1つのタスクにしか向いておらず、新しいタスクに適応させるためには多大な労力を要する。また、ベンチマークでは優れた性能を発揮するモデルも、ストレス・テストでは失望するほど低い性能しか発揮できない。 これらは、コンピュータ・ビジョンへのディープラーニング・アプローチ全体に疑問を投げかけている。」 OpenAI は言います。「我々はこのよ

GPT-4V System Cardを読む

【 「眼を持ったGPT-4」にできること 】 今回のセッションでは、先月末(2023/09/25)に公開されたOpenAIの "GPT-4V System Card" というドキュメントを紹介します。 https://cdn.openai.com/papers/GPTV_System_Card.pdf GPT-4Vというのは、"GPT-4 with Vision" という意味で、「画像入力」機能を GPT-4に組み込んだOpenAIのマルチモーダルなAIモデルの最新版です。 GPT-4V System Cardは、OpenAIがどのようにGPT-4の視覚機能を配備する準備をしたかを概説しています。重要なことは、このSystem Cardでは、GPT-4Vの安全性が分析されていることです。 この間、マルレクでは大規模言語モデルが、Visualな能力の獲得を中心とするマルチモーダルなAIに展開していくだろうという話をしてきました。"GPT-4V = GPT-4 with Vision" のローンチは、まさにこうした流れを体現するものです。 ただ、「GPT-4が眼を持ったらどうなるのだろう?」というイメージを、皆が具体的に持っているわけではないように僕は感じています。 GPT-4V System Card には、画像とテキストによるプロンプトを組み合わせると AIはどんなことができるようになるかという具体的なサンプルが、沢山、提供されています。 今回のセッションを通じて、多くの人がマルチモーダルなAIと人間との対話のイメージを具体的に持ってもらえればいいと思っています。 --------------------------------- ショートムービー「 GPT-4V System Cardを読む 」を公開しました。 https://youtu.be/uGSP3QJcKwE ?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU ショートムービー 「 GPT-4V System Cardを読む 」のpdf資料 https://drive.google.com/file/d/1AANJB6GP15vb4NCpGqQI14XkEpSMOF18/view?usp=sharing blog :

メディアの理論モデル

【 メディアとAIのモデルの違い 】 前回、メディアのマルチモーダル化の歴史を概観しました。メディアのマルチモーダル化の中心はVisual化とみなしていいと僕は考えているのですが、それが産業に与えた影響は非常に大きななものです。メディアのVisual化は、圧倒的な数の利用者を獲得して巨大な市場を作り上げました。 こうした議論を延長して、AIのマルチモーダル化の進行が進む中、VisualなAIの登場がAIの利用者拡大の鍵になると考えることは可能でしょうか? そうではないと僕は考えています。メディアとAIとの単純なアナロジーは成り立たないし、VisualなAIというコンセプトは、曖昧なものです。 メディアのVisual化への流れを一貫して推し進めてきたのは、メディアの利用者である人間の強い具体的な欲求です。多くの人間がメディアのVisual化を強く欲したということです。 メディアとは異なるモデルを持つマルチモーダルなAIには、そうした力は働かないように思えます。 このセッションでは、メディアとAIのモデルの違いを考えます。 【 シャノンのモデル 】 メディアのモデルの基礎にあるのは、メッセージの送り手と受け手からなる、シャノンが定式化した一般的な「コミュニケーションのモデル」です。送り手側でメッセージは信号に変換され、通信チャンネルに送り込まれ、受け手側は通信チャンネルから信号を受け取り、その信号をメッセージに変換します。 このシャノンのモデルは、極めて一般的なものです。送り手・受け手ともに人間であってもいいし機械であってもいいし、メッセージと通信チャンネルを通る信号の区別があるのは重要なのですが、メッセージについては様々なタイプが想定可能です。メッセージは、モールス符号でもいいし、文字列の並びでも、音声データでも構わないのです。 シャノンは、このモデルを「一般的なコミュニケーション・システムの図式」と呼ぶのですが、現代の言葉の使い方からいうと、「一般的な通信システムの図式」と考えた方がいいかもしれません。ただ、そのことは、シャノンのモデルが「狭い」ことを意味するものではありません。 シャノンが行った抽象化による飛躍は強烈なものでした。彼は、このモデルでは、「メッセージの意味は重要ではない」と断言します。なぜなら、このモデルの基本的な関心は、送り手が送り出したメッセージ

ボイスAIはAI利用拡大のゲームチェンジャー 4

【 メディアのマルチモーダル化について 2 】 近未来のAI技術が視覚情報をどのように扱うことができるかについて考えてみたいのですが、その前に、メディアと視覚情報の関係を考えてみたいと思います。 前回見たように、近現代の電気・電子的メディアの電信・電話・ラジオ・テレビというマルチモーダル化の流れを振り返ってみると、多くの人に訴求する人間のメディアの進化をドライブしている力は、マルチモーダル化への欲求と抽象的に考えるのではなく、視覚情報「をも」扱うメディアへの志向だと考えた方がよさそうです。 視覚情報「をも」扱うメディアというのは、テキストも音声も視覚情報も扱うメディアという意味なのですが、その中核は視覚情報です。まぎれがなければ、「Visualなメディア」と呼ぶことにしましょう。 コミュニケーションとメディアと情報蓄積の中心舞台がインターネットに移行して以降も、Visualなメディアへの志向の強さは、ある意味で、驚くべきものです。 インターネットは、テキストベースのメディアとして出発しました。インターネットの新しいメディアとしての特徴を代表するFacebookやTwitterといったSNSも、もとはテキストベースでしたが、InstagramやTikTokといったVisualなSNSの挑戦を受けています。こうした動きは、これもまたインターネット・メディアの特徴と目されていたCGMが、商業的にはほぼYouTubeに一本化される中で、あたらしいCGMへの欲求として解釈することができるかもしれません。 新しいインターネット・メディアであるSNSやCGMばかりではなく、Visualな旧メディアである映画やテレビもインターネットへの参入を果たします。こうして、インターネットはVisualなメディアとして統合されつつあるようにも見えます。インターネットはVisualな情報で溢れ、その帯域の圧倒的部分はそれで占められています。 ここまで読んでくれた読者に、注意してほしいことがあります。それは、ここから議論が転調するということです。 メディアのVisual化についていろいろ書いてきたのですが、これまでの議論は、一本調子のものでした。何が一本調子かといえば、その延長で考えれば、VisualなAIの登場がAIの利用者拡大の鍵になると考えられるという議論が可能なように思えるからです。 でも

ボイスAIはAI利用拡大のゲームチェンジャー 3

【 メディアのマルチモーダル化について 】 マルチモーダルなAIへのAI技術の展開は、新しいインターフェースの開発とそうしたインターフェースを搭載した新しいデバイスの登場を準備します。それがAIをめぐる開発競争の、次の段階での重要な舞台になると僕は考えています。 ただ、それを「インターフェース」の問題としてだけで考えるのは、近未来の予測としては狭いのだと感じています。 「感じる」というのは、曖昧に思われるかもしれません。それは僕が技術的な「予測」というより、これまでなかった何か新しいものが生まれるかもしれないという「予感」レベルの話をしているからかもしれません。 ただ、そうした「予感」には、根拠がないわけではありません。(「予感」は、まだ見ぬ未来を考える上では重要なものだと、僕は考えています。) 少なくとも、近現代の電気・電子的なメディアは、その長くはない歴史の中でも、マルチモーダル化のいくつかの波を経験しています。 電信から電話へ:これは「信号」(これはテキストの亜種と考えられます)から「音声」へのマルチモーダル化です。信号から音声へという同じモーダルの変化が、次の例でも現れます。電話はリアルタイムで「双方向性」を持つという点では画期的なメディアだと思います。 無線通信からラジオへ:ここでは、信号から音声へというモーダルの変化とともに、「1対1」から「1対多」というモードの変化が重要です。ただし、ラジオには「双方向性」はありません。 ラジオからテレビに:テレビは、基本的にはラジオの特性(「音声」「一対多」「一方向」)を引き継いだまま、それに「イメージ」を追加したマルチモーダル化です。 とても雑なまとめですが(インターネットの話がぬけていますね)、ここで僕が強調したかったことは、メディアのマルチモーダル化は、その利便性によって多くの利用者を獲得し、それまで存在しなかった新しい強力な産業を創出する、とても強い力を持っていたということです。 メディアのマルチモーダル化は、決して同じ産業構造上の同一のデバイス上での「インターフェース」の進化ではありませんでした。それは、新しいデバイス(電話・ラジオ・テレビ等)を産み出し、新しい産業を台頭させ、産業構造を変えました。 21世紀初頭に起きたIT産業の再編は、インターネットという新しいメディアの上での、クラウドとクラウド・デバ

ボイスAIはAI利用拡大のゲームチェンジャー 2

【 ボイスAIはAI利用拡大のゲームチェンジャー 2 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 それでは、なぜ、僕は "hear and speak" するAI に注目しているのでしょうか?  前回も述べたように、ChatGPTの入出力を音声にするのは、技術的には簡単なことです。ただ、ChatGPTのChat は、「おしゃべり」や会話ではなく、テキストの交換です。それは、インターネットとスマホが普及するまでは、耳と発話が不自由な人のコミュニケーションのスタイルでした。 そうしたコミュニケーションのインターフェースを、近未来のAIが引き継ぐかは、よく考える必要があると思います。 人間の言語能力は、約10万年前(その時期は特定されているわけではありません)、話す・聞く能力として開花し、そのスタイルが人間という生物種に固有な能力として維持されてきました。 それに対して、文字の利用は、長くとも数千年の歴史しかありません。正確にいうと世界の大多数の人が文字を使えるようになったのは、近現代になって、いわゆる「民族国家」「市民社会」が成立し、具体的には、学校制度が定着してからです。短く見積もれば、この100~200年の間に起きた変化です。 人間が、全体としては、言語生活の歴史の大部分を文字なしで過ごしてきたということ、また、文字の利用は、人間の生物学的な「ネイティブ」な能力ではないということは、人間のコミュニケーションの志向に深いところで影響を与えていると思います。 ネット上のコミュニケーションのスタイルは、ChatGPTを含めて、話す・聞くに対して、書く・読むが優位になったと考えることもできます。他方では、ネット上のコミュニケーションの拡大は、むしろ多くの人の「文字離れ」を起こしていると考えることもできます。 後者の「文字離れ」の志向が強まるという現象は、人間の言語活動の成り立ちと歴史から見ると、むしろ自然なことかもしれません。 ただ、文字の利用については、留意すべき重要なことがあります。それは、文字の利用には二つ

ボイスAIはAI利用拡大のゲームチェンジャー

【 ボイスAIはAI利用拡大のゲームチェンジャー 】 "ChatGPT can now see, hear, and speak" 「ChatGPTでは、新しい音声と画像機能を提供し始めています。音声で会話したり、話している内容をChatGPTに見せることで、より直感的な新しいタイプのインターフェイスを提供します。」 せっかちなのか、すぐOpenAIのスマートフォン・アプリで音声入出力を試した見たのですが思うようには動きません。 先の記事の最後に、こう書いていました。 「PlusとEnterpriseのユーザーは、今後2週間で音声と画像を体験できるようになります。その後すぐに、開発者を含む他のユーザーグループにもこれらの機能を展開できることを楽しみにしています。」 「今後2週間で」なんですね。 僕は、音声で入出力ができる「ボイスAI」に大きな期待を持っています。 でも、アプリ・ショップを見ると、すでにChatGPTの入出力を音声で可能にするというアプリは沢山あります。それは、文字を音声に変える、あるいは、音声を文字に変える技術は、すでに確立しているからです。 でも、僕が期待しているのは、そんなアプリじゃないんです。 少し視点を変えてみましょう。 ChatGPTのサービスの登録者は一億人を超えたと言われています。それはそれですごいことです。ただ、スマホやインターネットの利用者は数十億人はいるはずです。ChatGPTの利用者は、数の上では、スマホの利用者よりはるかに少ないのです。 「早く使いこなして差をつけよう」といった記事も少なくないのですが、それはAI技術を活用できるのは少数で、使えない人が沢山残るだろうと想定しているように感じてしまいます。 利用者が少ない技術やサービスは、あまり発展しないものだと僕は考えています。勝負は、サービスや製品が、圧倒的多数の人に行き渡るかどうかから始まります。その時期を超えてから、いくつかの生き残りをかけた本当の競争が展開されるでしょう。 少なくとも、AI技術の利用者の拡大にとっては、音声で入出力ができる「ボイスAI」の登場は、重要な意味を持っていると思います。 それでは、現在のChatGPTの入出力を音声に変えれば、利用者は急拡大するのでしょうか? 多分、そうはならないと思います。現在のChatGPTのインターフェ