メディアの理論モデル

【 メディアとAIのモデルの違い 】

前回、メディアのマルチモーダル化の歴史を概観しました。メディアのマルチモーダル化の中心はVisual化とみなしていいと僕は考えているのですが、それが産業に与えた影響は非常に大きななものです。メディアのVisual化は、圧倒的な数の利用者を獲得して巨大な市場を作り上げました。

こうした議論を延長して、AIのマルチモーダル化の進行が進む中、VisualなAIの登場がAIの利用者拡大の鍵になると考えることは可能でしょうか?

そうではないと僕は考えています。メディアとAIとの単純なアナロジーは成り立たないし、VisualなAIというコンセプトは、曖昧なものです。

メディアのVisual化への流れを一貫して推し進めてきたのは、メディアの利用者である人間の強い具体的な欲求です。多くの人間がメディアのVisual化を強く欲したということです。

メディアとは異なるモデルを持つマルチモーダルなAIには、そうした力は働かないように思えます。

このセッションでは、メディアとAIのモデルの違いを考えます。


【 シャノンのモデル 】

メディアのモデルの基礎にあるのは、メッセージの送り手と受け手からなる、シャノンが定式化した一般的な「コミュニケーションのモデル」です。送り手側でメッセージは信号に変換され、通信チャンネルに送り込まれ、受け手側は通信チャンネルから信号を受け取り、その信号をメッセージに変換します。

このシャノンのモデルは、極めて一般的なものです。送り手・受け手ともに人間であってもいいし機械であってもいいし、メッセージと通信チャンネルを通る信号の区別があるのは重要なのですが、メッセージについては様々なタイプが想定可能です。メッセージは、モールス符号でもいいし、文字列の並びでも、音声データでも構わないのです。

シャノンは、このモデルを「一般的なコミュニケーション・システムの図式」と呼ぶのですが、現代の言葉の使い方からいうと、「一般的な通信システムの図式」と考えた方がいいかもしれません。ただ、そのことは、シャノンのモデルが「狭い」ことを意味するものではありません。

シャノンが行った抽象化による飛躍は強烈なものでした。彼は、このモデルでは、「メッセージの意味は重要ではない」と断言します。なぜなら、このモデルの基本的な関心は、送り手が送り出したメッセージを、「正確であれ近似的であれ」、受け手の側で再生産できるかどうかにあるからです。

メッセージの「意味」ではなく、システムの両端に現れるメッセージの「同一性(正確であれ近似的であれ)」こそが、このシステムを特徴づけるのです。

シャノンが行った「意味」の捨象は、彼の新しい「情報量=エントロピー」論への道を開きました。この辺りの議論は、以前のマルレク「情報とエントロピー入門」を参照ください。
https://www.marulabo.net/docs/info-entropy/


【 マルチモーダルなメディアのモデル 】

テキスト・音声・イメージを扱うマルチモーダルなメディアが、こうしたシャノンのモデルにすっぽり含まれるのは明らかです。Visualなメディアのモデルは、シャノンのモデルより狭いのです。

シャノンの抽象的なモデルを、次のように特殊なものに制限すると、マルチモーダルなメディアのモデルができると思います。

 ・メッセージの送り手・受け手を「人間」にする。
 ・特殊なメッセージとして、「コンテンツ」というタイプを導入する。
 ・シャノンのモデルは、「通信モデル」として、そのまま利用する。

このモデルでも、システムの両端に現れる「コンテンツ」の「同一性(正確であれ近似的であれ)」は重要です。

それでは、このモデルでは「コンテンツ」の「同一性」は、どのように担保されているのでしょうか? それはシステムの両端にいる「人間」の判断にディペンドします。「同じコンテンツ」であると判断できるのは、両端にいる人間が同じ判断を行うことが可能だからです。

個別のコンテンツについてではなく、このシステムが送り出すすべてのコンテンツについて、「同一性」の判断が可能であるということは、コンテンツについて人間が共通の感覚能力を共有していることに帰着します。Visualなメディアに対する欲求は、我々が共有する感覚能力の欲求に他なりません。


【 意味のモデル 】

次にAIのモデルを考えようと思うのですが、その前にひとつ補足を。

シャノンのモデルは、「メッセージの意味は重要ではない」というものなのですが、その代わりに、彼は「メッセージの同一性」に注目します。

こうしたアプローチは、「意味」の特徴づけにも重要なヒントを与えてくれると僕は考えています。

大規模言語モデルの母胎となったのは「翻訳モデル」なのですが、翻訳モデルで重要なことは、個々の文の意味を解釈し翻訳できるということではなく、可能的には与えられたあらゆる文の翻訳が可能であることです。

「翻訳モデル」の両端に現れる文は、「同じ意味」を持っていなくてはなりません。翻訳のプロセスは、意味の「同一性(正確であれ近似的であれ)」を保持するのです。

もう少し抽象化すれば、意味とは、翻訳という変換プロセスを通じて、不変なものとして捉えることができます。


【 マルチモーダルなAIのモデル 】

ここでは、マルチモーダルなAIのモデルとして、Agent Base Model というのを提案しています。

スライドあるいはビデオを参照ください。

---------------------------------

ショートムービー「 メディアの理論モデル 」を公開しました。
https://youtu.be/gVwd0jMnarM?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

ショートムービー 「 メディアの理論モデル 」のpdf資料
https://drive.google.com/file/d/18Wv8U82vgqV0EkhF8jWaIPgzklpHzcty/view?usp=sharing

blog : 「 メディアとAIのモデルの違い 」
https://maruyama097.blogspot.com/2023/10/blog-post.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

マルレク「AIの利用とインターフェースを考える」のまとめページ
https://www.marulabo.net/docs/personalai/


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について