「眼を持つ機械」 -- 人間の感覚能力の拡大

【 「VisualなAI」は、どう「進化」するのか? 】

今回のセッションでは、GPT-4Vのような、マルチモーダルなAIへの志向を持つAI技術が登場する中で、それがどのような発展の可能性を持つのかを考えてみようと思います。


【 「機械」の定義 あるいは、「機械」には何ができるのか?】

最初に、以下の議論で出てくる「機械」という言葉を、僕がどのように使っているかを説明したほうがいいと思います。

時計や自動車は、もちろん、機械です。ただ、メカニカルなものだけを機械と考えているわけではありません。照明器具、冷蔵庫といった電気製品、スマホやコンピュータ等の電子機器も「機械」とみなしています。

問題は、AI です。「人工知能とは機能であって実体ではない」と考えることも可能かもしれません。ただ、僕は、AIも「機械」だと考えています。それは、現代の人工知能研究が、チューリングの「機械は考えることは可能か?」という問いから始まったと考えているからです。こうした考えによれば、人工知能とは「考える機械」のことに他なりません。

「機械」の概念の中心には、「人間が作ったもの・人工物」というのはありそうです。でも、それ自身機械とみなせる大規模な自動化工場で、機械である自動車が生産されるのなら、「機械は、人間が作ったもの」という規定は適切なものではなくなります。

チューリングが「機械は考えることは可能か?」という問題を提起した頃、フォン・ノイマンは、「自分自身と同じ機械を生み出す機械は可能か?」という問題を提起して、それを肯定的に解いてみせました。ワトソン=クリックがDNAを発見する前の話です。フォン・ノイマンのアプローチは、以前に紹介したAgent-Base-Modelの遠祖になりました。

僕に、ある「機械」のイメージがあったとしても、「機械」に属するもの、あるいは「機械」の属さないものを数え上げて、そのリストを作るのは不可能です。現在の認識から作られた「定義」を明確にすることにこだわるのは、あまり生産的ではないかもしれません。

なぜなら、こうした「機械」や「考える機械」といった言葉の定義やその言葉の含意は、時代と共に変化するものだということです。ある場合には、全く正反対のものに変わることもあります。

例を挙げましょう。今から 50年前の1970年代初め、コンピュータの専門家の中に、人工知能について次のような主張がありました。

「六十年代を通しての研究経過を見てみると、計算機は、人間の頭脳労働のある局面を代行することはできるものの、結局 ”考えることは出来ない機械" であり、将来ともに ”考える機械" の実現はほとんど絶望的なことがはっきりしたと思われるのである。」

「さて、常識的な意味で、計算機が ”考える機械" でないことははっきりした。これは人類にとって祝福すぺきことであろう。外国語の翻訳をしたり、話しことぱを聞きわけたりする機械の出現もほとんど絶望的である。」

石田晴久「人工知能研究の批判」東大理学部情報科学研究施設編「思考過程と憎報科学」所収 p196 産業図書 (1972)

現在なら、こうした主張が、多くの人が受け入れられることはないでしょう。

僕の「機械」のイメージは、後の「視覚能力を持つ機械たちの登場」のセクションで、いくつかの具体例をあげますので、その中でお考えください。


【 マルチモーダルAIの Agent-Base-Model  は妥当か?】

「VisualなAI」の問題にかえりましょう。「VisualなAI」というのは、「視覚能力をもったAI」ということですが、それは僕の解釈では、「視覚能力を持った考える機械」ということになります。

「視覚能力を持った考える機械」は、「視覚能力を持つ機械」と同じものでしょうか?

なぜなら、先に紹介したマルチモーダルAIの Agent-Base-Model では、Agentとしての「考える機械」は、自分の外部に独立な「環境」があることを知っていて、そこから自分の感覚の能力を通じて情報を取得し、「考えて」、「環境」に対して何らかの反応をします。

それは、外部から感覚情報を受動的に受け取る「視覚能力を持つ機械」という「感覚装置」ではありません。それは、決して単純な機械ではありません。「環境の独立性」を知る「自律性」と「能動性」を特徴とする機械です。

残念ながら、僕は、GPT-4Vのような生まれたばかりの「VisualなAI」に、こうした特徴を感じることはありませんでした。

やがていつかは、こうした能力を持つAIが登場するかもしれません。ただ、現段階での「Visual なAI」は、Agent-Base-Model を満たす要件を満たしていないように思います。


【「視覚能力を持つ機械」たちの登場 】

それでは、そもそも「視覚能力を持つ機械」というコンセプトに無理があったのでしょうか? 全くそうではありません。

このセッションでは、「視覚能力を持つ機械」の登場とその発展を見ていこうと思います。

視覚能力をはじめとする生物の感覚諸能力は、生物が外界を認識するために、進化を通じて発達させてきた能力です。人間は、生物学的な進化以外の方法で、感覚の拡張を果たしてきました。

顕微鏡や望遠鏡は、我々の視覚能力の拡大です。同様に、光学的な原理に基づくものではないにしろ、電子顕微鏡や電波望遠鏡も、我々の視覚の拡張と考えていいものです。レントゲンやCT, MRIも同様です。

物理学での巨大な加速器や天文学での重力波望遠鏡も、我々の感覚能力の拡張と考えることが出来ます。

重要なことは、これらの「機械」は、いずれも、「人間の感覚能力」の拡大・拡張を担うものとして、人間によって構想され構築されたものだということです。これらの「機械」の誕生に関して、人間の果たした役割は、決定的に大きなものです。

そればかりではありません。人間とその感覚能力の拡大を担う機械のペアからなるシステムにおいて、認識対象の独立性を認識し、認識活動の「自律性」「能動性」を担っているのは、もっぱら人間の力です。


【 機械が 人間の感覚能力の拡大を可能とした 】

さらに補足すると、網膜がそれ自体では視覚を持たないのと同じように、観測機械もそれ自体では、感覚を持っている訳ではありません。網膜からの信号が視覚野に投影されて、脳内で様々な処理を受けて最終的な視覚が成立するように、観測機械からの情報は、そのペアである人間に送られてその解釈を得ることで、人間の感覚能力の拡大がなされます。

特筆すべきなのは、これらの現代の「機械による感覚能力の拡大」のプロセスのほとんどすべてのケースで、コンピュータによるシステムのコントロール、観測データの処理が本質的に重要な役割を果たしているということです。

こうした人間の感覚能力の拡大は、機械が拡張した感覚能力によって支えられています。機械の助けなしでは、それは不可能なものでした。現在の我々人間の自然認識の能力は、機械の能力と一体のものなのです。それは、大きな成功を収めていると思います。


【「VisualなAI」の課題 】

「VisualなAI」が進む道は二つあるように思えます。

一つは、人間の視覚能力のように、それ自体で独立した視覚能力を獲得する方向を目指すことです。もう一つは、機械による視覚能力の拡大の成功している先例に倣って、人間との協力・共存の道を進むことです。

現在の「VisualなAI」は、まだ態度を決めかねているように僕には思えます。

---------------------------------

ショートムービー「 「VisualなAI」の課題 (2) 」を公開しました。
https://youtu.be/PRlnKLoqFK4?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

ショートムービー 「 「VisualなAI」の課題 (2) 」のpdf資料
https://drive.google.com/file/d/1AfkorU_JO1mv-oj3i0eozcvUUsaETFny/view?usp=sharing

blog : 「 「VisualなAI」は、どう「進化」するのか?  」
https://maruyama097.blogspot.com/2023/10/visualai-2.html

セミナーに向けたショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU

マルレク「AIの利用とインターフェースを考える」のまとめページ
https://www.marulabo.net/docs/personalai/


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について