AIと「世界モデル」2

 【 AIと「世界モデル」2  −− 昔の話をしよう 】

このセッションでは、Rodney Brooks の 1987年の論文 “Intelligence without representation” を紹介します。

Rodney Brooks は、SHRDLUの「成功」以降のAI研究の「停滞」の原因を鋭く指摘し、新しいAI研究の道を示した重要なAI研究者です。

もっとも、彼の理論は、当時のAI研究の主流派に受け入れられた訳ではありませんでした。

ただ、彼の理論は、ロボット研究の理論と実践に広く深い影響を与え、その影響は今日も続いています。Brooksは、iRobot社の最高技術責任者で、ルンバの開発者です。

【 Intelligence without representation −− Abstract 】

その論文のAbstractで彼は、次のように述べます。

「人工知能の研究は、表現の問題で停滞している。 知能を段階的にアプローチし、知覚と行動を通じて現実世界とインターフェースすることに厳密に依存すると、表現への依存は消える。」

人工知能研究の停滞の原因は、「表現の問題」であるとされています。

「知能システムの根本的な分解は、相互に表現を介してインターフェースする必要がある独立した情報処理ユニットへの分解ではない。」

「代わりに、知能システムは、相互に特に多くのインターフェースを必要とせず、知覚と行動を通じて世界と直接インターフェースする独立した並列の活動生成ユニットに分解される。」

「中央システムと周辺システムの概念は消滅し、すべてが中央であり周辺でもある。」

こうした見方を、”Subsumption  Architecture” (“SA”と略されます)といいます。

【 "Use the world as its own model !" −− この論文のメッセージ 】

この論文に込めたBrooksのメッセージは、論文冒頭の Introduction に明確に示されています。

「我々は、このアプローチに従って、一連の自律移動ロボットを構築してきた。その結果、予想外の結論(C)に達し、かなり過激な仮説(H)を立てた。

(C) 非常に単純なレベルの知能を調べると、世界に関する明示的な表現やモデルは単に邪魔になるだけであることがわかる。 世界そのものをそれ自身のモデルとして使うほうが良いことがわかった。」

「(H) 表現は、知能システムの最も大規模な部分を構築する際の抽象化の単位として適切ではない。

表現が過去15年間の人工知能研究の中心的課題であったのは、それだけが孤立したモジュールや学会論文の間でインターフェースを提供していたからに過ぎない。」

SHRDLUのように、知能システムの中心に言語表現による「世界のモデル」を置くのは、システムの発展にとって邪魔になるだけだ。それが停滞の原因だ。知覚と行動を通じて世界と直接インターフェースをとるようにして、世界のモデルは世界自身を使うのがいい。 ということです。かなり痛烈な、SHRDLU流のAI批判です。

【 彼の着想の源 】

彼のの着想の源は生物学と進化にありました。単純な生物は、精巧な内部表現なしに複雑な行動を示します。

彼は進化のタイムスケール(単純な反応は何十億年もかけて進化したが、書記や象徴主義はごく最近のものでしかない)や昆虫の知能に言及しています。10万個のニューロンしか持たない昆虫が、ナビゲートしたり飛んだりできることから、それが複雑な記号数学計算を行っているのか疑問を呈しました。

そして、「世界をそれ自身のモデルとして使う」ことを提唱したのです。こうしたアプローチは、ロボット工学に革命をもたらしました。

【 サブサンプション・アーキテクチャと DreamerV3  】

WinogradのSHRDLUとBrooksのSAとDeepMindのDreamerV3の三つを並べると、AI エージェントの「進化」の一つの方向が見えてきます。

純粋に記号的なシステムであるSHRDLUと純粋に反応的なシステムであるSAの限界は、経験から学習し適応できるエージェントへの関心を高めることになります。

それは、「データ駆動型のエージェント」と呼んでいいものです。

【 データ駆動型のエージェントへの 移行を可能にしたもの 】

このデータ駆動型のエージェントへの移行を可能にしたものは、次のような技術のシフトです。これは周知のことだと思います。

 ・ニューラル・ネットワーク(NN):かつて注目を集めていたが、訓練アルゴリズムの改良とマシンの計算能力の向上で、AI研究の第一線に復活。
 ・コンポーネントの中核としての機械学習(ML):明示的なルールをプログラミングすることから、システムがデータからパターンや行動を学習できるようにすることへのシフト。
 ・強化学習(RL):相互作用と報酬を通じて学習するエージェントへ

【 DreamerV3での「世界モデル」 】

DreamerV3 の「世界モデル」は、環境がどのように振る舞うかを学習した予測モデルです。これにより、 DreamerV3は、「もしxをしたら何が起こるか?」と問いかけることができます。学習されたモデル内で将来の軌道をシミュレートすること(「想像」)によって「計画」を可能にします。

「世界モデル」はサンプル効率を向上させることができます。なぜなら、 DreamerV3は現実世界の相互作用よりも生成コストの低いシミュレートされた経験から学習できるからです。
DreamerV3は、内部で結果を探求できるようにすることで、疎な報酬や長期的な時間軸といった課題に対処することができるようになりました。

【 エージェント技術の歴史的「統合」 】

DreamerV3のような「世界モデル」を持つ学習ベースのエージェントの登場は、先行したエージェント技術のある種の歴史的統合を表していると考えることができます。

SHRDLUのような初期の記号主義AIは、手作業で作られた明示的な表現に依存していました。ブルックスはこれらを硬直的すぎると拒絶しました。

DreamerV3は、ブルックスが批判した内部「表現」(世界モデル)を再導入するのですが、その表現はSHRDLUのようなプログラムされた静的なものではなく、学習された動的なものです。

初期のRLは、BrooksのSAのように、内部に「世界モデル」を持たず、反応的な方策を学習していました。

DreamerV3に見られるようなモデルベースRLは、内部モデルのアイデアを復活させるのですが、このモデルはデータから学習される、確率論的に振る舞い予測を可能にするなエンジンです。

こうして、 DreamerV3は、静的で決定論的な表現に関するブルックスの懸念に対処しつつ、SAのような純粋に反応的なシステムには欠けていた計画能力を可能にしました。

【 DreamerV3における「想像」の概念 】

僕は、DreamerV3における「想像」の概念に注目しています。

それは、人間の先見性に対する強力な計算論的アナロジーを提供するものです。それは、エージェントが高価な現実世界の試行錯誤なしに潜在的な未来を探求することを可能にするものです。

それは、しばしば完全なモデルに依存していたSHRDLUの純粋に記号的な計画と、SAの純粋に反応的な行動の両方を超えた重要なステップであると思います。

【 DreamerV3は、複雑さにどう挑戦したか? 】

もっとも、 DreamerV3が、エージェントに課せられたすべての課題をクリアした訳ではありません。

次回のセッションでは、 DreamerV3が、複雑さの問題に、どのように挑戦したのかを見ていきたいと思います。

−−−−-−−−-−−−−-−−−−−−−−-

blog page

https://maruyama097.blogspot.com/2025/06/ai2.html

マルレク「AI とマインクラフトの世界」まとめページ 
https://www.marulabo.net/docs/dreamerv3/

マルレク「AI とマインクラフトの世界」のショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNT-iHwnkWJ5379ztVAbatX

ショートムービー「 AIと「世界モデル」2 −− 昔の話をしよう 」のpdf
https://drive.google.com/file/d/1rQDd54PH8wmQ_bd0r5q0GB3o-9v6BsWj/view?usp=sharing

ショートムービー「AIと「世界モデル」2 −− 昔の話をしよう 」
https://youtu.be/bGjlNMiJZRs?list=PLQIrJ0f9gMcNT-iHwnkWJ5379ztVAbatX

コメント

このブログの人気の投稿

初めにことばありき

密度行列とは何か?

宇宙の終わりと黒色矮星