AIと「世界モデル」

 【 AIと「世界モデル」 −− 昔の話をしよう 】
#DeepMind

先のセッションで、DreamerV3の「世界モデル」の概略を見てきました。今回のセッションは、もちろん、DreamerV3の「世界モデル」にインスパイアされたものですが、その画期性へのアプローチを変えてみようと思います。

今回のセッションでは、AIがその発展の歴史の中で、どのように「世界」に関わろうとしたのかを、その「世界モデル」論にフォーカスして振り返ってみようと思います。

【 昔の話をしよう 】

今回と次回のセッションで、次の二つのトピックを取り上げます。

 ● Winograd – SHRDLU
 ● Brooks – Intelligence without representation

前者は 1970年、後者は 1987年の論文の話ですので、50年から 30年近く昔の話です。

老人の昔話は、一般的には、あまり役には立ちません。でも、今日のような激しい時代の変わり目には、少しは、役立つだろうと思っています。今回と次回のセッションのテーマは、「昔の話をしよう」です。

【 SHRDLUのアーキテクチャと能力 】

SHRDLUは、1968年から1970年にかけてMITのテリー・ウィノグラードによって開発された、自然言語理解のための統合システムです。このシステムは、自然言語パーサー、意味解釈器、推論器、そして「積木の世界(Blocks World)」を操作するためのエフェクターから構成されています。

「積木の世界」は、色付きのブロックやピラミッドなどで構成される単純な仮想環境であり、SHRDLUはユーザーの命令に基づいてこれらのオブジェクトを操作します。

SHRDLUの最も注目すべき能力は、積木の世界に関連する英語の命令や質問を理解し、応答することです。

こんな対話が可能でした。
−−−−−−−−-−−−−---------−

[ HUMAN  ] 大きな赤いブロックを取って。
[ SHRDLU ] OK。
(画面上でロボットアームが動き出す。図のように、小さな赤いブロックと大きな赤いブロックの2つが見える。大きなブロックの上には緑色の立方体が積み重ねられている。ロボットはまず緑色の立方体をテーブルの上に移動させ、次に赤いブロックを拾う。)

[ HUMAN  ] あなたが持っているものよりも背の高いブロックを見つけて、箱に入れて。
[ SHRDLU ] 「それ」とは、私が持っているものより背の高いブロックのことだね。
(SHRDLU は赤いブロックを置き、より背の高い青いブロックを拾い、箱に入れる。)

[ HUMAN  ] 箱の中には何が入っている?
[ SHRDLU ] 青いピラミッドと青いブロック。
[ HUMAN  ] ピラミッドは何で支えられている?
[ SHRDLU ] 箱。
(実際にはテーブルの上に赤いピラミッドと緑のピラミッドの2つがあります。SHRDLUは質問が先ほど言及されたピラミッドを指すものと正しく推測しています。)

[ HUMAN  ] 箱に入っていないブロックはいくつありますか?
[ SHRDLU ] 4つです。
[ HUMAN  ] そのうちの少なくとも1つは、私が拾うように言ったものより細いですか?
[ SHRDLU ] はい、赤い立方体です。
[ HUMAN  ] 支えられていますか?
[ SHRDLU ] はい、緑のブロックによって支えられています。

[ HUMAN  ] テーブルはブロックを持ち上げられるか?
[ SHRDLU ]  いいえ。
[ HUMAN  ] ピラミッドはブロックで支えられるか?
[ SHRDLU ] はい。
[ HUMAN  ] ピラミッドはピラミッドを支えられるか?
[ SHRDLU ] わかりません。
[ HUMAN  ] 2つのピラミッドを積み重ねて。
(ロボットは試すが失敗する。)
[ SHRDLU ]できません。
−−−−−−−−-−−−−---------−

【 SHRDLUのアーキテクチャと能力 】

SHRDLUの推論は、オブジェクト、プロパティ、関係の明示的な記号表現に基づいて行われました。また、この世界には基本的な物理法則も組み込まれていて、ブロックは積み重ね可能だが、ピラミッドの上にピラミッドを重ねることはできないといった可能性を推論することができました。

先の対話例では、「PICK UP A BIG RED BLOCK.(大きな赤いブロックを持ち上げなさい)」といった直接的な命令から、「FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.(あなたが持っているブロックよりも背の高いブロックを見つけて、それを箱に入れなさい)」といったより複雑な指示まで、SHRDLUが的確に応答することができました。

【 AIエージェントとしてのSHRDLU 】

SHRDLUは、現代的な意味での学習能力は限定的だったものの、初期の統合AIエージェントの多くの側面を体現していました。

 ● 知覚: 入力された自然言語を感覚入力として解釈した。
 ● 知識表現: 積木の世界の状態に関する動的な知識ベースを維持した。
 ● 意思決定/計画: 命令で述べられた目標を達成するための一連の行動を計画することができた。 例えば、「stack up two pyramids(2つのピラミッドを積み上げなさい)」という命令に対し、不可能であれば「I CAN'T(できません)」と応答し、計画と制約チェックの能力を示した。
 ● 行動: 仮想的な積木の世界で行動を実行した。

【 SHRDLUの歴史的意義と限界 】

SHRDLUは、機械が特定の文脈内で言語を「理解」し、有意義な対話を行うことができることを示した、AIの画期的なデモンストレーションでした。NLP(自然言語処理)およびAI研究に大きな影響を与えました。

しかし、SHRDLUには重大な限界がありました。その知能は、極めて単純化された積木の世界に限定されており、一般的な世界の知識を持たず、現実世界の複雑さにスケールアップすることはできませんでした。

また、手作業で作られたルールに依存していたため、柔軟性に欠け、拡張が困難でした。
 
SHRDLUの自然言語理解での成功は、「積木の世界」の単純によって初めて可能になりました。例えば、「積木の世界」を記述するのに「おそらく50語程度」しか必要としないことが、統合された自然言語理解、推論、行動という複雑なタスクを扱いやすいものにしました。

ウィノグラード自身、次のように語っています。「SHRDLUや同様のプログラムがマイクロワールド(小さな世界)について推論するために採用したアプローチは、現実世界を理解するために必要な膨大な量の知識を扱うように容易にスケールアップできなかった」

このことは、初期のAIが統合された知能を実証するためにマイクロワールド(小さな世界)が不可欠であったことを示しています。

【 SHRDLU以降のAI研究 】

SHRDLUは、自然言語理解、記号的推論、計画、行動を組み合わせ、言語、知覚、推論、行動という、ある意味で非常に統合されたエージェント能力を示しました。その構成要素はルールベースで限定的だったものの、歴史的にはこうしたSHRDLUによる統合自体が重要な成果であったと考えられます。

SHRDLU以降、AI研究は長年にわたりしばしば専門化されたサブ問題(例えば、視覚、計画、NLPを個別に扱う)に焦点を当ててきました。別の言い方をすれば、AI研究の中で、統合された能力を持つAIエージェントに対する関心は、相対的に低下します。

【 エージェント論への新しい関心 】

そうした停滞状態が数十年続いたのですが、変化は突然訪れました。

2012年に始まるDeep Learning(AlexNetでの画像認識、Googleの猫、音声認識)の知覚分野での鮮烈な成功は、LLMでの革命的な自然言語理解能力の獲得へと引き継がれました。

LLMの自然言語理解の能力は、自然言語と同様にSyntaxとSemanticsを持つ人工言語であるプログラム言語の理解へと容易に拡張されました。

また、AiのMulti Modal化は、改めて「統合されたAIエージェント」への関心を高めることになりました。

【 SHRDLUとDreamerV3を比較する 】

SHRDLUとDreamerV3という、50年の時を経て開発された二つのAIシステムを比較することで、AIの進歩の軌跡と、エージェントという概念自体の変化が明らかになると僕は考えています。

個別の論点での比較に入る前に、最初に確認しておきたいことが一つあります。

それは、SHRDLU の「世界モデル」の中核を担っていた、言語理解能力をDreamerV3は欠いていることです。これは、LLMベースのエージェント・モデルが当たり前になっている現在のエージェントのイメージとは、かなり違うものです。それは、DreamerV3エージェントの大きな特徴の一つです。

==================
以下、「 人間とエージェントの対話 」「 世界の表現 」「  自然言語と視覚 」「 学習と適応 」「 汎用性とスケーラビリティ  」「  説明可能性 と パフォーマンス 」といった個別の論点での両者の比較が続きます。この部分は、今回のセッションの中心部分ですが長くなるので、ここでは割愛しました。興味ある方は、ビデオあるいはpdf 資料をご覧ください。
==================

【 この50年のAIエージェントの進化? 】

この50年の進化は、狭く深い説明可能な知能から、広く高性能だがしばしば説明可能性の低い知能へと優先順位が変化したことを示しているようにも見えます。

SHRDLUの記号的な性質は、その「思考」(推論ステップ)をアクセス可能にしました。しかし、この明示的で手作業でコード化された知識への依存が、汎化におけるアキレス腱だったのです。

DreamerV3は、データから表現を学習することで、手作業による知識エンジニアリングの必要性を回避し、はるかに複雑で多様な問題に取り組むことを可能にしています。しかし、これらの学習された表現はしばしば不可解です。

【  また、別の視点から 昔の話をしてみよう 】

僕は、実は、この50年間のAIエージェントの進化を、SHRDLからDreamerV3への進化として特徴づける議論の枠組みに、必ずしも賛成ではないのです。

DreamerV3の達成は素晴らしいし、両者の対比は明確で示唆に富んでいるのですが、それは少し単純化を含んでいて、現在の到達を過大評価する危険があるとも感じています。

基本的には、エージェントが自分の外部の世界と相互作用して、それを通じて、エージェントが世界の理解を何らかの形で深めていくこと。

そうした視点から、エージェント論の現在を振り返るには、もう少し、異なったアプローチを知った方がいいとも感じています。

次回のセッションでは、「エージェントに、世界の内部モデルはいらない。世界のモデルは、世界そのものだ。」という、Brooksの 表象なき知性 Intelligence without representation」論を紹介しようと思います。

−−−−-−−−-−−−−-−−−−−−−−-

blog page

https://maruyama097.blogspot.com/2025/06/ai.html

マルレク「AI とマインクラフトの世界」まとめページ 
https://www.marulabo.net/docs/dreamerv3/

マルレク「AI とマインクラフトの世界」のショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNT-iHwnkWJ5379ztVAbatX

ショートムービー「 AIと「世界モデル」 −− 昔の話をしよう 」のpdf
https://drive.google.com/file/d/1rBLQ4LXacherdIkFm-WJkl74RzX96daj/view?usp=sharing

ショートムービー「AIと「世界モデル」 −− 昔の話をしよう 」
https://youtu.be/6-IFVXpbjbY?list=PLQIrJ0f9gMcNT-iHwnkWJ5379ztVAbatX

コメント

このブログの人気の投稿

初めにことばありき

密度行列とは何か?

宇宙の終わりと黒色矮星