投稿

6月, 2025の投稿を表示しています

AIと「世界モデル」2

 【 AIと「世界モデル」2  −− 昔の話をしよう 】 このセッションでは、Rodney Brooks の 1987年の論文 “Intelligence without representation” を紹介します。 Rodney Brooks は、SHRDLUの「成功」以降のAI研究の「停滞」の原因を鋭く指摘し、新しいAI研究の道を示した重要なAI研究者です。 もっとも、彼の理論は、当時のAI研究の主流派に受け入れられた訳ではありませんでした。 ただ、彼の理論は、ロボット研究の理論と実践に広く深い影響を与え、その影響は今日も続いています。Brooksは、iRobot社の最高技術責任者で、ルンバの開発者です。 【 Intelligence without representation −− Abstract 】 その論文のAbstractで彼は、次のように述べます。 「人工知能の研究は、表現の問題で停滞している。 知能を段階的にアプローチし、知覚と行動を通じて現実世界とインターフェースすることに厳密に依存すると、表現への依存は消える。」 人工知能研究の停滞の原因は、「表現の問題」であるとされています。 「知能システムの根本的な分解は、相互に表現を介してインターフェースする必要がある独立した情報処理ユニットへの分解ではない。」 「代わりに、知能システムは、相互に特に多くのインターフェースを必要とせず、知覚と行動を通じて世界と直接インターフェースする独立した並列の活動生成ユニットに分解される。」 「中央システムと周辺システムの概念は消滅し、すべてが中央であり周辺でもある。」 こうした見方を、”Subsumption  Architecture” (“SA”と略されます)といいます。 【 "Use the world as its own model !" −− この論文のメッセージ 】 この論文に込めたBrooksのメッセージは、論文冒頭の Introduction に明確に示されています。 「我々は、このアプローチに従って、一連の自律移動ロボットを構築してきた。その結果、予想外の結論(C)に達し、かなり過激な仮説(H)を立てた。 (C) 非常に単純なレベルの知能を調べると、世界に関する明示的な表現やモデルは単に邪魔になるだけであることがわ...

AIと「世界モデル」

 【 AIと「世界モデル」 −− 昔の話をしよう 】 #DeepMind 先のセッションで、DreamerV3の「世界モデル」の概略を見てきました。今回のセッションは、もちろん、DreamerV3の「世界モデル」にインスパイアされたものですが、その画期性へのアプローチを変えてみようと思います。 今回のセッションでは、AIがその発展の歴史の中で、どのように「世界」に関わろうとしたのかを、その「世界モデル」論にフォーカスして振り返ってみようと思います。 【 昔の話をしよう 】 今回と次回のセッションで、次の二つのトピックを取り上げます。  ● Winograd – SHRDLU  ● Brooks – Intelligence without representation 前者は 1970年、後者は 1987年の論文の話ですので、50年から 30年近く昔の話です。 老人の昔話は、一般的には、あまり役には立ちません。でも、今日のような激しい時代の変わり目には、少しは、役立つだろうと思っています。今回と次回のセッションのテーマは、「昔の話をしよう」です。 【 SHRDLUのアーキテクチャと能力 】 SHRDLUは、1968年から1970年にかけてMITのテリー・ウィノグラードによって開発された、自然言語理解のための統合システムです。このシステムは、自然言語パーサー、意味解釈器、推論器、そして「積木の世界(Blocks World)」を操作するためのエフェクターから構成されています。 「積木の世界」は、色付きのブロックやピラミッドなどで構成される単純な仮想環境であり、SHRDLUはユーザーの命令に基づいてこれらのオブジェクトを操作します。 SHRDLUの最も注目すべき能力は、積木の世界に関連する英語の命令や質問を理解し、応答することです。 こんな対話が可能でした。 −−−−−−−−-−−−−---------− [ HUMAN  ] 大きな赤いブロックを取って。 [ SHRDLU ] OK。 (画面上でロボットアームが動き出す。図のように、小さな赤いブロックと大きな赤いブロックの2つが見える。大きなブロックの上には緑色の立方体が積み重ねられている。ロボットはまず緑色の立方体をテーブルの上に移動させ、次に赤いブロックを拾う。) [ HUMAN  ] ...

6月マルレク「AI とマインクラフトの世界」予告編

【  6月マルレク「AI とマインクラフトの世界」予告編 】 6月のマルレクは、「AIとマインクラフトの世界」というテーマで開催しようと思います。 AIの利用者は、この一年で大きく拡大しました。 IT系の人は、コード生成にAIを普通に使うようになりましたし、ジブリ画像の生成はちょっとしたブームになりました。学生のレポートでもSNSへの投稿でも、AIの利用は日常の風景の一部になりつつあります。僕も、最近はAIによる「音声概要」を愛用しています。 【 AIとゲーム? 】 マインクラフトは、多くの人はご存知だと思いますが、有名なゲームです。僕もアカウントを持っています。現在の開発元は、Microsoft社です。 問題は、急発展を続けるAIの世界とゲームの世界とに、どのようなつながりがあるかということです。 今回のセミナーで紹介するAiは、役にたつプログラムを教えてくれるわけでも、面白い画像を作ってくれるわけでも、レポートを書いてくれるわけでもありません。 DeepMind社のAI DreamerV3は、ひたすらゲームをするAIなのです。 次のDreamerV3のGitHubのトップページを見てください。 h ttps://github.com/danijar/dreamerv3   DreamerV3は、Minecraftに限らず、数多くのゲームをプレイすることのできるAIなのです。 DreamerV3のゲームでの強さをよく示すのが、Minecraftで難しい課題の一つである、「ダイアモンドの発掘」に成功したことです。 【 AI Agentの自律性 】 本当は、Minecraftゲームの紹介をもう少し詳しくしないと、DreamerV3の達成の意味が分かりにくいのですが、それだけだとつまらないですね。 ここでは、もう少し一般的なコンテキストから、DreamerV3の行ったことの意味を考えてみようと思います。 現在のAIの進化をAIのAgent化、大雑把に言って、AIの「自律性の拡大」として捉えることは、正しいと思います。 ただ、AIの自律性が何を意味するかについては、よく考える必要があります。 前回のセミナーで見た、ソフトウェア開発サイクルの変化の中でのAI Agentの役割は、AIがLLMモデルの成功によって獲得した人間のことばの意味を理解する能力に基...

DreamerV3の何が画期的なのか?

【 DreamerV3の何が画期的なのか? 】 DreamerV3は、昨今話題のAI Agentの一種です。ただ、このAI Agentは、皆さんの身近にいる「コードを書いてくれる」 AI Agentとは、一味違っています。 前回のセッションでは、DreamerV3を「ゲームをするAI Agent」として紹介してきました。それだけでは彼が可哀想です。 今回のセッションでは、なぜ、この「ゲームをするAI Agent」が「コードを書いてくれるAI Agent」以上に画期的なのかを考えてみたいと思います。 【 視点を切り替えよう 】 ひたすらゲームをするだけのAIが、コードを書いてくれるAIより「画期的」だと思うには、視点の切り替えが必要かもしれません。 それは、簡単なことです。我々がAIに何を期待しているのかを改めて考えること、一言で言えば、AIを作る人の視点を持つことです。そのためには、AIを作るとか何かのAIのプロジェクトに参加する必要はありません。そうした視点を「想像」するだけで十分です。 技術が関わる世界には、その技術を使う人とその技術を作る人がいます。IT技術者は、これまでは、技術を作る側の一端に立っていました。ただ、AI技術に関しては、IT技術者は最も熱心なAI技術の利用者になろうとしています。ひたすらAIを使うだけだと、IT技術者にとっては、あまりいいことないと僕は思います。 実は、「想像」は、夢見るDreamerV3のキーワードの一つです。 【 世界のモデルと未来を想像する力 】 DreamerV3の基本的な論文のタイトルは、”Mastering diverse control tasks through world models”です。 「多様な制御タスクを世界モデルを通じてマスターする」 世界モデルってなんでしょう? この論文に、とても印象的な一節があります。 "The algorithm is based on the idea of learning a world model that equips the agent with rich perception and the ability to imagine the future" 「このアルゴリズムは、エージェントに豊かな知覚と未来を想像する能力を付与する世界のモデ...