投稿

2023の投稿を表示しています

数学から計算科学へ、そしてその逆 -- MIP* = RE の場合

【 数学から計算科学へ、そしてその逆 】 今回のセミナー「大規模言語モデルの数学的構造 I 」 https://llm-math.peatix.com/  は、数学(カテゴリー論の基本的定理)が計算科学への実践的な応用を持つという例なのですが、逆の例、計算科学が数学の問題を解くのに応用されるという例もあります。 添付した短いビデオは、計算科学が量子力学を経由して純粋数学に影響を与えるという状況が生まれているということを表しています。 この動画  https://d2r55xnwy6nx47.cloudfront.net/uploads/2020/03/Connes-2880x1620_v2.mp4 はQuaunta Magazineの " Landmark Computer Science Proof Cascades Through Physics and Math"  https://www.quantamagazine.org/landmark-computer-science-proof-cascades-through-physics-and-math-20200304/ という記事から借用したものですが、具体的には、計算複雑性の理論での「MIP* = RE」という定理の証明が、数学の未解決の難問だった「コンヌ予想」を「否定的」に解決したことを表しています。 【 「計算科学」と「数学」をつなぐ 「量子力学」という段階の意味 】 興味深いのは、この例の場合、計算科学と数学は直結しているわけではなく、途中に、「量子力学」という段階を経由していることです。 といいますのも、MIP* (MIP star と読むようです)の ' * ' (star) は、量子論的にentangle した二人の「万能の(しかし嘘もつく)証明者」を仮定しているからです。彼らとの「対話型証明」として証明は進行します。 【 動画を逆転する 】 今回のセミナーで取り上げる「数学から計算科学へ」の例は、この動画を逆転したものと考えていいのです。実は、そこでも、この動画での「量子力学」に相当する段階が重要な役割を果たしています。 それは、次回のセミナー「大規模言語モデルの数学的構造 II -- enriched categoryによる言語モデル」で詳しく展開

巨人の肩に乗ろう!

【 12/30 マルレク「大規模言語モデルの数学的構造 I 」申し込み受付開始 】 大規模言語モデルの働きがよくわからないという人は少なくないと思います。僕自身もそうです。大規模言語モデルの振る舞いとその背後にある理由をもっとよく知りたいと考えている人は、きっと沢山いらっしゃると思います。 二回連続のシリーズを予定しているセミナー「大規模言語モデルの数学的構造」は、こうした疑問に、大規模言語モデルにカテゴリー論に基づくモデルを与えることで応えようとしたTai-Danae Bradley らの興味深い論文を紹介することを主要な目的にしています。 12月30日開催のセミナー「大規模言語モデルの数学的構造 I -- 言語へのカテゴリー論的アプローチ入門 」はこの連続セミナーの第一回目です。お申し込みは、次のサイトからお願いします。 https://llm-math.peatix.com/ 連続セミナーの二回目は、「大規模言語モデルの数学的構造 II -- enriched categoryによる言語モデル」というタイトルで、来年の一月末開催予定です。ご期待ください。 12月30日のセミナーは、次のような構成を予定しています。  ⚫️ Part 1 構成的分散意味論の展開    ・語の意味をどう捉えるか -- 分散意味論の系譜    ・DisCoCatの登場    ・Quantum NLP  ⚫️ Part 2 大規模言語モデルの特徴    ・Tai-Danaeの問題提起    ・Tai-Danaeの道具箱    ・あらためて、セミナーの目的について  ⚫️ Part 3 言語をカテゴリーとして捉える    ・preorderとしての言語  ・ categoryとしての言語  ・ functor:意味を表現する方法  ⚫️ Part 4 意味をカテゴリーとして捉える    ・functor category と意味  ・ Yoneda embeddingと意味の表現  ・ 言語のcategoryに確率を導入する -- enriched category 日頃あまり見慣れない用語や概念が出てくるので、最初はわかりにくいところが多いかもしれません。ただ、それは当然かもしれません。なぜなら、ここでの議論のベースになっているのは、50年以上前に数学の巨人であるグロタンディックやロー

言語のcategoryに確率を導入する -- enriched category

【 セミナーを二つに分割します 】 今月末に予定しているセミナーを二つに分けて、enriched category に基づく言語理論を紹介する後半部分を次回のセミナー「大規模言語モデルの数学的構造 2」に回そうと思っています。予定変更、すみません。詳しくは、このポストの最後の部分をお読みください。 【 言語のcategoryに確率を導入する 】 これまでみてきた言語のcategory L では、二つの表現SとTがある時、SがTの部分文字列である時、S → T という射が存在します。 例えば、次のような射が category L には存在します。   red → red firetruck   red → red idea S → T という射を、単なる部分文字列の関係としてではなく、表現Sが表現Tを「連想させる」という関係として考えると、普通の言語使用の局面では、red → red firetruck の方が、red → red idea よりたくさん出現するような気がします。 「連想」というのが曖昧だというなら、表現の「継続」あるいは表現の「連続」と考えて構いません。 こうした違いを、数値的に次のように表現することにします。射 を表す矢印の上に数字が割り当てられています。            0.12   red  →  red firetruck           0.003   red  →  red idea この例は仮のものですが、ここでのポイントは、射 red → red firetruck に割り当てられた 0.12という数字が、射 red → red ideaに割り当てられた 0.003という数字より大きいということです。 このことが、「普通の言語使用の局面では、red → red firetruck の方が、red → red idea よりたくさん出現するような気がする」ということを表現していると考えましょう。 もう少しきちんと定義すれば、これらの数字は、表現Sが現れた時、表現Sの「継続」として表現Tが現れる条件付き確率π(T|S)だと考えることができます。 【 大規模言語モデルでの Next Sentence Prediction 導入の意味 】 僕は、翻訳モデルから大規模言語モデルへの飛躍をもたらした最大のものは、文と文の「継続」あるいは

Yoneda embeddingと意味の表現

【 言語と意味の関係をカテゴリー論で整理する 】 前回のセッションで、意味のcategory M の形を見てきました。 それは、言語のcategory L のオブジェクト x から、Lの射 x → y によってうつされるすべてのオブジェクト yの集合によって表現されます。 Lのオブジェクトxを、その意味を表すcategory Setのあるオブジェクトに割り当てる functor を L(x, − )で表すと、   L(x, − ) :  L → Set と表すことができます。 意味のcategory M のオブジェクトは、この   L(x, − ) : Set^L に他なりません。 【 もとの問題意識に戻る 】 意味のcategory M の構造は定義できたのですが、それで問題が片付いたわけではありません。 もともとの問題意識は、言語のcategory Lと意味のcategory M を関連づけようということでした。   L → M のように。  Mが定義できたので、これが今度はこうなります。   L → Set^L これを図で表してみましょう。この説明は、スライドをご覧ください。 まず、 言語のcategoryと意味のcategory の関係 を図に表してみました。 次に、この図の上で、語 red の意味がどう扱われるのか、具体例で説明しています。言語のcategory L と意味のcategory Set^L との対応は、Lのオブジェクト red をSet^Lのオブジェクト L(red, − )に対応づけるものです。 一般に、Lのオブジェクト x をSet^Lのオブジェクト L(x, − )に割り当てることを「Yoneda Embedding」と言います。 後半では、こうした構成を一般的な視点から説明しようと思います。 【 表現可能なfunctor 】 ここでは、これらの構成のアイデアのもとにあるYoneda lemmaについて、簡単に説明したいと思います。 category Cから集合のcategory Set へのfunctor    F : C → Set  が存在する時、このF を表現可能なfunctor と呼びます。 category Cの性質が最初はよく分からなくとも、性質のよくわかっているSet へのfunctor を考えると、Cの性質がSetの

functor category と意味

【 John Firthの意味理解をカテゴリー論的に解釈する 】 意味の世界にアプローチする手がかりは、どこかにないでしょうか? 特に、その意味の世界をカテゴリーとして捉えるヒントはどこかにないでしょうか? このセミナーの中では、意味の世界をカテゴリーとして捉えようとする二つの理論 DisCoCatとQNLPを紹介してきました。そこでは意味の世界は、有限ベクトル空間あるいはヒルベルト空間のカテゴリーとしてモデル化されていました。 また、それらの理論では言語のカテゴリー Lは、pregroup文法に従うものとして、高度に構造化されたものだとされていました。 ただ、それらは、「構造を持たないテキスト」をその入力とするように見える大規模言語モデルの数学的モデルとしては、使いにくいものでした。 【 意味の理論の振り返り 】 改めて、 DisCoCatやQNLP以前の、まだカテゴリー論化されていない意味の理論を振り返ってみましょう。 ここでは、次の二つの意味の理論を、振り返ってみましょう。  ⚫️ 意味の使用説:Wittgenstein  ⚫️ 意味の文脈依存説:Firth 意味の使用説とは、意味はその使用から説明されるべきだ、という考え方です。 Wittgensteinに始まるものです。   “meaning of a word is its use in a language”   「ある語の意味は、ある言語におけるその使用である」 チューリングは、言葉の意味を知る事は、その用法を知る事だといったヴィトゲンシュタインらの見解に痛烈な皮肉をあぴせています。 すなわち、「機械」や「考える」という言葉の使い方をいくら調べた所で「機械は考える事ができるか」という問の意味も答えも明らかになるわけではない。それとも、「ギャラップの世論調査の様な 統計的研究」が必要という事になるのだろうかと。 Firthは「状況の文脈」という概念で意味の文脈依存的な性質に注目したことで知られ、連語的(collocational)意味に関する彼の研究は、分散意味論の分野で広く認められています。特に、彼は次の有名なことばで知られています。   “You shall know a word by the company it keeps”   「我々は、ある語を、それが引きつれている仲間たちによって知ること

functor:意味を表現する方法

【 意味の世界はどこにある? 】 大規模言語モデルは、言語の意味を理解しているように見えます。それでは、大規模言語モデルが理解しているように見える「意味の世界」はどこにあるのでしょう? 先のセッションでは、言語を語の並びである表現の集まりだと考えれば、文字列の包含関係で preorder の順序が定義でき、それは category としても考えられるという話をしました。 ただ、この言語のcategory L をいくら眺めても、そこにあるのは、具体的な文字列や語や表現だけで、どこにも意味は見当たりません。 【 意味を表現する方法を考える 】 これまでの流れで考えてみると、言語のcategory Lとは別に、言語の意味を表現するcategory M (meaningのMです)が存在すると考えるのが自然なアプローチだと思います。 ただ、この二つのcategory L, Mは、別々バラバラなものではなく結びついていて、言語のcategory Lが与えられるとその言語の意味のcategory Mが生み出されるという関連があるはずです。 もし、意味のcategory Mがうまく定義できるなら、言語のcategory Lと意味のcategory M を結びつけることで、言語の意味の表現ができそうです。 もっとも、この段階では 「LとMを結びつけられたらいいかも」と言っているだけで、意味のcategory Mがどんなものかは何もわかっていません。意味のcategory Mをどう構成すればいいかは、次回のセッションでもう少し具体的に触れていきたいと思います。 今回のセッションでは、「category とcategoryを結ぶ」ということを、考えてみたいと思います。 【 functor -- categoryとcategoryを結ぶ 】 カテゴリー論では、あるcategoryともう一つのcategoryを結びつける方法がキチンと定義されています。それをfunctor と言います。 言語の意味を表現するのに、カテゴリー論的枠組みを使うのなら、functorを利用することが必要になりそうです。 ここでは、functorと二つのfunctorを結びつけるnatural transformationの定義を見ておくことにします。 【 functorとはなにか? 】 category C から

categoryとしての言語

【 なぜ、言語をcategory として捉えるのか? 】 前回のセッションでは、大規模言語モデルの入力に与えられるテキストデータを、「語の並び」からなる「表現」の集まりと考えると、そこに文字列の包含関係に基づいて二つの表現SとTとの間の順序を、次のように定義できることを見てきました。  ⚫️ SがTの部分文字列である時、S ≦ T  ⚫️ そうでない時、SとTの間には、順序関係は存在しない。 この順序 ≦ は、反射律と推移律を満たしますので、preorder(前順序)です。 「表現」の集まりとしての言語は、preorderの構造を持ちます。 今回のセッションでは、前回見たpreorderの構造を持つ対象は、category としても考えることができると言う話をします。 まず、category とは何かを見ておきましょう。 【 categoryとは何か? -- categoryを構成するもの 】 category Cは、次のものからできています。  ⚫️ オブジェクト (object): Cを構成する要素  ⚫️ 射 (morphism): Cの二つのオブジェクト x, yを結ぶもの。 この射fを f : x → y と表します。この時、xをfのdomain、yをfのcodomainと呼びます。 f : x → y,  g : y → z なる 射 f, g に対して、g◦f : x → z なる射が存在します。これを射 f, g の合成 (composition) といいます。これは、射 f のcodomainと射 gのdomainが一致する時、射の合成 g◦f が定義されるということです。 【 categoryとは何か? -- category が満たすべき性質 】 category C は、次の性質を満たさなければなりません。   ⚫️ 同一射の存在: Cのすべてのオブジェクト x について、xを同じxと結ぶ射 id_x : x → xが存在する。  ⚫️ 射の合成の結合性:f : x → y,  g : y → z, h : z → w  の時、( h◦g )◦f = h◦( g◦f )が成り立つ。 この性質はスライドの図を見た方がわかりやすいと思います。 【  preorderとしての言語はcategoryである 】 先に見た、preorderとしての

preorderとしての言語

【 言語のプリミティブな構造を考える 】 これから Tai-Danae の大規模言語モデルの数学的モデルの紹介をしたいと思います。細かいテクニカルな話に入ってしまうと、全体の流れが見えにくくなるので、彼女のアプローチの基本的な骨組みの概説を先行して、段階的に進めたいと思います。 概説の第一回目である今回は、言語のプリミティブな構造としてpreorderという構造に注目するという話をします。 【 pregroupからpreorderへ 】 DisCoCatの言語理論の前提の一つは、自然言語が構成的な文法構造を持つことです。それは、通常は、Lambekのpregroup文法で記述されています。 DisCoCatとLambekのpregroup文法については、2022年12月のマルレク「ことばと意味の「構成性」について」 https://www.marulabo.net/docs/discocat と、その中の次の資料を参照ください。 https://www.marulabo.net/docs/discocat/#Pregroup_Grammar   pregroupは、基本的には、いくつかの代数的構造を持つ「半順序集合(partial order set: poset)」です。カテゴリー論的には、monoidal categoryの一種で、compact closed categoryになります。それは「半順序」より、複雑な構造を持っています。 大規模言語モデルが、「構造化されていないテキストデータの相関関係から完全に構築されている」とみなそうとする Tai-Danaeにとって、pregroupという構造を前提にすることはできません。 彼女が選んだのは、pregroupがもつ余分な代数的な構造(monoidとself dual)を捨て、さらに残った半順序(partial order)からも、ある性質を捨てて得られる 非常にプリミティブな前順序(preorder)という構造から大規模言語モデルの振る舞いを数学的に再構築するという道でした。 その意味では、彼女は、テキストデータが、「全く構造化されていない」と考えたわけではありません。最低限の前提ですが、言語は、 preorder という構造を持つのです。 【 preorderとは何か 】 順序≤が定義された集合𝑃で、

あらためて、セミナーの目的について

【 あらためて、セミナーの目的について 】 中断があったので、改めて今回のセミナー 「大規模言語モデルの数学的構造」の目的を確認したいと思います。 まずは、個人的な背景から。 正直に言うと、僕には大規模言語モデルの働きについてよくわからないところがいろいろあります。ただ、その振る舞いには何かの理由があるはずです。また、その理由は数学的に表現できるとも考えています。 そうした疑問の中、DisCoCatの時代から注目していた Tai-Danae Bradleyの議論の「変化」に注目するようになります。 【 大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できない 】 DisCoCatの理論は、言語の文法的構成性を言語の意味的構成性に結びつける、強力なカテゴリー論的枠組みを提供する素晴らしい理論です。 ただ、現実の大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できないのです。 なぜなら、DisCoCatのモデルではモデルに与えられる入力は、あらかじめ pregroupとして形式的に記述される文法構造を持ち、そうしたものとして解析されていることを前提としているからです。大規模言語モデルは、そうではありません。 【 Tai-Danae らの二つの論文に注目 】 ある論文の冒頭で、Tai-Danae Bradleyは、こう言っています。 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4       彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 まったく、同感です。 Tai-Danaeは、別の論文で、次のように語ります。 「最先端の言語モデルは、どのような入力テキストからも自然言語テキストの続きを返すことができる。首尾一貫したテキストの拡張を生成するこの能力は、このモデ

Tai-Danaeのアメリカ数学会デビュー論文へのコメント

【 Tai-Danaeの仕事は、まだ十分には理解されていないのかも 】 (小論は、昨日Facebookに投稿した「AIにおけるカテゴリー理論のツールの普及」のタイトルを変更し、若干の資料を追加したものです。Tai-Danae が名を連ねる論文へのコメントとしては、辛口なものになっています。 ただ、それは、この論文だけでは、この分野で彼女が果たしてきた役割が正当に評価されていないのではと言う不満に基づいたものです。 少し考えたのですが、現在準備中の彼女の理論の紹介を目的とした「大規模言語モデルの数学的構造」のエピソードの「番外編」として、このコメントを組み込むことにしました。 内容の重複をお許しください。) -------------------------------- 【 Tai-Danaeのアメリカ数学会デビュー論文へのコメント 】 来年のことを言うと鬼が笑うと言いますが、来年2月に発行される AMS(アメリカ数学会)誌にTai-Danae Bradleyらの論文が掲載されるそうです。 共著者の一人の John Terilla が自分のページにpre-print を載せています。  "The structure of meaning in language:  parallel narratives in linear algebra and category theory"「言語における意味の構造:線形代数とカテゴリー理論におけるパラレル・ナラティブ」 https://qcpages.qc.cuny.edu/~jterilla/main.pdf このpreprintの「はじめに」の部分を紹介したいと思います。 「機械学習におけるカテゴリー論に関するオンラインプログラム "Categories for AI "は、昨年秋から数ヶ月にわたって展開された。  Deep Mind社の2名を含む産業界の研究者数名を含む "Cats for AI "組織委員会は、機械学習コミュニティはより厳密な構成的言語を使用すべきであり、カテゴリー論は科学全般、特に人工知能において「結束力を持つ大きな可能性」を持っていると感じていた。 この論文は決してその出来事を包括的に報告するものではないが、「Cats for AI」 ht

GPTをAI Assistantアプリに カスタマイズする API編

 【 AI利用のインターフェースを 劇的に変えるAI Assistant アプリ API編 】 このセッションでは、前回紹介したAI利用のインターフェースを 劇的に変えるAI Assistant アプリ をどのように開発するのかを、Assistant APIのレベルで、少し詳しく紹介しようと思います。 はじめにAssistant APIの基本を、改めて確認します。 その後で、OpenAIが公開している、Assistants playgroundでのコードを見ていきたいと思います。 最後に、Assistantの内部で利用できる三つのツールを確認します。 Assistants playgroundサンプルコードは、次のような構成をしています。  Step 1: Assistantを生成する  Step 2: Threadを生成する  Step 3: ThreadにMessageを追加する  Step 4: Assistantを走らせる  Step 5: Runのstatusをチェックする  Step 6: AssistantのResponseを表示する  サンプルの出力例 Toolsの説明は次のような構成です。  Code Interpreter   Code Interpreterを有効にする   Code Interpreterにファイルを渡す  Knowledge Retrieval   Retrievalを有効にする   Retrieval は、どう働くか?   Retrieval用のファイルをアップロードする  関数呼び出し   関数を定義する   Assistantから呼ばれた関数を読み込む   関数の出力をサブミットする このセッションは、あまりビデオでの短い講義には向いていません。是非、公開しているpdfファイルをゆっくりお読みください。 -------------------------------- ショートムービー「 GPTをAI Assistantアプリに カスタマイズする API編」を公開しました。 https://youtu.be/R9IPc17r6Po?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm 「 GPTをAI Assistantアプリに カスタマイズする API編」のpdf資料 https://d

GPTをAI Assistantアプリに カスタマイズする

 【 AI利用のインターフェースを 劇的に変えるAI Assistant アプリ 】 このセッションでは、OpenAi DevDayで発表された、GPTの能力をユーザーが開発したアプリの上で自由に生かすことを可能にするAssistant APIの概要を見ていきます。 また次回以降のセッションでは、OpenAIが同時に開発を進めていたAIのマルチモーダル化の成果を、今や、AI Assistant アプリの形で、ユーザーが利用できることを紹介したいと思います。 これまで、ChatGPTの利用のスタイルは、OpenAIのサイトにログインして直接ChatGPTと向き合って対話を続けること、具体的にはキーボードとスクリーンを通じてChatGPTとテキストを交換するのが基本でした。このスタイルが大きく変わろうとしています。 ユーザは、場合によればそのアプリの背後にAIがいることを全く意識せずに、普通のスマートフォンアプリと同じように画面タッチでボタンを押したり、スワイプしたりすればいいのです。僕が一番気に入っているインターフェースは、アプリに声で話しかけ、アプリが声で答えるというものです。 重要なことは、こうしたアプリを、OpenAIだけでなく開発者なら誰でも作成できるということです。OpenAIは、こうしたアプリの開発・流通を促進するためのマーケットを用意しています。 AI Assistant アプリ(これを、OpenAIはGPTsと呼んでいるようですが、ChatBotといういいかたもよく使われているようです)の登場は、一般のユーザーとAIとの距離をとても身近なものに劇的に変えるだけではありません。 それは、IT技術者・開発者とAIの距離を大きく変えるものです。 IT技術は・開発者は、これまで 、github copilot等を利用して、主要に開発支援ツールとしてAIを利用してきました。これからは、AIに支援された強力な独自のアプリを、自分の手で開発し、それを多数のユーザーが待つ市場に送り出すことができるのです。 このセミナーの前半では、人工知能技術の転換点を、翻訳モデル、大規模言語モデル、ChatGPTの三つに見てきたのですが、マルチモーダル化したAI Assistant アプリの登場が第四のマイルストーンになるのは確実だと、僕は考えています。 【 Assistant とは

Google Vision Transformer

【 画像処理でのGoogleとOpenAIのアプローチの違い 】 現在の人工知能技術の技術的な焦点の一つは、「Multimodalな人工知能」 の実現にあります。このセッションでは、大規模言語の上に Multimodalな人工知能を実現しようとする動きを紹介しようとおもいます。 マルチモーダルな人工知能とは、現在のテキスト中心の人間と人工知能のインターフェースを大きく変える「見ることも聞くことも話すこともできる」インターフェースを備えた人工知能のことです。 ただ、AIが「聞くこと話すこと」と比べて、AIが「見ること」を実現するのは技術的には様ざまな難しさがあります。ですから、マルチモーダルなAIを目指す技術の大きな関心は、AIが「見ること」の実現にむけられていると僕は考えています。 【 Vision Transformer とは何か? 】 大規模言語モデルがMulti-Modal なAI に展開して上で、大きな役割を果たしたシステムがあります。それが、2021年に Google が発表した Vision Transformer です。 自然言語処理の世界では、Transformerベースの大規模言語モデルが大きな成功を収めていたのですが、画像情報処理の世界では、近年に至るまで CNN ( Convolution Neural Network )が主流でした。 それに対して、GoogleのVision Transformer は、大規模な画像情報処理の世界でも、CNNを全く利用せずに、Transformer だけで最先端のCNNのシステムを上回る性能を発揮できることを示しました。 このことは、Transformerをエンジンとする一つのシステムで、自然言語処理と画像処理のタイプの異なる二つの処理が同時に可能になることを意味しています。 Vision Transformer が、Multi-ModalなAIへの突破口となったというのは、そういうことです。 【 Vision Transformer のアーキテクチャー 】 Vision Transformerが自然言語だけではなく、画像も処理できるのは、次のような手法を用いているからです。 「元の画像を小さな画像パッチに分割し、これらのパッチの線形なembeddingのシーケンスをTransformerへの入力として提供

AIの危険性の認識とModel Refusalという手法

【 Interlude -- AIと人間の関係を考える 】 これまで、ChatGPTの成功に至るまでの大規模言語モデルの成立とその発展を、主要には技術的な関心から振り返ってきました。それは過去の歴史の話です。 後半では「マルチモーダル化」と「カスタム化」という二つのトピックスにフォーカスして、ChatGPTがどのように変わっていくのかということを考えたいのですが、そこでも具体的には技術的な話が中心になります。それはAI技術の現在の話になるでしょう。 AIの未来を考えようとすると、それを単なる技術予測として語るのは適切なものではないと思います。AI技術が人間と社会の未来に大きな影響を与えるだろうと考えるならなおさらのことです。それは技術だけの問題ではないからです。 興味深いのは、技術の側から見ても「単なる技術」というくくりはAIの「技術的予測」にとっても狭いものかもしれないと思えることです。 もしも、ChatGPTの成功の要因のひとつが、「人間のフィードバックからの強化学習」という「技術」の採用にあるのなら、それは、現在のAI技術は人間の介在を必要としていると考えることもできるはずです。そして、それは正しい認識だと僕は考えています。 【 AIの安全性をめぐって -- OpenAI の隠れた優位性 】 AIの安全性をめぐる議論は、まさに、AIと人間の接点の問題です。 この問題は、AI技術が社会的に受け入れられ、AIビジネスが経済的に成功するためにも、今以上に重要な課題になっていくと思います。AI開発の競争の焦点は、言語モデルの規模の大きさから、AIシステムの安全性に移っていくと思います。 AIの安全性をめぐる議論は、AIの危険性をめぐる議論に他なりません。 AIを安全なものにするためには、その危険性を知らないといけないはずです。 OpenAIについて、我々はその技術的優位性に目が行きがちなのですが、これらのAIを安全なものにする取り組みで、OpenAIが、圧倒的に進んでいることは注目に値します。 【 OpenAIの安全性への取り組み 】 OpenAIは、訓練用データから性的コンテンツを人手で除去し、不適切な回答を人間がチェックする安全に関連するRLHFトレーニングプロンプトの見直しを進めています。 また、社外の多数の専門家とも連携して、危険性の徹底的な洗い出しを行なって

TransformerとBERT

 【 大規模言語モデルの基礎 】 このセッションでは、現在の大規模言語モデルの基礎となっている二つのアーキテクチャーを紹介します。 一つは、2017年にGoogleが発表したアーキテクチャー Transformerです。 もう一つは、2019年に Google が発表した「言語表現モデル」BERTです。 次回のセッションで紹介するChatGPTは、もちろんOpenAIのプロダクトですが、この時期のAI技術は、主要にGoogleによって推進されてきたことに留意ください。 【 TransformerとGoogleニューラル機械翻訳 】 Transformerは、GoogleのBERTやOpenAIのGPTといった現代の大規模言語モデルほとんど全ての基礎になっています。BERTの最後の文字 'T' も、GPTの'T'も"Transformer" アーキテクチャーを採用していることを表しています。 まず最初に確認したいのは、見かけはずいぶん違って見えますが、Transformer アーキテクチャーは、大きな成功を収めた2016年のGoogle ニューラル機械翻訳のアーキテクチャーから多くを学んでいるということです。 ポイントをあげれば、Encode-Decoder アーキテクチャーの採用、EncoderとDecoderの分離、両者をつなぐAttention Mechanismの採用、等々。 こうした、Google ニューラル機械翻訳のアーキテクチャーの特徴は、そのまま、Transformerのアーキテクチャーに引き継がれています。 それらの特徴の中で、Attentionこそが一番重要なのだというのが、Transformerの提案者の分析なのだと思います。 【 Attention Is All You Need 】 Transfomer を提案した 2017年のVaswani らの論文は、"Attention Is All You Need" と名付けられていました。 「現在優勢なシーケンス変換モデルは、エンコーダーとデコーダーを含む、複雑なリカレントまたはコンボリューション・ニューラルネットワークに基づいている。 また、最も優れた性能を持つモデルは、アテンション・メカニズムを通じてエンコーダーとデコー

AttentionメカニズムとGoogle機械翻訳

 【 大規模言語モデルの母胎は「翻訳モデル」】 このセッションでは、大規模言語モデルの成立期の話をしようと思います。 まず、大まかな流れを見ておきましょう。 この時期の到達点を示すのは、2016年の「Google ニューラル機械翻訳」の登場なのですが、それに至る経過で重要な画期がいくつかあります。 一つが2014年の Ilya Sutskever らによる、ニューラルネットワークによる翻訳モデルの提案です。もう一つが、2016年の Bengioのグループによる Ilya翻訳モデルの批判と「Attention メカニズム」の提案です。 【  Ilyaの翻訳モデルと 文の意味のベクトル表現の発見 】 2014年に、Ilya Sutskever らは、シーケンスをシーケンスに変換するRNN(LSTM)の能力が、機械翻訳に応用できるという論文 を発表します。 「我々の方法では、入力のシーケンスを固定次元のベクトルにマップするのに、多層のLong Short-Term Memory(LSTM)を利用する。その後、別の深いLSTMが、このベクトルから目的のシーケンスをデコードする。」 「Sequence to Sequence」は、当時、非常に注目されたコンセプトだったのですが、それは、単なる文字列から文字列への変換・生成とも解釈できます。その本当の意味は、皆に明らかだった訳ではなかったようにも思えます。 それでは、翻訳モデルで二つのSequence を結びつけているのはなんでしょう。それは二つのSequenceが「同じ意味」を持つということです。 前段の入力のSequenceから作られ、後段の出力のSequenceを構成するのに利用される「固定次元のベクトル」とは、二つの文が「同じ意味」を持つことを表現している文の意味のベクトル表現に他なりません。 発見されたこの文の意味ベクトルは、次のセッションでに見る Transformer / BERT が作り上げる大規模言語モデルの世界で、本質的に重要な役割を果たすことになります。 【 Bahdanau たちの批判とAttentionメカニズムの登場 】 Ilya Sutskever らの翻訳システムでは、翻訳さるべき文は、Encoderで、一旦、ある決まった大きさの次元(例えば8000次元)を持つベクトルに変換されます。このベクトル

大規模言語モデルの特徴とTai-Danaeの道具箱

【 Tai-Danaeはどんな概念装置を利用したか? 】  このセッションでは、大規模言語モデルの特徴を捉えるために、彼女がどのような概念装置を利用したかを見ていきたいと思います。 今回、紹介するのはその概略です。 【  DisCoCatモデルとの比較 】 彼女の大規模言語モデルの数学モデルの概要を理解するには、を、それをDisCoCatのモデルと比較するのがわかりやすいと思います。 DisCoCatのモデルというのは、SyntaxとSemanticsの対応を次のように捉えるものです。   𝐹𝑢𝑛𝑐𝑡𝑜𝑟 𝐹 : 𝑃𝑟𝑒𝐺𝑟𝑜𝑢𝑝 →  𝐹𝑉𝑒𝑐𝑡  ここで 𝑃𝑟𝑒𝐺𝑟𝑜𝑢𝑝は、LambekのPregroup文法のカテゴリーで、𝐹𝑉𝑒𝑐𝑡は、意味を表現する有限ベクトル空間のカテゴリー、𝐹𝑢𝑛𝑐𝑡𝑜𝑟 𝐹 は、カテゴリーからカテゴリーへの一般的なFunctorです。 【 大規模言語モデルの訓練用データは PreGroupではない 】 大規模言語モデルに与えられる訓練用データは、ただの平文で、文法構造が Pregroup文法で解析済みのものではありません。 ただ、これまでそうした平文の集まりは、「何の構造もない」と言ってきたのですが、文をフレーズに、フレーズを語に分解して、それらの全体を考えてみます。文・フレーズ・文を、文字の並びとして考えてみると、これらの文字列の間には、単純ですが、ある関係があることがわかります。 それは、文字列xが文字列yに含まれるという関係です。これを 𝑥 ≤ 𝑦 と表すことにします。 例えば、     ”blue” ≤ “small blue” ≤ “small blue marbles” という関係が成り立っています。 xがyの部分文字列であるという関係𝑥≤𝑦 をPreorderと言います。 𝑥 ≤ 𝑦 を𝑥→𝑦 で表すと、文字列の全体は、 𝑥→𝑦を射とするカテゴリーと考えることができます。 これを言語Lだと考えます。 言語は、Preorderを射とするカテゴリーということになります。 【 DisCoCatの意味を表現するFVectは? 】 意味を表現するFVectは、どう変わったのでしょう? 彼女のモデルでは、”語の意味は、それが引きつれ

大規模言語モデルの特徴と Tai-Danaeの問題意識

 【 なぜ、Tai-Danaeの議論に注目するのか 】 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? 今回のセミナーで取り上げる論文に一つ先行する論文の冒頭で、彼女はこう言っています。( "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4   )  「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 【 大規模言語モデルが行なっていること -- 彼女は何に強い印象を受けたのか? 】 ここでは、彼女が大規模言語モデルのどんな性能に印象を受けたのかをみておきましょう。 大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」  確かにそう言われています。ただ、それだけでしょうか? 彼女は続けます。 「直感的に言えば、物語を続ける能力は、非常に高度なことを意味している。   文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。  可能な継続の確率分布を効果的に学習する言語モデルは、明らかに意味的知識も学習しているはずだ。  物語の続きが合理的で内部的に一貫しているためには、世界に関する知識が必要である。内部的に一貫しているためには、犬とは吠える動物であり、ゴルフは日中屋外でプレーするものである、火曜日は月曜日の翌日である、などといった世界の知識が必要である。」 この驚きの感覚に、僕は共感します。 【 より驚くべき大規模言語モデルの能力 】 問題は、それだけではありません。  「驚くべきは、これらのLLMが、ラベルのないテキストサンプルを使って、

構成的分散意味論の展開 -- DisCoCat

 【 DisCoCat の登場 】 前回、「論理的形式」と「文脈的使用」という意味の定義の二者択一を超えるものとして、Coeckeらの「 DisCoCat = 構成的分散意味論 」が、生まれるという話をしました。 この野心的な試みを、理論的に支えたのはCategory論でした。DisCoCatは、"Distributional Compositional Categorial Semantics" の省略で、「カテゴリー論的構成的分散意味論」という意味です。確かに英語でも日本語でも長い名前ですね。 今回のセッションは、この「 DisCoCat = 構成的分散意味論 」を紹介しようと思います。 改めて、構成的分散意味論の問題意識を確認しましょう。   語から構成される「文の構成性=Syntax(=文法)」と、   語の意味から構成される「文の意味=Semantics」を、   対応づける。 では、どのようにしてこのSyntaxとSemanticsの対応ができるようになるのでしょう。 そこに登場するのがカテゴリー論です。 現代のカテゴリー論の始祖の一人といっていい L.W.ローヴェールは、次のような重要な定理を発見します。   二つのカテゴリーCとDの間に、Functor Fが存在する時、   Functor Fは、「理論」Cの「表現」Dを与える。   このCとDの関係は、「理論」とその「解釈」である   「モデル」の関係とみなすことができる。   別の言い方をすると、カテゴリー Cからカテゴリー Dへの   Functorは、「理論」Cの「意味」を与える。 こうした「意味」へのFunctorを用いた数学的アプローチは、「ファンクター意味論 = Functorial Semantics 」と呼ばれています。 Coeckeたちの構成的分散意味論の中心的アイデアは、自然言語の意味理解に、このカテゴリー論の Functorial Semantics を利用しようということです。これは卓見だったと思います。 言語の文法を数学的カテゴリーSyntax として捉え返し、言語の意味をベクトル空間に値を取る数学的カテゴリーSemantics として捉え返せば、カテゴリーSyntaxからカテゴリーSemanticsへのFunctor Fが、言語の意味を与えることになる

構成的分散意味論の展開 -- Quntum NLP

 【 Coecke のQNLP 】 構成的分散意味論は、現在、多様な展開を見せています。 このセッションでは、DisCoCatの創始者Bob Coeckeが、現在どのような研究を行っているのかを見てみようと思います。 彼は、DisCoCat の枠組みを、ことばの意味を量子状態として捉える方向で発展させ、QNLP 量子論的自然言語処理 Quantum Natural Language Processing の理論を展開しています。 「意味と構造を結合するために量子的なモデルが必要であるという事実は、QNLPが量子系のシミュレーションと同じように、量子ネイティブであることを立証している。さらに、量子ハードウェア上で古典データをエンコードするための、現在主流のノイズの下での中規模量子(NISQ)パラダイムのさまざまな量子回路は、NISQを特別にQNLPに適したものにしている。言語構造は、明らかに指数関数的に高い計算コストを必要とするな古典な文法のエンコーディングとは対照的に、ほとんどただでエンコードすることができる。」 基本的なアイデアは、複数の語の意味は、複数のqubit(量子ビット)の状態で表現されるというものです。 hat(帽子)のような名詞 の意味は、1-qubitの状態 状態 |𝜓_ℎ𝑎𝑡> ∈ ℂ^2で表現されることになります。 black hatというフレーズで、black という形容詞の果たしている役割は、hat という状態を入力として受け取り、それをblack hat という状態に変換し出力する写像として解釈できます。同時に、black という形容詞は、ある変形を適用すると、二つのqubitの状態としても解釈できます。 Alice hates Bob という文で、hates という動詞の果たしている役割は、AliceとBobの状態を入力として受け取り、それを Alice hates Bobという状態に変換し出力する写像として解釈できます。同時に、hates という動詞は、ある変形を適用すると、三つの量子状態からなる状態としても解釈できます。 実は、Coecke のQNLPで興味深いのは、上の説明で「ある変形を適用すると」の部分なのです。彼は、図形たちを "cup", "cap" という線で結んでいきます。これ

語の意味をどう捉えるか -- 分散意味論の系譜

【 分散意味論の系譜 】 このセッションでは、分散意味論の系譜を簡単に振り返ってみようと思います。 意味の分散表現論の起源の一つは、「ある語の意味は、ある言語におけるその使用である」というヴィトゲンシュタインの「意味=使用」説だと言われています。 チューリングは、この説が気に入らなかったようで、「「機械」や「考える」という言葉の使い方をいくら調べた所で「機械は考える事ができるか」という問の意味も答えも明らかになるわけではない。それとも、「ギャラップの世論調査の様な 統計的研究」が必要という事になるのだろうか。」と痛烈な皮肉を言っています。 言語学では、イギリスの言語学者ファースが「状況の文脈」という概念で、意味の文脈依存的な性質に注目します。次のような言葉が有名です。  “You shall know a word by the company it keeps” 「我々は、ある語を、それが引きつれている仲間たちによって知ることになる。」 Tai-Danae もこの言葉をよく引用します。 分散意味論は、フレームワークとして線形代数を使うようになります。基本的なアプローチは、分散情報を高次元ベクトルで表現し、意味の類似性をベクトルの類似性 cosine similarityで定義します。 こうした動きは、統計的言語モデルからニューラルネットワーク上での言語モデル構築へと進んでいきます。 Bengioの”A Neural Probabilistic Language Model”や、Deep Learningの世界では有名なMikalovのWord2Vecも、こうした流れの中で生まれたものです。 もう少し目を広げると、言語モデルには、文の意味は文中の単語の関係から導かれるというフレーゲの原理(構成性の原理)を中心とする数理論理学の考えに基づく、論理的なアプローチと、単語の意味はその文脈から決定することができるという確率論的アプローチの二つのタイプがあることがわかります。 問題は、「理論面では論理モデルが王者であったが、実践面では確率論的なライバルが最良の予測を提供してきた。」というところにありました。 そうした中で、「論理的形式」と「文脈的使用」という意味の定義特性の二者択一を超えるものとして、「意味の基礎構造とは何か」という問いを正面に掲げて、Coeckeら「構成的分

大規模言語モデルの数学的構造

 【 セミナー「大規模言語モデルの数学的構造」へのお誘い 】 次回のセミナー「大規模言語モデルの数学的構造」へのお誘いです。 このセッションでは、 まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。 【 大規模言語モデルの働きがよくわからない 】 第一の理由は、個人的なものですが、単純なものです。 それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。 意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。 ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。 【 大規模言語モデルの振る舞いには理由がある 】 今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。 AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。 今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。 【 「根拠」は数学的に表現される 】 今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。 それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。 そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。 【 カテゴリ

マーク・トウェインのChaGPT評

 【 マーク・トウェインのChaGPT評 】 Facebookで友人がこういうマーク・トウェインの警句を投稿しているの見つけました。https://www.facebook.com/kawaguchi.tatsuo/posts/7006017286115864 これ面白いですね。まるでChatGPTのことを言っているみたい。 出典を知りたくて、「万華鏡」に注目して "kaleidoscope Mark Twain"でググってみたら、原文はすぐに見つかりました。 “There is no such thing as a new idea. It is impossible. We simply take a lot of old ideas and put them into a sort of mental kaleidoscope. We give them a turn and they make new and curious combinations. We keep on turning and making new combinations indefinitely; but they are the same old pieces of colored glass that have been in use through all the ages.” Mark Twain's Own Autobiographyからの引用だというので、Wikiで"Autobiography of Mark Twain" 調べたら、External Linkに "THE AUTOBIOGRAPHY OF MARK TWAIN"を見つけました。全文、epubで公開されていました。https://standardebooks.org/ebooks/mark-twain/the-autobiography-of-mark-twain ところが、問題が。 いくら探しても、この文章が見つからないのです。 改めて、出典を確かめたら、"Mark Twain's Own Autobiography: The Chapters from the North American Review" と

セミナーのタイトルを変更しました

【 セミナーのタイトルを「大規模言語モデルの数学的構造」に変更しました 】 ごめんなさい。セミナーのタイトルを変更しました。この数日で3回目の変更です。 最初は確か「意味の分散表現論とエントロピー(予定)」でした。 ここ、今個人的には一番興味を持っているところなのですが、セミナーの2時間で分散表現論とエントロピーの二つを扱うのは難しいだろうと思い直しました。 正直いうと、自分の考えがまとまっていないのが大きいのかも。 シャノンの「情報量」を定義する基本的なモデルとなったコミュニケーションのモデルは、Encoder / Decoder として解釈できるし、Deep Learning のActivatorのひとつのSoftMax 関数は (多分、いまならHeadというのが妥当かも)、ギブスの分配関数と同じものだし、全ての確率分布はエントロピーと同じものです。ただ、いろいろよくわからないところがある。もう少し、考えます。 二つ目は、「大規模言語モデルと意味の分散表現の数学」でした。 ただ、これは長すぎると思いました。 それに、大規模言語モデルを扱うなら意味の分散表現を扱うのは必須ですが、意味の分散表現の数学は、なにも大規模言語モデルに限った話ではありません。ことばの意味の分散表現論でもCoeckeたちのDisCoCatは、量子論の影響のもと大規模言語モデルとは独立に発展してきたものだし、ベクトルではなく密度行列を使う分散表現論は、独自の射程と面白さを持っています。 それで、三つ目の「大規模言語モデルの数学的構造」に。 もともと、Ta-Danae Bradleyの現在のアプローチを紹介しようと思っていたので、それには、このタイトルの方がいいようにも思います。 ただ、名前を変えるごとに問題意識は、シュリンクしています。 C'est la vie !

11月セミナーの予告 -- 大規模言語モデルと意味の分散表現の数学

【 11月セミナーの予告 -- 「大規模言語モデルと意味の分散表現の数学」 】 大規模言語モデルの実践的な成功は、その理論的基礎に対する広い関心を呼び起こしています。 今回のセミナーでは、大規模言語モデルとそこで用いられている意味の分散表現論には、どのような数学的な基礎があるのかについての研究の動向を、Tai-Danae Bradleyのアプローチを中心に紹介したいと思います。 この点では、今回のセミナーは、4月に開催した マルゼミ 「ことばと意味の数学的構造」の続編です。 https://www.marulabo.net/docs/math-structure/   【 基本的な問題意識 】 どのような問題意識が、Tai-Danae Bradley たちの研究をドライブしているのかを、改めて確認しておきましょう。 「この研究は、今日の最先端の統計的言語モデルのパフォーマンスに強い印象を受けたことに端を発している。ただ、印象的なのはその性能だけではない。極めて重要なことだが、それは、非構造化テキストデータの相関関係から完全に構築されている。 後者の観察は、本論文の核心にある基本的な疑問を促す: 非構造化テキストデータにはどのような数学的構造が存在するのか?」  Ta-Danae Bradley, Yiannis Vlassopoulos.  Language Modeling with Reduced Densities   https://arxiv.org/abs/2007.03834 この論文については、先に挙げた4月のマルゼミ 「ことばと意味の数学的構造」のPart 4-2で、簡単に紹介しています。 ただ、不十分なものでした。 今回のセミナーでは、先の論文に続くTai-Danaeらの論文を紹介しようと思います。Abstractに次のような問題意識が示されています。   「最先端の言語モデルは、どのような入力テキストからも、連続した自然言語テキストの続きを返す。首尾一貫したテキストの拡張を生成するこの能力は、このモデルが文法や意味論の知識を含む、重要な高度化を達成していることを意味する。 本論文では、今日の大規模言語モデルによって学習される、 与えられたテキストの拡張に関する確率分布を、意味情報を含む豊かなカテゴリに渡すような数学的枠組みを提案する。

AIの基礎となるもの -- 人間の認識能力の構造

【 AIと人間の関係を考える 】 今回のセッションは、今回のセミナーの「パーソンルなAI」「Be My AI !」というコピーの背景にある 「AIと人間との関係」をどのように考えているかを、あらためてまとめたものです。 基本的には、人間の認識能力の構造が、AI利用の基礎になるという話なのですが、結論は、楽観的なものです。何度か述べたように、僕は、AIが我々人間の手助けをするようになるだろうと考えています。 スライドは、ほとんど画像なので、ここで説明するよりも、見ていただくのが一番早いと思います。 セミナーは、明日開催です。セミナー開始の直前まで、お申し込みを受け付けています。皆様の参加をお待ちしています。 申し込みは、こちらからお願いします。 https://personalai.peatix.com/ --------------------------------- ショートムービー「 AIの基礎となるもの -- 人間の認識能力の構造」を公開しました。 https://youtu.be/_-wXtNrvfqc ?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU ショートムービー 「 AIの基礎となるもの -- 人間の認識能力の構造 」のpdf資料 https://drive.google.com/file/d/1EIHEvVdOaf9-xT66N0zVCMluds5xZaW_/view?usp=sharing blog : 「 AIと人間の関係を考える  」 https://maruyama097.blogspot.com/2023/10/ai_01066799093.html セミナーに向けたショートムービーの再生リスト https://www.youtube.com/playlist?list=PLQIrJ0f9gMcONFj6CSbKdp_mdh_81VgDU マルレク「AIの利用とインターフェースを考える」のまとめページ https://www.marulabo.net/docs/personalai/

今週末(9/28)のマルレクの講演資料公開しました。

【 今週末(9/28)のマルレクの講演資料公開しました 】 マルレク「AIの利用とインターフェースを考える」は、今週土曜日 9/28 開催です。 セミナーの申し込みページは、 https://personalai.peatix.com/ です。 お申し込みお待ちしています。 講演の概要は、次のようになっています。 ⚫️ Part 1 : はじめに -- パーソナルなAIを展望する  ・マルチモーダルなAIの登場の中でAIの未来を考える  ・ボイスAIはAI利用拡大のゲームチェンジャー ⚫️ Part 2 : メディアのマルチモーダル化から学ぶ  ・世界を変えてきたメディアのマルチモーダル化  ・マルチモーダルなメディアとマルチモーダルなAI ⚫️ Part 3 : AIのマルチモーダル化の始まり  ・「眼を持ったGPT-4」にできること -- GPT-4V System Cardを読む  ・「眼を持ったAI」の課題 -- GPT-4Vの技術的達成と限界 ⚫️ Part 4 : AIの進化と人間の役割  ・「眼を持つ機械」 -- 人間の感覚能力の拡大  ・AIの力と人間の力 -- 人間の力の再評価   [ ・DALL-E 3でのCLIPの利用  ]  [ ・人間の未来についての楽観論と悲観論 ] 概要に興味を持たれた方は、次の講演資料をご利用ください。 https://drive.google.com/file/d/1DdPQbnVkp84NvroUuuvr7qYLEDEbwy-E/view?usp=sharing お詫びしなければいけないのですが、ここには、先日予告した、CLIPのnatural language supervision と DALL-E 3の関係を論じた「DALL-E 3でのCLIPの利用」のセクションとセミナー全体のまとめとしての「人間の未来についての楽観論と悲観論」のセクションは含まれていません。 これらは、今回のセミナーからは割愛し、後日、セミナーのAppendix として公開することを考えています。 セミナー全体のまとめページは、こちらになります。   https://www.marulabo.net/docs/personalai/ セミナーに向けたショートムービーの再生リストはこちらです。 https://www.youtube

「眼を持つ機械」 -- 人間の感覚能力の拡大

【 「VisualなAI」は、どう「進化」するのか? 】 今回のセッションでは、GPT-4Vのような、マルチモーダルなAIへの志向を持つAI技術が登場する中で、それがどのような発展の可能性を持つのかを考えてみようと思います。 【 「機械」の定義 あるいは、「機械」には何ができるのか?】 最初に、以下の議論で出てくる「機械」という言葉を、僕がどのように使っているかを説明したほうがいいと思います。 時計や自動車は、もちろん、機械です。ただ、メカニカルなものだけを機械と考えているわけではありません。照明器具、冷蔵庫といった電気製品、スマホやコンピュータ等の電子機器も「機械」とみなしています。 問題は、AI です。「人工知能とは機能であって実体ではない」と考えることも可能かもしれません。ただ、僕は、AIも「機械」だと考えています。それは、現代の人工知能研究が、チューリングの「機械は考えることは可能か?」という問いから始まったと考えているからです。こうした考えによれば、人工知能とは「考える機械」のことに他なりません。 「機械」の概念の中心には、「人間が作ったもの・人工物」というのはありそうです。でも、それ自身機械とみなせる大規模な自動化工場で、機械である自動車が生産されるのなら、「機械は、人間が作ったもの」という規定は適切なものではなくなります。 チューリングが「機械は考えることは可能か?」という問題を提起した頃、フォン・ノイマンは、「自分自身と同じ機械を生み出す機械は可能か?」という問題を提起して、それを肯定的に解いてみせました。ワトソン=クリックがDNAを発見する前の話です。フォン・ノイマンのアプローチは、以前に紹介したAgent-Base-Modelの遠祖になりました。 僕に、ある「機械」のイメージがあったとしても、「機械」に属するもの、あるいは「機械」の属さないものを数え上げて、そのリストを作るのは不可能です。現在の認識から作られた「定義」を明確にすることにこだわるのは、あまり生産的ではないかもしれません。 なぜなら、こうした「機械」や「考える機械」といった言葉の定義やその言葉の含意は、時代と共に変化するものだということです。ある場合には、全く正反対のものに変わることもあります。 例を挙げましょう。今から 50年前の1970年代初め、コンピュータの専門家の中に、人工知

AIの力と人間の力 -- 人間の力の再評価

【「人間の持つ諸能力の再評価」というフェーズ 】  今回のセミナーで、AIの利用とインターフェースについて考えようとしています。この問題では、AIと人間の関係はどういうものなのかという問題が基本的だと思います。 AI研究の一つの目標は、人間とは独立の「考える機械」、機械から構成された自律した「知能」を作り上げることです。 当たり前に思われるかもしれませんが、こうしたAIを作り出そうとしているのは、人間です。人間が人間を生物学的に生み出す(procreate)ように、AIがAIを生み出す(create)わけではありません。 未来のAIがどういう力を持つのかは未知数ですが、はっきりしていることは、それは、人間の力によって生まれるだろうということです。 問題は、AIが人間とは独立の自律的な「知能」をすでに獲得しているかのような意識が生まれはじめていることです。「人間によって生み出されたAIだが、人間を超える能力を持つ存在として、人間の前に登場している」と。 僕は、そうした現象は、人間の本来持つ力が、人間の元を離れ人間の外部のAIの力としてあらわれているものだと考えています。 ただ、今回のセッションで、僕が強調したいのは、そうした深い射程を持ちうる「疎外論」とは少し違ったものです。 それは、AI研究の現段階は、「AIの能力の卓越」としてではなく、むしろ「人間の持つ諸能力の再評価」のフェーズとして特徴づけられるのではという問題提起です。 そうした認識は、ブレイクスルーをもたらしたChatGPT成立の背景分析と現在のAI技術がいまだ不十分で不完全であるという観察に基づいています。 【 機械と人間の関係 】 さきに、「人間の力が、AIの力として現れている」と言いましたが、若干の補足を。 AIと人間の関係だけでなく、AIやコンピュータを含む機械と人間の関係を考えることは意味があると思います。そこでは、人間の力が機械の力として現れているわけではありません。しばしば機械の力は人間を上回ります。 自動車より早く走れなくとも、ブルトーザーに腕力ではかなわなくとも、我々は人間は機械より劣った存在だと考えることはありません。なぜなら、それは人間にとって意味のある人間にとって役に立つ「人間の能力の拡張」だからです。 それについては、視覚能力の拡大としての機械を中心に、前回の「眼をもったAiはどう