投稿

2024の投稿を表示しています

6月のマルレク「AIとグラフ」講演ビデオと講演資料を公開しました

【 6月の マルレク「AIとグラフ」講演ビデオと講演資料を公開しました。 】 MaruLaboでは、定期的に以前行ったセミナーのコンテンツを公開しています。 今回公開したのは、2024年6月29日に開催したマルレク「AIとグラフ」のコンテンツです。 6月の マルレク「AIとグラフ」は、次のような構成をしています。   ⚫️ Part 1 「画像とグラフの違いを考える」   ⚫️ Part 2 「グラフの認識の難しさ」   ⚫️ Part 3 「AIのAgent Model のグラフ表現 以下、それぞれのパートの概要を紹介し、あわせて、事後になりますが、それらについての自分のコメント( * に続く部分)を補足したいと思います。 【 Part 1 「画像とグラフの違いを考える」概要とコメント 】 このパートで扱っているのは、現在のマルチ・モーダルを指向するAI技術には、得意とする領域と不得意とする領域があるという問題です。 GPT4oのDall.E を用いたテキストからの画像生成能力は、素晴らしいものです。また、画像としてのグラフの認識は、時々、ハルシネーションを起こしますが、グラフのノードとエッジのラベルを理解し、グラフの隣接行列を構成できるほど高度です。 ただ、グラフの画像の出力に、Dall.Eは向いていません。出力されたグラフの画像は、彼が理解しているグラフの特徴を反映していないし、あるいは、反映させることができないように見えます。 *「画像」という同じ言葉で括られていても、我々が直接的に「見る世界」に存在する視覚に与えられる情報に基本的には還元される一般的な画像(写真や絵画のような)と、グラフの画像のように視覚情報を通じて与えられるにせよその背後にある数学的に規定されている特徴の抽出を必要とする数学的イメージとは、認識の対象として存在のありかたが異なります。Diffusion model にはそうした区別はありません。数学的対象は、視覚によって捉えられるわけではありません。 * 画像生成技術の「成功」は、基本的には、Diffusion modelの成功によってもたらされたものです。ただ、実際のAIによる画像生成は、生成AIが得意とする言語情報を利用する能力(それは数学的な対象を認識する能力とは異なるものです)によって強く「補完」され、さらに、その生成は生成AIが

Church-Turing Thesisの変化と量子情報理論

【 Church-Turing Thesisの変化と量子情報理論 】 このセッションが、今回のセミナーに向けた最後のセッションになります。 このセッションでは、「計算可能性理論」から「計算複雑性理論」への発展を、 Church-Turing Thesisの変化・発展として振り返り、あわせてそれが現時点でどのように変化を続けているのかを見ていきたいと思います。 以下は、その大雑把な流れです。 【 1920年代 -- ヒルベルト・プログラム 】 ヒルベルトは、全ての数学的命題の真または偽を決定する方法が 存在すること、数学の形式化が矛盾を含まないことが証明しようと しました。 【 1930年代 -- ゲーデルの不完全性定理 】 ゲーデルは、真または偽を決定する方法が存在しない命題が 存在すること、また、数学の形式化が矛盾を含まないことの証明 が不可能であることを示しました。それはヒルベルトのプログラムが、 遂行できないことを意味しました。 【 1950年代 -- チャーチ=チューリングのテーゼ 】 「証明可能=計算可能」なものには限界があることは、1950年代 には、チャーチ=チューリングのテーゼとして定式化され、一般に 広く認められるようになりました。ただ、それは、我々の認識の「限界」と しては、非常に荒い、かつ、抽象的で原理的な限界を与えるもので しかありませんでした。 【 1970年代 -- 計算複雑性理論の登場 】 クック、レビン、カープらは、計算可能だが実際には手に負えない 計算である領域を精緻に分類しようとし、計算複雑性理論が生ま れます。 「難しい計算」が「易しい計算」には還元できないことを主張する 「P = NP ? 問題」は、現在も未解決です。 【 1980年代 --  チャーチ=チューリング=ドイッチェのテーゼ 】 ドイッチェは、ファインマンの自然をシミュレートする量子コンピュータというアイデアに刺激を受けて、計算は、物理的な過程として実現されると主張して、チャーチ=チューリングのテーゼを拡大しました。ただ、80年代は、まだ、量子コンピュータは物理学者の頭の中の概念としてしか存在していませんでした。 【 1990年代 -- 量子複雑性理論とショアのアルゴリズム 】 ベルンシュタインとバジラーニによって、量子複雑性の理論が登場し、BQPという新しい複雑

量子チューリングマシンとBQPクラス

【 量子チューリングマシンとBQPクラス 】 1993年に、Bernstein と Vazirani は、これまでのTuringマシンの拡大である「量子Turingマシン」を新しく定義して、その上で複雑性理論を展開しました。 ここから始まったこの複雑性理論の新しい分野を「量子複雑性理論」と呼びます。量子複雑性理論は、現在の複雑性理論の中心分野です。 量子複雑性理論で最も基本的なクラスは、BQPです。それは、従来の複雑性理論での多項式時間で決定可能な複雑性のクラス P に相当するものです。 ただし、量子Turingマシンの特性として、その出力は古典的なTuringマシンのように常に確定した値を返すのではなく確率分布として与えられます。 BQPは、“Bounded error, Quantum, Polynomial time” の略です。 この Bounded error は、このマシンの出力の「誤り」が一定の確率(一般には 1/3 を使う)以下であることを表しています。 その点では、BQPは古典的な複雑性理論でのBPP (bounded-error probabilistic polynomial time)によく似ています。 【 量子コンピュータの理論的可能性を めぐって先行した議論 】 「量子コンピュータ」は、今から約40年前(1982年)のFeynmanの洞察を発端とします。彼の論文に刺激を受けて DeutschがChurch=Turing Thesis を拡大することを提案します(1985年)。その後、 Vaziraniが量子チューリングマシンを構成し、量子複雑性の基本的クラスBQPを提案します。(1993年) この間の理論展開は、目覚ましいものです。 こうした流れの頂点は、1994年のShorの、量子コンピュータによる素因数分解のアルゴリズムを発見です。 「量子コンピュータ」が広く注目され研究者が爆発的に増大します。 このセッションでは、これらの議論の概略を紹介したいと思います。スライドを参照ください。 【 Church = Turing テーゼの拡大 】 この間の議論で注目すべきことは、「計算可能性理論」のエッセンスとしての「Church = T uring テーゼ」の拡大の動きです。 古典的なChurch = Turing テーゼは、次のようなものでし

確率的チューリングマシンとBPPクラス

【 確率的チューリングマシンとBPPクラス 】 #コンピュータと数学2 今回のセッションでは、「確率的チューリングマシン」と呼ばれるチューリングマシンの拡大の話をします。 「確率的チューリングマシン」の構成の仕方は、前回見た「非決定性チューリングマシン」の構成とよく似ています。 「確率的チューリングマシン」の振る舞いを説明する前に、「非決定性チューリングマシン」の振る舞いについて、少し補足しておこうと思います。 【 前回のセッションの補足 】 前回のセッションで、「非決定性チューリングマシン」の振る舞いを説明したblog記事で、「チューリングマシンの拡大では、新しい計算を定義することに意味がある」というような少し極端な議論を述べました。また、それに対して、一つの入力に対して実行のたびに異なる結果を返すような「計算」に意味はないという当然の意見も紹介しました。 ここで補足したいのは、「非決定性チューリングマシン」は、見かけほど無茶苦茶な計算を定義しているわけではないと言うことです。 次のことに注目してください。 一つには、「非決定性チューリングマシン」は、複数(それは膨大な数になるかもしれないのですが有限です)の並行に動作する「決定性チューリングマシン」でシミレート可能だということです。前回のセッションで見たように、「非決定性チューリングマシン」を、そのツリー構造の中で「決定性チューリングマシン」を表すパスを指定するテープを追加すれば、「決定性チューリングマシン」でシミュレートすることが可能です。   それが非決定論的に振る舞うように見えるのは、それが概念的には、無数の(有限個です)決定論的に振る舞うチューリングマシンの可能な全体を表現しているのに、我々が 見るのは、そのうちの一つのチューリングマシンの出力だけだからです。 【 非決定性チューリングマシンがある入力を accept あるいは reject する条件 】 注目すべきもう一つのことは、先のことと関係しているのですが、「非決定性チューリングマシン」がある入力を「受理 (accept)」または「拒否 (reject)」する条件です。 大雑把に言えば、チューリングマシンがある入力を「accept」すると言うのは、その入力が表す命題が正しいと認めることで、「reject」すると言うのは、その入力が表す命題を正しく

非決定性チューリングマシンと NPクラス

【 非決定性チューリングマシンと NPクラス 】 このセッションから新しいPart 「チューリングマシンの拡大と複雑性クラス」が始まります。 「計算可能性理論」のエッセンスは、「計算可能な計算はすべて、ある帰納的チューリングマシンによって実行されるものである」という「チャーチ=チューリングのテーゼ」です。 このテーゼによれば、「計算可能な計算」という数学的な性質は、「あるチューリングマシンによって実行されるもの」として、ある機械(チューリングマシン)の振る舞いと対応づけられることで定義されています。 興味深いことは、「計算可能な計算」という数学的な性質と機械の振る舞いを結びつけるこの「テーゼ」自身は、数学的な命題では無いことです。それは、人間の数学的認識の特徴について語っているのですが、数学的に証明されるような性質のものではありません。 「チャーチ=チューリングのテーゼ」自体を拡大することも可能です。実は、「量子コンピュータ」の登場は、そうした「テーゼ」の見直しと深い関係があります。それについては、このあとのセッションで見ていきたいと思います。 【 チューリングマシンの振る舞いを変える 】 このセッションでは、「テーゼ」の枠組みを大きく変えるのではなく、チューリングマシンの概念を拡大してその振る舞いを変えることを考えてみましょう。新しい数学的性質を定義するのが目的です。   「ある数学的性質 Lの計算とは、ある拡大された   チューリングマシンMで実行されるものである」 こんな感じなのですが、一つ問題があります。それは、「チューリングマシンの拡大」は、口で言うほど簡単ではないからです。 そもそもチューリングマシンは数学的には万能で、「帰納的チューリングマシン」ならは、計算結果が返る計算可能なものは、すでにすべてカバーしています。(「帰納的」という条件を外した、一般のチューリングマシンには、「停止」する保証はありません。) このセッションで行う、チューリングマシンの拡大は次のようなものです。 「普通のチューリングマシンは、一つの入力に対して一つの出力を返す」 「それがどうした」 「我々は、チューリングマシンを、一つの入力に対して複数の出力を返すように拡大する」 「そんなのチューリングマシンと言わない」 「だから、「拡大」だと言っているだろ」 「どうすんの?」 「普通の

AIとの対話の「心得」としての Interactive Proof

【 AIとの対話の「心得」としての Interactive Proof 】 グラフの認識がむづかしいことを示す例として、グラフの非同型問題を取り上げたのですが、AIと私たちの関係を考える上で、Interactive Proofの考え方を知っているのは意味があるように感じています。 「AIはなんでも知っている」と考える人もいれば、「AIは嘘ばかりつく」と考える人もいます。「AIが進化すれば、人間を超えて全知全能に近づく」と信じている人もいます。 現代のAI技術の到達点では、AIがInteractive Proofの全能な証明者の役割を果たすにはまだまだ遠いのはいうまでもないことですが、AIをProverの位置においてInteractive Proofの劣化版(Proverの能力が格段に劣ると言う意味です)のアナロジーを考えると、いろいろ面白いことに気づきます。 Interactive Proofの枠組みで重要なのは、「証明者」の与える「証明」は「検証者」による検証を経なければ「証明」としては受け入れられないということです。劣化版のアナロジーで言えば、AIの言うことは、「検証者」によって検証されなければ、正しいとはみなされないと言うことです。検証者は、もちろん、我々です。 AIでのfew shot プロンプトは、正しい答えに辿り着くための手法ですが、検証者が繰り返しAIに問いを投げかけることを通じて、AIが知らないことをあぶり出すことも可能です。 この劣化版のアナロジーが秀逸なのは、AIが嘘をつくことを織り込み済みだと言うことです。本家のInteractive Proofで、Proverが嘘をつくのは、グラフの非同型問題について言えば、Proverがプロトコル上必ず答えを返すことを義務付けられているからです。このことも、ハルシネーションが生まれるメカニズムの一端を説明するのかもしれません。 時間があったら、現代のAIと対話する上の「心得」として、Interactive Proofの知識が役に立つと言う話をしたいと思います。

24/02/29 マルレク「言語の意味の数学的構造」公開情報

   【 2月に開催したマルレク「言語の意味の数学的構造」の講演ビデオと講演資料を公開しました 】#言語の意味の数学的構造  2月に開催したマルレク「言語の意味の数学的構造」の講演ビデオと講演資料を公開しました このセミナーで扱っているのは、Tai-Danae Bradley らが、アメリカ数学会のジャーナルNotice誌の2024年2月号に投稿した次の論文です。    “The structure of meaning in language:   parallel narratives in linear algebra and category theory”   https://www.ams.org/journals/notices/202402/rnoti-p174.pdf この間、マルレクでは 数学者Tai-Danae Bradley の大規模言語モデルの数学的構造に対する研究を紹介してきました。  ⚫️大規模言語モデルの数学的構造 I  https://www.marulabo.net/docs/llm-math/   #大規模言語モデルの数学的構造1  ⚫️大規模言語モデルの数学的構造 II  https://www.marulabo.net/docs/llm-math2/   #大規模言語モデルの数学的構造2 それは、大規模言語モデルの性能に強い印象を受けたTai-Danaeが、大規模言語モデルの意味把握の新しいカテゴリー論的数学モデルを提案した、とても興味深いものでした。 今回紹介する Tai-Danae Bradley の論文で、彼女はもっと大胆な主張を展開しています。 それは、大規模言語モデルを構築しているAI研究者の言語理論を「ニューラル言語モデル」論として、正面から批判しているものです。 【 「ニューラル言語モデル」批判の要点 】 「意味と形式は切り離せないという考え方は新しいものではないが、現在のAIをめぐる哲学的な議論には浸透していない。」 「構文対象の分析において意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということである。」 「しかし、現在のニューラル言語モデルが不十分なのは、まさにこの点である。というのも、ニューラル言語モデルは、そのタスクを実行する際に必然的に働く構造的特徴を明らかにしてい

1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました

   【 1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました 】 #大規模言語モデルの数学的構造2 1月27日に開催した、マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました。ご利用ください。 このセミナーは、12月30日に開催した、マルレク「大規模言語モデルの数学的構造 I 」 https://www.marulabo.net/docs/llm-math/  の後編です。この前編・後編二つのセミナーで主要に紹介するのは、大規模言語モデルの不思議な振る舞いを数学的に説明することを目指した、Tai-Danae Bradleyたちの次の論文です。   "An enriched category theory of language: from syntax to semantics"    https://arxiv.org/abs/2106.07890 前編については、今回の「Part 1 第一部のふりかえり」で概要をまとめてあります。 今回公開した後編は、前編で紹介した copresheaf 意味論というカテゴリー論的アプローチを、単位区間 [0,1] をmenrich化して拡大し、言語表現の「継続」に確率を導入し、大規模言語モデルの数学的モデルとして提案するという、前掲の論文の中心部分です。 このセミナーで利用されているカテゴリー論の基礎については、Tai−Danae Bradley らがMIT Pressから出版した"Topology A Categorical Approach" の"0 Preliminaries"  のパートが、とてもいいまとめになっています。オンライン版は、無料で読めます。一読をお勧めします。 https://topology.mitpress.mit.edu/ 以下、今回公開した後編のパートごとに、内容を紹介します。 【 「Part 1 第一部のふりかえり」の概要 】 言語を構成する意味を持つ文字列である、語・フレーズ・文・文の連続 ... を「表現」とします。任意の表現 𝑆, 𝑇 について、表現Sの文字列が表現Tの部分文字列であるとき、𝑆 ≤ 𝑇と順序を定義します。この順序は、反射律と推移律を満

数学的展望

【 AI技術の数学的基礎の革新を目指して 】 ------------------------------ 2/29マルレク「言語の意味の数学テク構造」申し込みページ作成しました。次のページから、受け付けています。 https://meaning-structure.peatix.com/ お申し込み、お待ちしています。 ------------------------------ 【 この論文が明らかにしたこと 】 今回のセッションでは、論文の最後のセクション、"Conclusion: Looking Forward" を紹介します。 前回までのいくつかのセッションは、彼女の言語思想にフォーカスしたもので、数学はあまり表面にでてきませんでしたが、今回は、数学が戻ってきます。 まず、この論文の結論として、概略、次のように語ります。  ⚫️ 純粋にsyntacticalな入力から言語の構造的特徴を抽出できる。  ⚫️ 実際のデータから実数の行列を作り、線形代数的な方法(SVD)で語の埋め込みを理解できる。  ⚫️ 上で得た実行列にカットオフを適用して{0,1}値の行列を作成して、Formal Concept Analysis の手法を利用できる。  ⚫️ これらの手法のそれぞれはいずれも既知のものであるが、両者の間にパラレルな関係があることを示した。 すこし謙遜していますが立派なものだと思います。 ちなみに、embedding とSVDの関係を始めて明らかにしたのは、2014年の次の論文だと思います。 Omer Levy and Yoav Goldberg, Neural word embedding as implicit matrix factorization  https://cseweb.ucsd.edu/~dasgupta/254-deep-ul/ronald.pdf 【 課題と展望 】 こうした到達点を踏まえて、今後の数学的展望を示したのが、このセクションです。 「重要なのは、enriched カテゴリー論の枠組みが、統語論から意味論がどのように生まれるかについての理解を深めることである。」その上で、 「意味論の構造を研究するために、線形代数にヒントを得た新しいツールを提供できる可能性がある。」と語ります。 前者の指摘については、前回

語の構造の抽出

【 これは、本当に意味だろうか? 】 前回のセッションでは、文字の並びのデータから、その背後にある構造を引き出すことができるという話をしました。ただ、文字の集積としてのコーパスから、文字のクラスターを抽出できることは、そんなに驚くべきことではないかもしれません。 それに、見出された子音、母音、および数字等というクラスターそれ自体に、意味があるわけではありません。もっとも、syntacticなものとsemanticなものという対比では、syntacticalなものは、もともと意味を持たないものと想定されています。 Tai−Danaeが、論文で「形式から内容へ」と言うとき、「形式」というのはもともと経験的に与えられる文字列データのことを指していて、「内容」とは、そこから生まれる意味のことをイメージしています。 基本的な問題は、それ自体は意味を持たないように思えるものから、意味の世界が生まれることです。別の言葉で言えば、それ自体は意味を持たない単なる記号の列から、どのように意味が生まれるのかという問題です。 今回は、単なる記号としての文字の並びではなく、語の並びを考えます。重要なことは、文字について言えることは、より高いレベルの言語単位 −− 今回の場合は、語なのですが  −− についても言えるということを、彼女は主張しています。 具体的には、次のようなことをしています。 British National Corpus から、1,000語の最頻単語として選びます。前回と同じように、このコーパスに含まれる単語𝑥の左に現れる語を𝑦_𝑙、右に現れる語を 𝑦_𝑟 として、その語の出現の経験的確率を使って、𝑋𝑌行列𝑀を作り、前回と同じ計算を繰り返します。 驚くべきことに、文字列データの解析が子音・母音・数字のクラスターの存在を発見したように、語列データの解析は、名詞・動詞・形容詞・副詞といったクラスターを発見します。 彼女は言います。 「10個の最大の特異値に対応する 𝑀の特異ベクトルは、名詞、動詞(過去と現在)、形容詞、副詞、場所、量詞、数字、国など、単語のあらゆる構文的・意味的特徴を捉えている。」 これは、意味なのでしょうか? 【 embedding は、空間の一点を表す 】 話は飛ぶのですが、現代のニューラル言語理論では、意味はembedding として多次

Tai-Danaeの言語思想 -- ニューラル言語モデル批判

【 2月は短いです -- 路線転換 】 2月は短いので、あまり多くのセッションを開くことができません。予告では、今回のセッションは、Lawvere についてウンチクを垂れようと思っていたのですが、考えが変わりました。 あと、この論文に対して、僕は、あまり高い評価をしていませんでした。それも、考えを変えました。老人が、若い人のいうことに、いろいろ茶々を入れてもしょうがないと思います。 今回は、あまり細かな数学的な議論に入らないで、彼女が伝えたいと考えていることをストレートに分かりやすく伝えたいと思います。それは、今回のセミナーの意味を明確にすることにつながると思います。 【 Tai-Danaeの言語思想 -- ニューラル言語モデル批判 】 このセッションでは、この論文の後半に集中して記述されている彼女の言語思想を、先に紹介しようと思います。それは、言語思想の大きな流れの中で、現在のニューラル言語モデルの批判を、意図したものです。 彼女の数学モデルは難しいところがあるのですが、今回まとめた彼女の言語についての考え方は、言語学に興味のある人には、とても分かりやすいものだと思います。 以下、主要に、彼女の論文からの引用です。 【 ニューラル言語モデルの成功 】 「ニューラル技術が言語に対するより原理的なアプローチよりも優れている点があるとすれば、それは経験的な言語データに対して驚くほど高い性能を発揮できることである。 今後、どのような形式言語モデルがくるにせよ、現実世界におけるその品質と妥当性を判断することが、決定的な意味を持つことは間違いない。」 彼女は、ニューラル言語モデルが、その性能において大きな成功を収めていることを認めています。 【 しかし、より広範で哲学的な疑問は残る 】 「考えてみれば、文字列としてのコーパスはsyntacticsそのものであるから、言語のsyntacticalな特徴をテキスト・コーパスから抽出できることは驚くべきことではないかもしれない。しかし、より広範で哲学的な疑問は残る。もしそうだとしたら、意味の重要な側面が純粋な形式から生まれるということはあり得るのだろうか?最近のLLMの進歩に伴い、この問題はますます重要になってきている。」 【 意味と形式は分離できない 】 「意味と形式は切り離せないという考え方は新しいものではないが、現在のAIをめ

現実の経験的データからの構造の抽出の試み

【 Tai-Danaiのニューラル言語学批判 】 前回のセッションでは、少し説明の順序を変えました。それはこの論文を通じて彼女が何を主張したかったのかを、あらかじめ明確にしておくほうが、論文の展開を追いやすいと考えたからです。 彼女は、この論文を通じて、現代の主流である「ニューラル言語学」に対して、言語理論と言語へのアプローチの数学的方法の両面で批判を試みています。 今回のセミナーの大事なポイントですので、改めて、彼女の主張を見ておきましょう。 【 言語の形式と意味をめぐって 】 彼女の主張は、次のように始まります。 「意味と形式は切り離せないという考え方は新しいものではないが、現在のAIをめぐる哲学的な議論には浸透していない。」 「厳密な哲学的見地から言えば、カントとヘーゲルの影響力のある著作は、形式と内容は排他的なものではないという原則に立っており、この考え方は、分析哲学の父であるフレーゲの思想の中核にも見出すことができる。」 「さらに重要なことに、形式と意味は独立していないという視点は、フェルディナン・ド・ソシュールの研究と、近代言語学の出現の動機となった構造主義革命によって、言語学の中心となった。」 彼女は、近代言語学の始まりとなった、ソシュールらの「構造主義言語学」の再評価を求めています。 なぜ、構造主義なのか? 彼女の次の指摘は、重要だと思います。 「そして、このような伝統が、特にその構造主義的バージョンにおいて私たちに語っているのは、構文対象の分析において意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということである。」 意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということであるという視点が、言語へのアプローチでは重要だといいます。 「しかし、現在のニューラル言語モデルが不十分なのは、まさにこの点である。 というのも、ニューラル言語モデルは、そのタスクを実行する際に必然的に働く構造的特徴を明らかにしていないからである。」 【 今回のセッションで彼女が明らかにしたこと 】 こうした視点から、今回のセッションで彼女が数学的な手法を通じて、あきらかにしようとしたことを見ていきましょう。 それは単純に見える文字列の並びにも、構造が隠れていることを、その構造を抽出する方法とともに示してみせた

Formal concept

【 展開は難しいのか易しいのか? 】 これまでの展開を振り返ってみましょう。 まず、語の意味の埋め込みは行列の分解として解釈できるという話をして、ついで、行列のカテゴリー論的拡大として profunctor を紹介してきました。 前回は、profunctor のnuclei を導入して、そのペアの構造を探るという方向を示して(それはSVD分割での singular ベクトルのペアの構成とパラレルなものでした)、次のように語ります。 「意味的類似性のような言語の特定の意味的側面については、ベクトル空間の構造が適しているが、ベクトル空間の構造を重ね合わせることで、他の意味を覆い隠してしまう可能性がある。」 「 Isbell adjunctionは、言語の他の構造的特徴を明らかにするのに役立つかもしれない、別の構造を提供する。」 【 Formal Concept Analysis のカテゴリー論的解釈は易しい 】 どんな展開が待ち構えているのか、ワクワクドキドキですが、彼女がまず議論の導入の舞台として選んだのは、"Formal Concept Analysis" でした。 確かに、提供されたカテゴリー論的解釈は、二つのオブジェクトからなるカテゴリー 2 = {0,1}でenrich化したものですが、このenrich化は以前に見た 単位区間 [0,1]上でのenrich化より、はるかに簡単なものです。それはオブジェクトXの部分集合を定義するという簡単な役割を持っているだけです。 そうして、XとYとの部分集合間の関数 R^* とR_* が定義されていくのですが、こうした構成は、enrichedカテゴリーを持ち出さなくても、十分、可能です。 行列のSVDでの singular ベクトルのペア、profunctor でのnucleiのペアの構成とパラレルに、ある条件を満たすペアとして Formal concept の数学的定義が与えられるのですが、こうした構成は、singularベクトルやnuclei に触れることなく、まったく初等的に定義できます。 【 Formal Concept Analysisは、意味の「Entity Model」の数学理論 】 Formal Concept Analysis は、数学者の関心を集めているようには見えません。ただ、com

Isbell adjunction

【 数学の宝石 】 このセクションのタイトルが「意味の空間から意味の構造へ 」になっていることに、少し違和感を感じたかたがいらっしゃるかもしれません。 「意味の空間は、embeddingされた語の意味のベクトル空間じゃないの?」 「それ以外に、意味の構造があるの?」 そうなんです。そこがこのセクションの問題提起なのです。答えを先に述べれば、「意味の空間」以外に「意味の構造」があるというのが、彼女の今の考え方なのです。 「今のところ、行列の特異ベクトルから得られる単語の埋め込みは、意味にベクトル空間の構造を重ねる方法として解釈する。」 「意味的類似性のような言語の特定の意味的側面については、ベクトル空間の構造が適しているが、ベクトル空間の構造を重ね合わせることで、他の意味を覆い隠してしまう可能性がある。」 せっかく分析した意味のベクトル空間だったのですが、それは、他の意味の構造を「覆い隠してしまう可能性がある」というのです。 それでは、どうすればいいのでしょうか? 彼女の提案は、意味の奥に隠れている構造を明らかにするために、今回のセッションのテーマである"Isbell adjunction"を使おうというものです。 「Isbell adjunctionは、言語の他の構造的特徴を明らかにするのに役立つかもしれない別の構造を提供する。」  具体的な展開は、この後のセクションに持ち越されます。 Isbell adjunction には、いろいろな名前を持っています。今回のセッションでも参考に紹介した John Baez は Isbell duality と呼んでいます。その他にも、Isbell adjoints, Isabell conjugate まだ他にもあるかと思います。 補足の資料で、Baezの説明を翻訳しました。素晴らしく明快なので、是非、お読みください。前回、前々回の「大規模言語モデルの数学的構造」で紹介した copresheaf, Yoneda embedding の復習に最適だと思います。 Isbell duality は、copresheaf とpresheaf が双対の概念であることを述べたものです。 資料の最後のページURL書くの忘れたのです https://ncatlab.org/nlab/show/Isbell+duality

profunctor

【 profuncor は行列とよく似ている 】 このセッションでは、線形代数の行列に相当するものが、カテゴリー論ではどのようなものになるかを考えます。  2つのカテゴリー𝖢と𝖣が与えられたとき、カテゴリー論での行列の類似物はprofunctorと呼ばれるもので、集合のカテゴリーSet に値を取るfunctor $f : C^{op} \times D \to Set$ になります。 前にも述べたように、肩について「op」はfunctorのvarianceを示すために使われています。正確を期すためには必要なのですが、最初に見るときには無視しても構いません。ここで説明する線形代数とのアナロジーでは、行と列の間の一種の転置を示すものと考えることができます。 もう少し、詳しく見ていきましょう。 もしprofunctor $f : C^{op} \times D \to Set$ の定義域の二つのカテゴリー $C^{op} とD$が離散カテゴリーで有限集合であるならば、profunctorは単に二つの要素のペアでindexされた集合の集まりです。それは数字の代わりに集合をエントリーとする行列です。 簡単なcurrying で、C, D上のオブジェクト c, d に対する 定義、$c \mapsto  f(c, ,-), d \mapsto  f(-,d)$ で、profunctor fは、ペアのfunctor $f(c,−) : C \to (Set^D)^{op}と f(−,d) : D \to Set^{C^{op}}$を定義することがわかります。 ( "op" をないものとしてみれば、このfunctor のペアは、 $f(c,−) : C \to Set^D$ と  $f(−,d) : D \to  Set^C$ のペアになります。確かにこう考えるとわかりやすいです。) functor $f(c,− )$ は行列fのc行目の集合として描くことができます。 このfunctorは functor $D \to Set$を定義し、このfunctorでDのj番目のオブジェクトは、行 $f(c,− )$ のj番目のオブジェクトの集合にマップされます。 同様に、functor $f(− ,d)$は行列fのd列目の集合を表します。 カテゴリーが、Yoneda

12月のマルレク「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました

イメージ
 【12月のセミナー「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました 】 #大規模言語モデルの数学的構造1 昨年末に開催したマルレク「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました。ご利用ください。 「生成AI」技術が、ITの世界だけでなく社会のいろいろな領域に、大きな影響を与えようとしているのは、みなさんご承知の通りです。 「大規模言語モデル」というのは、この「生成AI」技術を生み出している巨大なインフラ(例えば、OpenAIのChatGPTを支えるシステム)とその理論的モデルの両方を指す言葉です。  「生成AI」に対する関心の高まりとともに、その基礎を支える「大規模言語モデル」に対する理論的関心もまた高まっています。活発な議論と研究が行われています。 なぜなら、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ不思議な謎があるからです。 【 大規模言語モデルの不思議な振る舞いには理由がある 】 ただ、今回のセミナーを開催した理由は、生成AIのの不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。 僕は、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると考えています。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。 そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。 今回紹介するのは、そうした議論の中で、注目されているTai−Danae Bradleyの議論です。 内容的には、コンピュータ上で言葉の意味をどう表現するのかという問題を扱っています。この点では、「言葉の意味は、その言葉を含むすべてのコンテキストで決まっていく」という考えがベースになっています。そのことを了解できれば、理解は進むと思います。 【 「巨人の肩に乗る」 】 カテゴリー論をベースとした数学的な議論がメインで、日頃あまり見慣れない用語や概念が出てくるので、最初はわかりにくいところが多いかもしれません。 ここでの議論のベースになっている