1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました

   【 1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました 】

#大規模言語モデルの数学的構造2

1月27日に開催した、マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました。ご利用ください。

このセミナーは、12月30日に開催した、マルレク「大規模言語モデルの数学的構造 I 」https://www.marulabo.net/docs/llm-math/ の後編です。この前編・後編二つのセミナーで主要に紹介するのは、大規模言語モデルの不思議な振る舞いを数学的に説明することを目指した、Tai-Danae Bradleyたちの次の論文です。

  "An enriched category theory of language: from syntax to semantics"
  https://arxiv.org/abs/2106.07890

前編については、今回の「Part 1 第一部のふりかえり」で概要をまとめてあります。

今回公開した後編は、前編で紹介した copresheaf 意味論というカテゴリー論的アプローチを、単位区間 [0,1] をmenrich化して拡大し、言語表現の「継続」に確率を導入し、大規模言語モデルの数学的モデルとして提案するという、前掲の論文の中心部分です。

このセミナーで利用されているカテゴリー論の基礎については、Tai−Danae Bradley らがMIT Pressから出版した"Topology A Categorical Approach" の"0 Preliminaries"  のパートが、とてもいいまとめになっています。オンライン版は、無料で読めます。一読をお勧めします。https://topology.mitpress.mit.edu/

以下、今回公開した後編のパートごとに、内容を紹介します。


【 「Part 1 第一部のふりかえり」の概要 】

言語を構成する意味を持つ文字列である、語・フレーズ・文・文の連続 ... を「表現」とします。任意の表現 𝑆, 𝑇 について、表現Sの文字列が表現Tの部分文字列であるとき、𝑆 ≤ 𝑇と順序を定義します。この順序は、反射律と推移律を満たしますのでpreorder(前順序)です。

この時、言語の表現をオブジェクトとし、表現間の順序 𝑆 ≤ 𝑇 を 𝑆 → 𝑇 という射(モルフィズム)を定義すると考えると、言語は、preorder category Lとして捉えることができることがわかります。

表現 𝑆の「意味」を、このカテゴリー L 内の 𝑆 → 𝑇 なる射全体の集合と考えます。
カテゴリー L 内の 𝑆 → 𝑇 なる射を、𝐿(𝑆, 𝑇) と表します。また、𝐿(𝑆, − ) で、Sの意味を表現している、「射全体の集合」を表すことにしましょう。

意味のカテゴリーは、言語のカテゴリー L から、集合のカテゴリー Setに値を持つ、functor で構成される L上のcopresheaf Set^Lで表現されることになります。

言語のカテゴリー Lと意味のカテゴリー 𝑆𝑒𝑡^𝐿の対応は、LのオブジェクトSに、𝑆𝑒𝑡^𝐿のオブジェクトL(S, − )を対応付けるものです。こうした対応づけをYoneda Embeddingと呼びます。


【 「Part 2 言語の論理性と意味のモデルとしてのcopresheaf」の概要 】

先に見たように、Lの射 𝑥→𝑦 を𝐿(𝑥,𝑦) と表し、𝐿(𝑥,𝑦) なる全ての射の集合を𝐿(𝑥,−) で表します。

このL(x,y)の性質を、言語のカテゴリーLの定義に戻って考えてみます。Lで、𝐿(𝑥,𝑦) すなわち 𝑥→𝑦なる射が存在するのは、xがyの部分文字列になる時だけです。 よって、Lの任意のオブジェクトx, y について射𝐿(𝑥, 𝑦)は、 ただ一つ存在するか、まったく存在しないかのいずれかであることがわかります。

Lのオブジェクトである言語の表現x を、集合𝐿(𝑥,−)に割り当てるfunctorを考えます。重要なことは、xに応じた異なる集合𝐿(𝑥,−)の割り当ては、異なるfunctorによって生み出されるということです。

意味のカテゴリーは、言語のカテゴリー Lから集合のカテゴリーSetへのfunctorからなるカテゴリー  𝐿→𝑆𝑒𝑡 です。このfunctorカテゴリーを 𝑆𝑒𝑡^𝐿 (あるいは[L,Set])と表し、L上のcopresheafと呼びます。

functor 𝐿(𝑟𝑒𝑑,−)は、意味 “red”を表し、 functor 𝐿(𝑏𝑙𝑢𝑒,−)は、意味 “blue”を表します。それでは、”red or blue” の意味を表すfunctor は何になるのでしょう?その答えは、 functor 𝐿(𝑟𝑒𝑑,−) と functor 𝐿(𝑏𝑙𝑢𝑒,−) のcoproduct 𝐿(𝑟𝑒𝑑,−) ⊔ 𝐿(𝑏𝑙𝑢𝑒,−) です。

同様に、”red and blue” の意味を表すfunctor は何であろうかと考えると、答えは、 functor 𝐿(𝑟𝑒𝑑,−) と functor 𝐿(𝑏𝑙𝑢𝑒,−) のproduct の functor 𝐿(𝑟𝑒𝑑,−)  × 𝐿(𝑏𝑙𝑢𝑒,−) であることがわかります。

このように、copresheaf 意味論は、二つの表現の AND とか OR とか IMPLIES とか、言語の「論理的」意味も表現できるのです。


【 「Part 3 enriched category論入門」の概要 】

ここでは、言語のカテゴリー Lに確率を導入することを考えます。

これまでみてきた言語のcategory L では、二つの表現SとTがある時、SがTの部分文字列である時、S → T という射が存在します。

例えば、次のような射が category L には存在します。
  red → red firetruck
  red → red idea

S → T という射を、単なる部分文字列の関係としてではなく、表現Sの後に表現Tが「継続する」という関係として考えると、普通の言語使用の局面では、red → red firetruck の方が、red → red idea よりたくさん出現するような気がします。

こうした違いを、数値的に次のように表現することにします。

          0.12
  red  →  red firetruck

          0.003
  red  →  red idea

この例は仮のものですが、ここでのポイントは、射 red → red firetruck に割り当てられた 0.12という数字が、射 red → red ideaに割り当てられた 0.003という数字より大きいということです。このことは、「普通の言語使用の局面では、red → red firetruck の方が、red → red idea よりたくさん出現するような気がする」ということを表現していると考えましょう。

もう少しきちんと定義すれば、これらの数字は、
  表現Sが現れた時、表現Sの「継続」として表現Tが現れる 条件付き確率π(T|S)
だと考えることができます。

もう一つ、重要なことがあります。言語のcategoryへの確率の導入は、言語に文法性を与えることに繋がります。

英語だと、射 cat → black cat は、射 cat → cat black より出現確率は高いのですが、フランス語だと、逆に、射 chat → chat noir の方が射 chat → noir chatより出現確率が高くなります。この確率の違いは、英語では形容詞の後ろに名詞が続くのに対して、フランス語では名詞の後ろに形容詞が続くという、二つの言語の文法の違いを反映しています。

これまでは、言語からできるだけ構造を排除して、残ったpreorder の性質からだけ、言語のcategory L を作ってきたのですが、pregroupのような強い性質を前提にしなくとも、確率の導入だけで、言語のcategory Lに文法性を回復できるのです。

このように、あるcategoryをベースにしながら、その上に新しい特徴を与えて作られるcategoryをenriched category と言います。

問題は、Lの射L(x,y) が、単位区間 [0,1]に値を持つように”enriche”化された時、先のcopresheaf 意味論の構成がどの様に変化するかということです。copresheaf意味論を継承するためには、次の様な問題に答えていかなければなりません。

 ・ Lの[0,1]上でのenrich化は、どの様に可能か?
 ・ copresheafの[0,1]上でのenrich化は、どの様に可能か?
 ・ Yoneda Embeddingの[0,1]上でのenrich化は、どの様に可能か?



【 「Part 4 enriched category論の言語理論への応用」の概要 】

このパートは、上で見たような課題をカテゴリー論の課題としてどのように解決するかを論じたものです。

enriched category 論の言語理論への応用について述べているのですが、カテゴリー論の中で、enriched category 論が、どのように展開されるのかの数学的説明にもなっています。

この部分は、数学的には彼女らの論文の中心部分なのですが、難解かもしれません。

はじめて、このセミナーのコンテンツに触れる方は、前編と今回の後編のPart 1からPart 3 までの部分にフォーカスして読んでもらって構いません。

丸山は、現代のAI技術の理解を助ける数学的ツールとして「カテゴリー論」が重要だと考えています。

ただ、これまでのマルレクでの「カテゴリー論」の紹介は、不十分なものだと思っています。基本的な概念である、limit や colimit の説明もないままです。反省しています。今後のマルレクで、きちんと「カテゴリー論」の紹介をしていきたいと思っています。

今月のマルレクで、少しだけ触れた「Tropical 代数」も、歴史を遡るとカテゴリー論、特に enriched categiry 論と深い結びつきがあります。

今後のマルレクの展開に、ご期待ください。


========================================

以下は、講演資料と講演ビデオのURLです。

セミナーは四つのパートに分かれています。個別にも全体を通してもアクセスできます。

--------------------------
全体を通して見る
--------------------------

「大規模言語モデルの数学的構造 II 」セミナーの講演ビデオ全体の再生リストのURLです。全体を通して再生することができます。

https://www.youtube.com/playlist?list=PLQIrJ0f9gMcOrXEMt5uOgCcyfFrAwdmkU

講演資料全体を一つのファイルにまとめたものはこちらです。

「大規模言語モデルの数学的構造 II 」

https://drive.google.com/file/d/1F-okYSzYxbc84awsGEyNLTZGKR7hp-7V/view?usp=sharing


--------------------------
パートごとに見る
--------------------------

 ●  Part 1 第一部のふりかえり

   講演ビデオURL : 

https://youtu.be/tRTo0VI6ibo?list=PLQIrJ0f9gMcOrXEMt5uOgCcyfFrAwdmkU

   講演資料 pdf :

https://drive.google.com/file/d/1EahbSldufS-DNHMvnkdAy-cfmP1XvOYI/view?usp=sharing


 ●  Part 2 言語の論理性と意味のモデルとしてのcopresheaf

   講演ビデオURL :

https://youtu.be/FFk65T8r_8Y?list=PLQIrJ0f9gMcOrXEMt5uOgCcyfFrAwdmkU   

   講演資料 pdf :

https://drive.google.com/file/d/1F-aESy5eyBJ1yuovaMe2ueYeuJcYiobj/view?usp=sharing


 ●  Part 3 enriched category論入門

   講演ビデオURL :

https://youtu.be/axcbRRGyWtA?list=PLQIrJ0f9gMcOrXEMt5uOgCcyfFrAwdmkU

   講演資料 pdf :

https://drive.google.com/file/d/1EoYtalecazQZOH1IkH5Q91M5N_IW4KPh/view?usp=sharing


 ●  Part 4 enriched category論の言語理論への応用

   講演ビデオURL :

https://youtu.be/8zjiQ3qlyZQ?list=PLQIrJ0f9gMcOrXEMt5uOgCcyfFrAwdmkU

   講演資料 pdf : 
https://drive.google.com/file/d/1Ev7zwKi3aFgO0UgqSYCz9oANaISszWxy/view?usp=sharing


-----------------------------

今回のセミナーのまとめページはこちらです。

「大規模言語モデルの数学的構造 II 」
https://www.marulabo.net/docs/llm-math2/

セミナーに向けたショートムービーの再生リストはこちらです。ご利用ください。

「大規模言語モデルの数学的構造 II  -- エピソード」
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcPmrJ3B0LEXJ_SHPP-ak_hw


-----------------------------

前回12月のセミナーのまとめページはこちらです。

「大規模言語モデルの数学的構造 I 」
https://www.marulabo.net/docs/llm-math/

前回のセミナーに向けたショートムービーの再生リストはこちらです。ご利用ください。

「大規模言語モデルの数学的構造 I  -- エピソード」
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcPgnaymP8vC37oKdYa5pvDm

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について