12月のマルレク「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました
【12月のセミナー「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました 】
#大規模言語モデルの数学的構造1
昨年末に開催したマルレク「大規模言語モデルの数学的構造 I」の講演資料と講演ビデオ公開しました。ご利用ください。
「生成AI」技術が、ITの世界だけでなく社会のいろいろな領域に、大きな影響を与えようとしているのは、みなさんご承知の通りです。
「大規模言語モデル」というのは、この「生成AI」技術を生み出している巨大なインフラ(例えば、OpenAIのChatGPTを支えるシステム)とその理論的モデルの両方を指す言葉です。
「生成AI」に対する関心の高まりとともに、その基礎を支える「大規模言語モデル」に対する理論的関心もまた高まっています。活発な議論と研究が行われています。
なぜなら、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ不思議な謎があるからです。
【 大規模言語モデルの不思議な振る舞いには理由がある 】
ただ、今回のセミナーを開催した理由は、生成AIのの不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。
僕は、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると考えています。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。
そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。
今回紹介するのは、そうした議論の中で、注目されているTai−Danae Bradleyの議論です。
内容的には、コンピュータ上で言葉の意味をどう表現するのかという問題を扱っています。この点では、「言葉の意味は、その言葉を含むすべてのコンテキストで決まっていく」という考えがベースになっています。そのことを了解できれば、理解は進むと思います。
【 「巨人の肩に乗る」 】
カテゴリー論をベースとした数学的な議論がメインで、日頃あまり見慣れない用語や概念が出てくるので、最初はわかりにくいところが多いかもしれません。
ここでの議論のベースになっているのは、50年以上前に数学の巨人であるグロタンディックやローベールたちが純粋数学の世界で作り上げた、functorial semantics, presheaf, topos という道具たちです。
ただ、臆する必要はありません。不思議なことが起きています。
それは、かつて数学の巨人たちが作り上げた抽象的な数学理論を、私たちが具体的な例を通じて容易に理解する道が開かれつつあるということです。その舞台が、カテゴリー論と比較してはるかに多くの人が関心を持っている大規模言語モデルだと、僕は考えています。
今回のセミナーの準備を通じて、僕は、技術者には身近な大規模言語モデルを通じて、技術者が抽象的に見えるカテゴリー論の基礎を学習することが可能なのだと思い始めています。現実の大きな変化に対応して、きっと何か大きな理論的なパラダイムシフトが進行しているのだと思います。きっと、皆が、当たり前のように、巨人の肩の上に乗ればいいのです。
【 全体の構成 】
次の四つのパートから構成されています。
● 構成的分散意味論の展開
● 大規模言語モデルの特徴
● 言語をカテゴリーとして捉える
● 意味をカテゴリーとして捉える
以下、各パートの概略です。
【 構成的分散意味論の展開 】
語の意味をベクトルで表現するるテクニックを分散意味表現と言います。それは、現在の人工知能における進歩の主な原動力のひとつです。もちろん「生成AI」も、その技術を利用しています。
構成的分散意味論というのは、単に語の意味をベクトルで表現するだけでなく、語から構成される文の構成性=文法から、語の意味から構成される文の意味=Semanticsを導くことを目指したものです。
こうした方向での研究を主導したのは、OxfordのBob Coeckeで、カテゴリー論を駆使した彼らの理論は、DisCoCat ( Categorical Distributional Compositional Semantics)と呼ばれます。
DisCoCatは、Pregroup 文法で記述されたSyntaxの世界からから、構成的にSemanticの世界をを構成することに初めて成功します。
彼らは、現在、量子自然言語処理(Quantum NLP)の分野で、構成的分散意味論の意欲的な研究を展開しています。
【 大規模言語モデルの特徴 】
ある論文の冒頭で、Tai−Danaeはこう言っています。
「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」
彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。
大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」
「文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。 」
「驚くべきは、これらのLLMが、ラベルのないテキストサンプルを使って、次の単語を事前に指示するように学習できることである。文法的、意味的な入力は提供されないが、それにもかかわらず、複雑な構文構造、意味情報、世界知識が学習され、実証される。」
【 言語をカテゴリーとして捉える 】
大規模言語モデルが、「構造化されていないテキストデータの相関関係から完全に構築されている」とみなそうとする Tai-Danaeにとって、DisCoCatのように、pregroupという構造を前提にすることはできません。
彼女が選んだのは、pregroupがもつ余分な代数的な構造を捨て得られる 非常にプリミティブな前順序(preorder)という構造から大規模言語モデルの振る舞いを数学的に再構築するという道でした。
語の並びからなる二つの表現SとTがあるとき、SとTとの間の順序≤ を次のように定義します。これがpreorderです。
・SがTの部分文字列である時、S ≤ T
・そうでない時、SとTの間には、順序関係は存在しない。
それは、大規模言語モデルの扱うデータを、表現の「継続」あるいは「連続」として捉えるものでした。
その意味では、彼女は、テキストデータが、「全く構造化されていない」と考えたわけではありません。最低限の前提ですが、言語は、 preorder という構造を持つのです。
そして、それは、カテゴリーとして言語を捉えることと形式的には同義です。
【 意味をカテゴリーとして捉える 】
Tai-Danaeの意味の理論に大きな影響を与えたのは、イギリスの言語学者 John Firth の次のような言葉です。
“You shall know a word by the company it keeps”
「我々は、ある語を、それが引きつれている仲間たちによって知ることになる。」
ここで、ある言語における「表現」(語の並びのことです)の「意味」を、その表現の「仲間たち」のなす「全体」の集まりと考えることにします。
言語のcategory L でこの考えを整理してみましょう。
LのオブジェクトS,T(SもTも語の並びとしての表現です)で、TがSの「仲間」になるのは、S → T なる射が category L に存在する時、かつその時に限ります。(SがTの部分文字列だということです。)
この時、Sと「仲間である」という条件を満たすLの表現全体の集まりを、Sの「意味」と考えるということです。
--------------------------−−−−−−−−−−−−−
セミナー・コンテンツの利用について
--------------------------−−−−−−−−−−−−−
今回のセミナーのまとめページはこちらです。
「大規模言語モデルの数学的構造 I 」
https://www.marulabo.net/docs/llm-math/
セミナーは四つのパートに分かれています。
全体を通しても個別にもアクセスできます。
--------------------------
全体を通して見る
--------------------------
「大規模言語モデルの数学的構造 I 」セミナーの講演ビデオ全体の再生リストのURLです。全体を通して再生することができます。
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcM-FgEQnu_7QJR93xEC5PDH
講演資料全体を一つのファイルにまとめたものはこちらです。
「大規模言語モデルの数学的構造 I 」
https://drive.google.com/file/d/1unmpe7YTgCEShWbHOq0YvoZbdhZI77C6/view?usp=sharing
--------------------------
パートごとに見る
--------------------------
● Part 1 構成的分散意味論の展開
講演資料 pdf :
https://drive.google.com/file/d/1vm_Q4EdzIySnbIuh1UghQTJ0rQurHEtO/view?usp=sharing
● Part 2 大規模言語モデルの特徴
講演ビデオURL :
https://www.youtube.com/watch?v=KVNodwHU9f8&list=PLQIrJ0f9gMcM-FgEQnu_7QJR93xEC5PDH&index=2&pp=gAQBiAQB
講演資料 pdf :
https://drive.google.com/file/d/1vwZjE99BuWAo-gtuPnte3t44eMHsMXaY/view?usp=sharing
● Part 3 :言語をカテゴリーとして捉える
講演資料 pdf :
https://drive.google.com/file/d/1w7IFqrH8cMVfBJIQ36hy1psmZiaT748C/view?usp=sharing
● Part 4 意味をカテゴリーとして捉える
講演資料 pdf :
https://drive.google.com/file/d/1wKRGHvMoOwTjxsa5OXzBakvipZTsOrl5/view?usp=sharing
----------------------------
セミナーに向けたショートムービーの再生リストはこちらです。ご利用ください。
「大規模言語モデルの数学的構造 I -- エピソード」
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcPgnaymP8vC37oKdYa5pvDm
コメント
コメントを投稿