あらためて、セミナーの目的について

【あらためて、セミナーの目的について】

中断があったので、改めて今回のセミナー「大規模言語モデルの数学的構造」の目的を確認したいと思います。

まずは、個人的な背景から。

正直に言うと、僕には大規模言語モデルの働きについてよくわからないところがいろいろあります。ただ、その振る舞いには何かの理由があるはずです。また、その理由は数学的に表現できるとも考えています。

そうした疑問の中、DisCoCatの時代から注目していた Tai-Danae Bradleyの議論の「変化」に注目するようになります。

【大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できない】

DisCoCatの理論は、言語の文法的構成性を言語の意味的構成性に結びつける、強力なカテゴリー論的枠組みを提供する素晴らしい理論です。

ただ、現実の大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できないのです。

なぜなら、DisCoCatのモデルではモデルに与えられる入力は、あらかじめ pregroupとして形式的に記述される文法構造を持ち、そうしたものとして解析されていることを前提としているからです。大規模言語モデルは、そうではありません。

【 Tai-Danae らの二つの論文に注目】

ある論文の冒頭で、Tai-Danae Bradleyは、こう言っています。

「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」

"Language Modeling with Reduced Densities"
https://arxiv.org/abs/2007.03834v4　　　

彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。

まったく、同感です。

Tai-Danaeは、別の論文で、次のように語ります。

「最先端の言語モデルは、どのような入力テキストからも自然言語テキストの続きを返すことができる。首尾一貫したテキストの拡張を生成するこの能力は、このモデルが文法や意味論の知識を含む、かなりの高度化を達成していること意味する。

本論文では、今日の大規模な言語モデルによって学習されるような、与えられたテキストの拡張に関する確率分布から、意味情報を含む豊かなカテゴリに移行すための数学的枠組みを提案する。」

“An enriched category theory of language: from syntax to semantics”
https://arxiv.org/abs/2106.07890

これは、まさに、僕が知りたいことです。

【今回のセミナーの目的】

今回のセミナー「大規模言語モデルの数学的構造」の主要な目的は、Tai-Danae らの論文、特に後者の論文の内容を紹介することにあります。

--------------------------------

ショートムービー「あらためて、セミナーの目的について」を公開しました。

「あらためて、セミナーの目的について」のpdf資料
https://drive.google.com/file/d/1n2CTeljtSLS0lk_c2Yw8b50Kqxiv8bRO/view?usp=sharing

blog 「あらためて、セミナーの目的について」

https://maruyama097.blogspot.com/2023/12/blog-post.html

「大規模言語モデルの数学的構造」まとめページ
https://www.marulabo.net/docs/llm-math/

過去・現在・未来