11月セミナーの予告 -- 大規模言語モデルと意味の分散表現の数学

【 11月セミナーの予告 -- 「大規模言語モデルと意味の分散表現の数学」】

大規模言語モデルの実践的な成功は、その理論的基礎に対する広い関心を呼び起こしています。

今回のセミナーでは、大規模言語モデルとそこで用いられている意味の分散表現論には、どのような数学的な基礎があるのかについての研究の動向を、Tai-Danae Bradleyのアプローチを中心に紹介したいと思います。

この点では、今回のセミナーは、4月に開催したマルゼミ「ことばと意味の数学的構造」の続編です。https://www.marulabo.net/docs/math-structure/　

【基本的な問題意識】

どのような問題意識が、Tai-Danae Bradley たちの研究をドライブしているのかを、改めて確認しておきましょう。

「この研究は、今日の最先端の統計的言語モデルのパフォーマンスに強い印象を受けたことに端を発している。ただ、印象的なのはその性能だけではない。極めて重要なことだが、それは、非構造化テキストデータの相関関係から完全に構築されている。

後者の観察は、本論文の核心にある基本的な疑問を促す：非構造化テキストデータにはどのような数学的構造が存在するのか？」

　Ta-Danae Bradley, Yiannis Vlassopoulos.
　Language Modeling with Reduced Densities
　https://arxiv.org/abs/2007.03834

この論文については、先に挙げた4月のマルゼミ「ことばと意味の数学的構造」のPart 4-2で、簡単に紹介しています。ただ、不十分なものでした。

今回のセミナーでは、先の論文に続くTai-Danaeらの論文を紹介しようと思います。Abstractに次のような問題意識が示されています。　

「最先端の言語モデルは、どのような入力テキストからも、連続した自然言語テキストの続きを返す。首尾一貫したテキストの拡張を生成するこの能力は、このモデルが文法や意味論の知識を含む、重要な高度化を達成していることを意味する。

本論文では、今日の大規模言語モデルによって学習される、

与えられたテキストの拡張に関する確率分布を、意味情報を含む豊かなカテゴリに渡すような数学的枠組みを提案する。」

　Tai-Danae Bradley, John Terilla, Yiannis Vlassopoulos
　An enriched category theory of language: from syntax to semantics

【問題意識再び -- Tai-Danae のblog, Video から】

Tai-Danaeは、研究blogの書き手で、意欲的に研究の紹介を行っています。この論文についても優れた解説を行なっています。この論文の目的意識はこうまとめています。もちろん、先のAbstractとおんなじですね

「テキスト上の確率分布から言語の構文・意味情報への移行を説明するのに適した数学的枠組みとは何か？」

次のビデオ「大規模言語モデルに触発されたカテゴリー論」は、この論文の優れたまとめになっています。タイトルは、そのまんまですね。

意外に思われるかもしれませんが、AIの研究者は沢山いるのですが、こうした視点を持っている研究者は少ないのです。

　Category Theory inspired by LLM

【 SandboxAQについて】

Tai-Danaeは、現在、2022年にAlphabet(Google)が創設したSandboxAQのメンバーです。

この動画のURLはこちらです。

過去・現在・未来