大規模言語モデルの数学的構造

【セミナー「大規模言語モデルの数学的構造」へのお誘い】

次回のセミナー「大規模言語モデルの数学的構造」へのお誘いです。

このセッションでは、まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。

【大規模言語モデルの働きがよくわからない】

第一の理由は、個人的なものですが、単純なものです。

それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。

意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。

ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。

【大規模言語モデルの振る舞いには理由がある】

今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。

AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。

今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。

【「根拠」は数学的に表現される】

今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。

それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。

そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。

【カテゴリー論の応用のフィールドとしての大規模言語モデル】

Tai-Danae Bradley の議論は、まさに、カテゴリー論の応用のフィールドとして大規模言語モデルを取り上げています。これは、カテゴリー論にとっても、大規模言語モデルにとっても、あたらしい切り口です。

今回のセミナーは、すこし、とっつきにくいところがあるかもしれません。ただ、技術者には身近な大規模言語モデルを通じて、技術者が抽象的なカテゴリー論の基礎を学習することが可能なのだと思い始めています。

--------------------------------

ショートムービー「セミナーへのお誘い -- 開催の理由について」を公開しました。
https://youtu.be/UlO1IOrUz8w?list=PLQIrJ0f9gMcPgnaymP8vC37oKdYa5pvDm

「大規模言語モデルの数学的構造」まとめページ
https://www.marulabo.net/docs/llm-math/

過去・現在・未来