大規模言語モデルの特徴と Tai-Danaeの問題意識

 【 なぜ、Tai-Danaeの議論に注目するのか 】

なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? 今回のセミナーで取り上げる論文に一つ先行する論文の冒頭で、彼女はこう言っています。( "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4  ) 

「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」

彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。


【 大規模言語モデルが行なっていること -- 彼女は何に強い印象を受けたのか? 】

ここでは、彼女が大規模言語モデルのどんな性能に印象を受けたのかをみておきましょう。

大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」 

確かにそう言われています。ただ、それだけでしょうか?

彼女は続けます。

「直感的に言えば、物語を続ける能力は、非常に高度なことを意味している。
 
文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。 

可能な継続の確率分布を効果的に学習する言語モデルは、明らかに意味的知識も学習しているはずだ。 

物語の続きが合理的で内部的に一貫しているためには、世界に関する知識が必要である。内部的に一貫しているためには、犬とは吠える動物であり、ゴルフは日中屋外でプレーするものである、火曜日は月曜日の翌日である、などといった世界の知識が必要である。」

この驚きの感覚に、僕は共感します。


【 より驚くべき大規模言語モデルの能力 】

問題は、それだけではありません。

 「驚くべきは、これらのLLMが、ラベルのないテキストサンプルを使って、次の単語を事前に指示するように学習できることである。

文法的、意味的な入力は提供されないが、それにもかかわらず、複雑な構文構造、意味情報、世界知識が学習され、実証される。」

それは DisCoCatの理論家だったTai-Danaeにとっては深刻な問題だったと思います。なぜなら、DisCoCatモデルは、入力が文法的にPregroup Grammar で解析されていることを前提としているからです。

数学的カテゴリーとしての文法理論も、さらには、文法カテゴリーから意味のカテゴリーへのFunctor意味論も、大規模言語モデルの振る舞いを基礎づけるには使えそうもありません。

大規模言語モデルの振る舞いは、 DiscoCatモデルでは説明できないのです。



【 DisCoCat モデルの見直しと新しい理論構成 】

ただ、それにもかかわらず、彼女は、SyntaxからSemanticsへの構成的アプローチを捨てたわけではありません。今回のセミナーで主要に紹介するのは、彼女たちの次の論文です。

"An enriched category theory of language: from syntax to semantics"
https://arxiv.org/abs/2106.07890

改めて、冒頭に引用した彼女の言葉を振り返ってみましょう。

「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」

問題を解決する第一歩は、問題を正しく定式化することです。

・どのような数学的構造が、構造化されていないテキストデータには存在するのか?
・どのようにして、テキストの情報は、カテゴリー構造を維持したまま保存され、モデル化することができるのか。

こうした研究を経て、彼女はいま、こう語ります。

「本研究は、テキスト継続の確率分布から意味情報への移行が可能であるという現実世界の証拠への応答である。この移行のための数学的枠組みを提案する。」

「現実世界の証拠」とは、現実の大規模言語モデルが示す高度な能力のことです。その理論的基礎を明らかにせよという挑戦に、「応答」することができたと彼女は語っています。

次回のセッションでは、彼女の大規模言語モデルの数学的構造の理論の概要を紹介しようと思います。

--------------------------------

ショートムービー「 大規模言語モデルの特徴と Tai-Danaeの問題意識 」を公開しました。
https://youtu.be/yEIrgMXVRkU?list=PLQIrJ0f9gMcPgnaymP8vC37oKdYa5pvDm

「 大規模言語モデルの特徴と Tai-Danaeの問題意識 」のpdf資料
https://drive.google.com/file/d/1XA9DpJYAxwZAUVAGUf_kkbQyXO-hcWB3/view?usp=sharing

blog 「 なぜ、Tai-Danaeの議論に注目するのか 」
https://maruyama097.blogspot.com/2023/11/tai-danae.html

「大規模言語モデルの数学的構造」まとめページ
https://www.marulabo.net/docs/llm-math/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について