構成的分散意味論の展開 -- DisCoCat

 【 DisCoCat の登場 】

前回、「論理的形式」と「文脈的使用」という意味の定義の二者択一を超えるものとして、Coeckeらの「 DisCoCat = 構成的分散意味論 」が、生まれるという話をしました。

この野心的な試みを、理論的に支えたのはCategory論でした。DisCoCatは、"Distributional Compositional Categorial Semantics" の省略で、「カテゴリー論的構成的分散意味論」という意味です。確かに英語でも日本語でも長い名前ですね。

今回のセッションは、この「 DisCoCat = 構成的分散意味論 」を紹介しようと思います。

改めて、構成的分散意味論の問題意識を確認しましょう。

  語から構成される「文の構成性=Syntax(=文法)」と、
  語の意味から構成される「文の意味=Semantics」を、
  対応づける。

では、どのようにしてこのSyntaxとSemanticsの対応ができるようになるのでしょう。
そこに登場するのがカテゴリー論です。

現代のカテゴリー論の始祖の一人といっていい L.W.ローヴェールは、次のような重要な定理を発見します。

  二つのカテゴリーCとDの間に、Functor Fが存在する時、
  Functor Fは、「理論」Cの「表現」Dを与える。

  このCとDの関係は、「理論」とその「解釈」である
  「モデル」の関係とみなすことができる。

  別の言い方をすると、カテゴリー Cからカテゴリー Dへの
  Functorは、「理論」Cの「意味」を与える。

こうした「意味」へのFunctorを用いた数学的アプローチは、「ファンクター意味論 = Functorial Semantics 」と呼ばれています。

Coeckeたちの構成的分散意味論の中心的アイデアは、自然言語の意味理解に、このカテゴリー論の Functorial Semantics を利用しようということです。これは卓見だったと思います。

言語の文法を数学的カテゴリーSyntax として捉え返し、言語の意味をベクトル空間に値を取る数学的カテゴリーSemantics として捉え返せば、カテゴリーSyntaxからカテゴリーSemanticsへのFunctor Fが、言語の意味を与えることになるというわけです。

ベクトル空間(正確にいうと、テンソル積を導入して拡張されたベクトル空間であるテンソル空間)が、数学的な対象としてのカテゴリーの要件を満たすことは、ほぼ自明です。

一つの問題は、文法を数学的なカテゴリーとして形式的に捉えることができるかということなのですが、それは、数学者であり言語学者でもあったLambekが行った、Pregroupとしての文法の数学化の仕事を利用することで解決できます。

こうして、DisCoCatは、自然言語の意味理解の最先端のフレームワークとして登場することになります。

--------------------------------

ショートムービー「 構成的分散意味論の展開 -- DisCoCat 」を公開しました。
https://youtu.be/I2Apo7xuMLQ?list=PLQIrJ0f9gMcPgnaymP8vC37oKdYa5pvDm

「 構成的分散意味論の展開 -- DisCoCat 」のpdf資料
https://drive.google.com/file/d/1VsCDmFlSQO3J-shHzFTs39cymxqdnagg/view?usp=sharing

blog 「 DisCoCat の登場 」
https://maruyama097.blogspot.com/2023/11/discocat.html

「大規模言語モデルの数学的構造」まとめページ
https://www.marulabo.net/docs/llm-math/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について