投稿

Yoneda embeddingと意味の表現

【 言語と意味の関係をカテゴリー論で整理する 】 前回のセッションで、意味のcategory M の形を見てきました。 それは、言語のcategory L のオブジェクト x から、Lの射 x → y によってうつされるすべてのオブジェクト yの集合によって表現されます。 Lのオブジェクトxを、その意味を表すcategory Setのあるオブジェクトに割り当てる functor を L(x, − )で表すと、   L(x, − ) :  L → Set と表すことができます。 意味のcategory M のオブジェクトは、この   L(x, − ) : Set^L に他なりません。 【 もとの問題意識に戻る 】 意味のcategory M の構造は定義できたのですが、それで問題が片付いたわけではありません。 もともとの問題意識は、言語のcategory Lと意味のcategory M を関連づけようということでした。   L → M のように。  Mが定義できたので、これが今度はこうなります。   L → Set^L これを図で表してみましょう。この説明は、スライドをご覧ください。 まず、 言語のcategoryと意味のcategory の関係 を図に表してみました。 次に、この図の上で、語 red の意味がどう扱われるのか、具体例で説明しています。言語のcategory L と意味のcategory Set^L との対応は、Lのオブジェクト red をSet^Lのオブジェクト L(red, − )に対応づけるものです。 一般に、Lのオブジェクト x をSet^Lのオブジェクト L(x, − )に割り当てることを「Yoneda Embedding」と言います。 後半では、こうした構成を一般的な視点から説明しようと思います。 【 表現可能なfunctor 】 ここでは、これらの構成のアイデアのもとにあるYoneda lemmaについて、簡単に説明したいと思います。 category Cから集合のcategory Set へのfunctor    F : C → Set  が存在する時、このF を表現可能なfunctor と呼びます。 category Cの性質が最初はよく分からなくとも、性質のよくわかっているSet へのfunctor を考えると、Cの性質がSetの

functor category と意味

【 John Firthの意味理解をカテゴリー論的に解釈する 】 意味の世界にアプローチする手がかりは、どこかにないでしょうか? 特に、その意味の世界をカテゴリーとして捉えるヒントはどこかにないでしょうか? このセミナーの中では、意味の世界をカテゴリーとして捉えようとする二つの理論 DisCoCatとQNLPを紹介してきました。そこでは意味の世界は、有限ベクトル空間あるいはヒルベルト空間のカテゴリーとしてモデル化されていました。 また、それらの理論では言語のカテゴリー Lは、pregroup文法に従うものとして、高度に構造化されたものだとされていました。 ただ、それらは、「構造を持たないテキスト」をその入力とするように見える大規模言語モデルの数学的モデルとしては、使いにくいものでした。 【 意味の理論の振り返り 】 改めて、 DisCoCatやQNLP以前の、まだカテゴリー論化されていない意味の理論を振り返ってみましょう。 ここでは、次の二つの意味の理論を、振り返ってみましょう。  ⚫️ 意味の使用説:Wittgenstein  ⚫️ 意味の文脈依存説:Firth 意味の使用説とは、意味はその使用から説明されるべきだ、という考え方です。 Wittgensteinに始まるものです。   “meaning of a word is its use in a language”   「ある語の意味は、ある言語におけるその使用である」 チューリングは、言葉の意味を知る事は、その用法を知る事だといったヴィトゲンシュタインらの見解に痛烈な皮肉をあぴせています。 すなわち、「機械」や「考える」という言葉の使い方をいくら調べた所で「機械は考える事ができるか」という問の意味も答えも明らかになるわけではない。それとも、「ギャラップの世論調査の様な 統計的研究」が必要という事になるのだろうかと。 Firthは「状況の文脈」という概念で意味の文脈依存的な性質に注目したことで知られ、連語的(collocational)意味に関する彼の研究は、分散意味論の分野で広く認められています。特に、彼は次の有名なことばで知られています。   “You shall know a word by the company it keeps”   「我々は、ある語を、それが引きつれている仲間たちによって知ること

functor:意味を表現する方法

【 意味の世界はどこにある? 】 大規模言語モデルは、言語の意味を理解しているように見えます。それでは、大規模言語モデルが理解しているように見える「意味の世界」はどこにあるのでしょう? 先のセッションでは、言語を語の並びである表現の集まりだと考えれば、文字列の包含関係で preorder の順序が定義でき、それは category としても考えられるという話をしました。 ただ、この言語のcategory L をいくら眺めても、そこにあるのは、具体的な文字列や語や表現だけで、どこにも意味は見当たりません。 【 意味を表現する方法を考える 】 これまでの流れで考えてみると、言語のcategory Lとは別に、言語の意味を表現するcategory M (meaningのMです)が存在すると考えるのが自然なアプローチだと思います。 ただ、この二つのcategory L, Mは、別々バラバラなものではなく結びついていて、言語のcategory Lが与えられるとその言語の意味のcategory Mが生み出されるという関連があるはずです。 もし、意味のcategory Mがうまく定義できるなら、言語のcategory Lと意味のcategory M を結びつけることで、言語の意味の表現ができそうです。 もっとも、この段階では 「LとMを結びつけられたらいいかも」と言っているだけで、意味のcategory Mがどんなものかは何もわかっていません。意味のcategory Mをどう構成すればいいかは、次回のセッションでもう少し具体的に触れていきたいと思います。 今回のセッションでは、「category とcategoryを結ぶ」ということを、考えてみたいと思います。 【 functor -- categoryとcategoryを結ぶ 】 カテゴリー論では、あるcategoryともう一つのcategoryを結びつける方法がキチンと定義されています。それをfunctor と言います。 言語の意味を表現するのに、カテゴリー論的枠組みを使うのなら、functorを利用することが必要になりそうです。 ここでは、functorと二つのfunctorを結びつけるnatural transformationの定義を見ておくことにします。 【 functorとはなにか? 】 category C から

categoryとしての言語

【 なぜ、言語をcategory として捉えるのか? 】 前回のセッションでは、大規模言語モデルの入力に与えられるテキストデータを、「語の並び」からなる「表現」の集まりと考えると、そこに文字列の包含関係に基づいて二つの表現SとTとの間の順序を、次のように定義できることを見てきました。  ⚫️ SがTの部分文字列である時、S ≦ T  ⚫️ そうでない時、SとTの間には、順序関係は存在しない。 この順序 ≦ は、反射律と推移律を満たしますので、preorder(前順序)です。 「表現」の集まりとしての言語は、preorderの構造を持ちます。 今回のセッションでは、前回見たpreorderの構造を持つ対象は、category としても考えることができると言う話をします。 まず、category とは何かを見ておきましょう。 【 categoryとは何か? -- categoryを構成するもの 】 category Cは、次のものからできています。  ⚫️ オブジェクト (object): Cを構成する要素  ⚫️ 射 (morphism): Cの二つのオブジェクト x, yを結ぶもの。 この射fを f : x → y と表します。この時、xをfのdomain、yをfのcodomainと呼びます。 f : x → y,  g : y → z なる 射 f, g に対して、g◦f : x → z なる射が存在します。これを射 f, g の合成 (composition) といいます。これは、射 f のcodomainと射 gのdomainが一致する時、射の合成 g◦f が定義されるということです。 【 categoryとは何か? -- category が満たすべき性質 】 category C は、次の性質を満たさなければなりません。   ⚫️ 同一射の存在: Cのすべてのオブジェクト x について、xを同じxと結ぶ射 id_x : x → xが存在する。  ⚫️ 射の合成の結合性:f : x → y,  g : y → z, h : z → w  の時、( h◦g )◦f = h◦( g◦f )が成り立つ。 この性質はスライドの図を見た方がわかりやすいと思います。 【  preorderとしての言語はcategoryである 】 先に見た、preorderとしての

preorderとしての言語

【 言語のプリミティブな構造を考える 】 これから Tai-Danae の大規模言語モデルの数学的モデルの紹介をしたいと思います。細かいテクニカルな話に入ってしまうと、全体の流れが見えにくくなるので、彼女のアプローチの基本的な骨組みの概説を先行して、段階的に進めたいと思います。 概説の第一回目である今回は、言語のプリミティブな構造としてpreorderという構造に注目するという話をします。 【 pregroupからpreorderへ 】 DisCoCatの言語理論の前提の一つは、自然言語が構成的な文法構造を持つことです。それは、通常は、Lambekのpregroup文法で記述されています。 DisCoCatとLambekのpregroup文法については、2022年12月のマルレク「ことばと意味の「構成性」について」 https://www.marulabo.net/docs/discocat と、その中の次の資料を参照ください。 https://www.marulabo.net/docs/discocat/#Pregroup_Grammar   pregroupは、基本的には、いくつかの代数的構造を持つ「半順序集合(partial order set: poset)」です。カテゴリー論的には、monoidal categoryの一種で、compact closed categoryになります。それは「半順序」より、複雑な構造を持っています。 大規模言語モデルが、「構造化されていないテキストデータの相関関係から完全に構築されている」とみなそうとする Tai-Danaeにとって、pregroupという構造を前提にすることはできません。 彼女が選んだのは、pregroupがもつ余分な代数的な構造(monoidとself dual)を捨て、さらに残った半順序(partial order)からも、ある性質を捨てて得られる 非常にプリミティブな前順序(preorder)という構造から大規模言語モデルの振る舞いを数学的に再構築するという道でした。 その意味では、彼女は、テキストデータが、「全く構造化されていない」と考えたわけではありません。最低限の前提ですが、言語は、 preorder という構造を持つのです。 【 preorderとは何か 】 順序≤が定義された集合𝑃で、

あらためて、セミナーの目的について

【 あらためて、セミナーの目的について 】 中断があったので、改めて今回のセミナー 「大規模言語モデルの数学的構造」の目的を確認したいと思います。 まずは、個人的な背景から。 正直に言うと、僕には大規模言語モデルの働きについてよくわからないところがいろいろあります。ただ、その振る舞いには何かの理由があるはずです。また、その理由は数学的に表現できるとも考えています。 そうした疑問の中、DisCoCatの時代から注目していた Tai-Danae Bradleyの議論の「変化」に注目するようになります。 【 大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できない 】 DisCoCatの理論は、言語の文法的構成性を言語の意味的構成性に結びつける、強力なカテゴリー論的枠組みを提供する素晴らしい理論です。 ただ、現実の大規模言語モデルの振る舞いは、DisCoCatの枠組みでは説明できないのです。 なぜなら、DisCoCatのモデルではモデルに与えられる入力は、あらかじめ pregroupとして形式的に記述される文法構造を持ち、そうしたものとして解析されていることを前提としているからです。大規模言語モデルは、そうではありません。 【 Tai-Danae らの二つの論文に注目 】 ある論文の冒頭で、Tai-Danae Bradleyは、こう言っています。 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4       彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 まったく、同感です。 Tai-Danaeは、別の論文で、次のように語ります。 「最先端の言語モデルは、どのような入力テキストからも自然言語テキストの続きを返すことができる。首尾一貫したテキストの拡張を生成するこの能力は、このモデ

Tai-Danaeのアメリカ数学会デビュー論文へのコメント

【 Tai-Danaeの仕事は、まだ十分には理解されていないのかも 】 (小論は、昨日Facebookに投稿した「AIにおけるカテゴリー理論のツールの普及」のタイトルを変更し、若干の資料を追加したものです。Tai-Danae が名を連ねる論文へのコメントとしては、辛口なものになっています。 ただ、それは、この論文だけでは、この分野で彼女が果たしてきた役割が正当に評価されていないのではと言う不満に基づいたものです。 少し考えたのですが、現在準備中の彼女の理論の紹介を目的とした「大規模言語モデルの数学的構造」のエピソードの「番外編」として、このコメントを組み込むことにしました。 内容の重複をお許しください。) -------------------------------- 【 Tai-Danaeのアメリカ数学会デビュー論文へのコメント 】 来年のことを言うと鬼が笑うと言いますが、来年2月に発行される AMS(アメリカ数学会)誌にTai-Danae Bradleyらの論文が掲載されるそうです。 共著者の一人の John Terilla が自分のページにpre-print を載せています。  "The structure of meaning in language:  parallel narratives in linear algebra and category theory"「言語における意味の構造:線形代数とカテゴリー理論におけるパラレル・ナラティブ」 https://qcpages.qc.cuny.edu/~jterilla/main.pdf このpreprintの「はじめに」の部分を紹介したいと思います。 「機械学習におけるカテゴリー論に関するオンラインプログラム "Categories for AI "は、昨年秋から数ヶ月にわたって展開された。  Deep Mind社の2名を含む産業界の研究者数名を含む "Cats for AI "組織委員会は、機械学習コミュニティはより厳密な構成的言語を使用すべきであり、カテゴリー論は科学全般、特に人工知能において「結束力を持つ大きな可能性」を持っていると感じていた。 この論文は決してその出来事を包括的に報告するものではないが、「Cats for AI」 ht