投稿

1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました

   【 1月の マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました 】 #大規模言語モデルの数学的構造2 1月27日に開催した、マルレク「大規模言語モデルの数学的構造 II 」の講演ビデオと講演資料、公開しました。ご利用ください。 このセミナーは、12月30日に開催した、マルレク「大規模言語モデルの数学的構造 I 」 https://www.marulabo.net/docs/llm-math/  の後編です。この前編・後編二つのセミナーで主要に紹介するのは、大規模言語モデルの不思議な振る舞いを数学的に説明することを目指した、Tai-Danae Bradleyたちの次の論文です。   "An enriched category theory of language: from syntax to semantics"    https://arxiv.org/abs/2106.07890 前編については、今回の「Part 1 第一部のふりかえり」で概要をまとめてあります。 今回公開した後編は、前編で紹介した copresheaf 意味論というカテゴリー論的アプローチを、単位区間 [0,1] をmenrich化して拡大し、言語表現の「継続」に確率を導入し、大規模言語モデルの数学的モデルとして提案するという、前掲の論文の中心部分です。 このセミナーで利用されているカテゴリー論の基礎については、Tai−Danae Bradley らがMIT Pressから出版した"Topology A Categorical Approach" の"0 Preliminaries"  のパートが、とてもいいまとめになっています。オンライン版は、無料で読めます。一読をお勧めします。 https://topology.mitpress.mit.edu/ 以下、今回公開した後編のパートごとに、内容を紹介します。 【 「Part 1 第一部のふりかえり」の概要 】 言語を構成する意味を持つ文字列である、語・フレーズ・文・文の連続 ... を「表現」とします。任意の表現 𝑆, 𝑇 について、表現Sの文字列が表現Tの部分文字列であるとき、𝑆 ≤ 𝑇と順序を定義します。この順序は、反射律と推移律を満

数学的展望

【 AI技術の数学的基礎の革新を目指して 】 ------------------------------ 2/29マルレク「言語の意味の数学テク構造」申し込みページ作成しました。次のページから、受け付けています。 https://meaning-structure.peatix.com/ お申し込み、お待ちしています。 ------------------------------ 【 この論文が明らかにしたこと 】 今回のセッションでは、論文の最後のセクション、"Conclusion: Looking Forward" を紹介します。 前回までのいくつかのセッションは、彼女の言語思想にフォーカスしたもので、数学はあまり表面にでてきませんでしたが、今回は、数学が戻ってきます。 まず、この論文の結論として、概略、次のように語ります。  ⚫️ 純粋にsyntacticalな入力から言語の構造的特徴を抽出できる。  ⚫️ 実際のデータから実数の行列を作り、線形代数的な方法(SVD)で語の埋め込みを理解できる。  ⚫️ 上で得た実行列にカットオフを適用して{0,1}値の行列を作成して、Formal Concept Analysis の手法を利用できる。  ⚫️ これらの手法のそれぞれはいずれも既知のものであるが、両者の間にパラレルな関係があることを示した。 すこし謙遜していますが立派なものだと思います。 ちなみに、embedding とSVDの関係を始めて明らかにしたのは、2014年の次の論文だと思います。 Omer Levy and Yoav Goldberg, Neural word embedding as implicit matrix factorization  https://cseweb.ucsd.edu/~dasgupta/254-deep-ul/ronald.pdf 【 課題と展望 】 こうした到達点を踏まえて、今後の数学的展望を示したのが、このセクションです。 「重要なのは、enriched カテゴリー論の枠組みが、統語論から意味論がどのように生まれるかについての理解を深めることである。」その上で、 「意味論の構造を研究するために、線形代数にヒントを得た新しいツールを提供できる可能性がある。」と語ります。 前者の指摘については、前回

語の構造の抽出

【 これは、本当に意味だろうか? 】 前回のセッションでは、文字の並びのデータから、その背後にある構造を引き出すことができるという話をしました。ただ、文字の集積としてのコーパスから、文字のクラスターを抽出できることは、そんなに驚くべきことではないかもしれません。 それに、見出された子音、母音、および数字等というクラスターそれ自体に、意味があるわけではありません。もっとも、syntacticなものとsemanticなものという対比では、syntacticalなものは、もともと意味を持たないものと想定されています。 Tai−Danaeが、論文で「形式から内容へ」と言うとき、「形式」というのはもともと経験的に与えられる文字列データのことを指していて、「内容」とは、そこから生まれる意味のことをイメージしています。 基本的な問題は、それ自体は意味を持たないように思えるものから、意味の世界が生まれることです。別の言葉で言えば、それ自体は意味を持たない単なる記号の列から、どのように意味が生まれるのかという問題です。 今回は、単なる記号としての文字の並びではなく、語の並びを考えます。重要なことは、文字について言えることは、より高いレベルの言語単位 −− 今回の場合は、語なのですが  −− についても言えるということを、彼女は主張しています。 具体的には、次のようなことをしています。 British National Corpus から、1,000語の最頻単語として選びます。前回と同じように、このコーパスに含まれる単語𝑥の左に現れる語を𝑦_𝑙、右に現れる語を 𝑦_𝑟 として、その語の出現の経験的確率を使って、𝑋𝑌行列𝑀を作り、前回と同じ計算を繰り返します。 驚くべきことに、文字列データの解析が子音・母音・数字のクラスターの存在を発見したように、語列データの解析は、名詞・動詞・形容詞・副詞といったクラスターを発見します。 彼女は言います。 「10個の最大の特異値に対応する 𝑀の特異ベクトルは、名詞、動詞(過去と現在)、形容詞、副詞、場所、量詞、数字、国など、単語のあらゆる構文的・意味的特徴を捉えている。」 これは、意味なのでしょうか? 【 embedding は、空間の一点を表す 】 話は飛ぶのですが、現代のニューラル言語理論では、意味はembedding として多次

Tai-Danaeの言語思想 -- ニューラル言語モデル批判

【 2月は短いです -- 路線転換 】 2月は短いので、あまり多くのセッションを開くことができません。予告では、今回のセッションは、Lawvere についてウンチクを垂れようと思っていたのですが、考えが変わりました。 あと、この論文に対して、僕は、あまり高い評価をしていませんでした。それも、考えを変えました。老人が、若い人のいうことに、いろいろ茶々を入れてもしょうがないと思います。 今回は、あまり細かな数学的な議論に入らないで、彼女が伝えたいと考えていることをストレートに分かりやすく伝えたいと思います。それは、今回のセミナーの意味を明確にすることにつながると思います。 【 Tai-Danaeの言語思想 -- ニューラル言語モデル批判 】 このセッションでは、この論文の後半に集中して記述されている彼女の言語思想を、先に紹介しようと思います。それは、言語思想の大きな流れの中で、現在のニューラル言語モデルの批判を、意図したものです。 彼女の数学モデルは難しいところがあるのですが、今回まとめた彼女の言語についての考え方は、言語学に興味のある人には、とても分かりやすいものだと思います。 以下、主要に、彼女の論文からの引用です。 【 ニューラル言語モデルの成功 】 「ニューラル技術が言語に対するより原理的なアプローチよりも優れている点があるとすれば、それは経験的な言語データに対して驚くほど高い性能を発揮できることである。 今後、どのような形式言語モデルがくるにせよ、現実世界におけるその品質と妥当性を判断することが、決定的な意味を持つことは間違いない。」 彼女は、ニューラル言語モデルが、その性能において大きな成功を収めていることを認めています。 【 しかし、より広範で哲学的な疑問は残る 】 「考えてみれば、文字列としてのコーパスはsyntacticsそのものであるから、言語のsyntacticalな特徴をテキスト・コーパスから抽出できることは驚くべきことではないかもしれない。しかし、より広範で哲学的な疑問は残る。もしそうだとしたら、意味の重要な側面が純粋な形式から生まれるということはあり得るのだろうか?最近のLLMの進歩に伴い、この問題はますます重要になってきている。」 【 意味と形式は分離できない 】 「意味と形式は切り離せないという考え方は新しいものではないが、現在のAIをめ

現実の経験的データからの構造の抽出の試み

【 Tai-Danaiのニューラル言語学批判 】 前回のセッションでは、少し説明の順序を変えました。それはこの論文を通じて彼女が何を主張したかったのかを、あらかじめ明確にしておくほうが、論文の展開を追いやすいと考えたからです。 彼女は、この論文を通じて、現代の主流である「ニューラル言語学」に対して、言語理論と言語へのアプローチの数学的方法の両面で批判を試みています。 今回のセミナーの大事なポイントですので、改めて、彼女の主張を見ておきましょう。 【 言語の形式と意味をめぐって 】 彼女の主張は、次のように始まります。 「意味と形式は切り離せないという考え方は新しいものではないが、現在のAIをめぐる哲学的な議論には浸透していない。」 「厳密な哲学的見地から言えば、カントとヘーゲルの影響力のある著作は、形式と内容は排他的なものではないという原則に立っており、この考え方は、分析哲学の父であるフレーゲの思想の中核にも見出すことができる。」 「さらに重要なことに、形式と意味は独立していないという視点は、フェルディナン・ド・ソシュールの研究と、近代言語学の出現の動機となった構造主義革命によって、言語学の中心となった。」 彼女は、近代言語学の始まりとなった、ソシュールらの「構造主義言語学」の再評価を求めています。 なぜ、構造主義なのか? 彼女の次の指摘は、重要だと思います。 「そして、このような伝統が、特にその構造主義的バージョンにおいて私たちに語っているのは、構文対象の分析において意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということである。」 意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということであるという視点が、言語へのアプローチでは重要だといいます。 「しかし、現在のニューラル言語モデルが不十分なのは、まさにこの点である。 というのも、ニューラル言語モデルは、そのタスクを実行する際に必然的に働く構造的特徴を明らかにしていないからである。」 【 今回のセッションで彼女が明らかにしたこと 】 こうした視点から、今回のセッションで彼女が数学的な手法を通じて、あきらかにしようとしたことを見ていきましょう。 それは単純に見える文字列の並びにも、構造が隠れていることを、その構造を抽出する方法とともに示してみせた

Formal concept

【 展開は難しいのか易しいのか? 】 これまでの展開を振り返ってみましょう。 まず、語の意味の埋め込みは行列の分解として解釈できるという話をして、ついで、行列のカテゴリー論的拡大として profunctor を紹介してきました。 前回は、profunctor のnuclei を導入して、そのペアの構造を探るという方向を示して(それはSVD分割での singular ベクトルのペアの構成とパラレルなものでした)、次のように語ります。 「意味的類似性のような言語の特定の意味的側面については、ベクトル空間の構造が適しているが、ベクトル空間の構造を重ね合わせることで、他の意味を覆い隠してしまう可能性がある。」 「 Isbell adjunctionは、言語の他の構造的特徴を明らかにするのに役立つかもしれない、別の構造を提供する。」 【 Formal Concept Analysis のカテゴリー論的解釈は易しい 】 どんな展開が待ち構えているのか、ワクワクドキドキですが、彼女がまず議論の導入の舞台として選んだのは、"Formal Concept Analysis" でした。 確かに、提供されたカテゴリー論的解釈は、二つのオブジェクトからなるカテゴリー 2 = {0,1}でenrich化したものですが、このenrich化は以前に見た 単位区間 [0,1]上でのenrich化より、はるかに簡単なものです。それはオブジェクトXの部分集合を定義するという簡単な役割を持っているだけです。 そうして、XとYとの部分集合間の関数 R^* とR_* が定義されていくのですが、こうした構成は、enrichedカテゴリーを持ち出さなくても、十分、可能です。 行列のSVDでの singular ベクトルのペア、profunctor でのnucleiのペアの構成とパラレルに、ある条件を満たすペアとして Formal concept の数学的定義が与えられるのですが、こうした構成は、singularベクトルやnuclei に触れることなく、まったく初等的に定義できます。 【 Formal Concept Analysisは、意味の「Entity Model」の数学理論 】 Formal Concept Analysis は、数学者の関心を集めているようには見えません。ただ、com

Isbell adjunction

【 数学の宝石 】 このセクションのタイトルが「意味の空間から意味の構造へ 」になっていることに、少し違和感を感じたかたがいらっしゃるかもしれません。 「意味の空間は、embeddingされた語の意味のベクトル空間じゃないの?」 「それ以外に、意味の構造があるの?」 そうなんです。そこがこのセクションの問題提起なのです。答えを先に述べれば、「意味の空間」以外に「意味の構造」があるというのが、彼女の今の考え方なのです。 「今のところ、行列の特異ベクトルから得られる単語の埋め込みは、意味にベクトル空間の構造を重ねる方法として解釈する。」 「意味的類似性のような言語の特定の意味的側面については、ベクトル空間の構造が適しているが、ベクトル空間の構造を重ね合わせることで、他の意味を覆い隠してしまう可能性がある。」 せっかく分析した意味のベクトル空間だったのですが、それは、他の意味の構造を「覆い隠してしまう可能性がある」というのです。 それでは、どうすればいいのでしょうか? 彼女の提案は、意味の奥に隠れている構造を明らかにするために、今回のセッションのテーマである"Isbell adjunction"を使おうというものです。 「Isbell adjunctionは、言語の他の構造的特徴を明らかにするのに役立つかもしれない別の構造を提供する。」  具体的な展開は、この後のセクションに持ち越されます。 Isbell adjunction には、いろいろな名前を持っています。今回のセッションでも参考に紹介した John Baez は Isbell duality と呼んでいます。その他にも、Isbell adjoints, Isabell conjugate まだ他にもあるかと思います。 補足の資料で、Baezの説明を翻訳しました。素晴らしく明快なので、是非、お読みください。前回、前々回の「大規模言語モデルの数学的構造」で紹介した copresheaf, Yoneda embedding の復習に最適だと思います。 Isbell duality は、copresheaf とpresheaf が双対の概念であることを述べたものです。 資料の最後のページURL書くの忘れたのです https://ncatlab.org/nlab/show/Isbell+duality