マルレク 「意味の分散表現とニューラルネットワークの数理」 へのお誘い
【 マルレク「意味の分散表現とニューラルネットワークの数理」へのお誘い 】
今度のマルレクのテーマは、「意味の分散表現とニューラルネットワークの数理」です。
前回のセミナーを簡単に振り返りながら、それとの関連を述べてみたいと思います。
【 前回のセミナーの振り返り 】
前回のマルレク「大規模言語モデルの数学的構造」は、大規模言語モデルという巨大な対象が、どのように意味の世界を内部に構築するのかという問題に、「copresheaf 意味論」というカテゴリー論的数学モデルを与えて答えようとしたものです。
そこでは、学習時に入力に与えられる表現の「継続」の確率分布をモデルが学ぶことを言語のカテゴリーの特徴づけに生かそうとします。
以前の言語のカテゴリー L は、表現の「継続」関係を忠実に表現する単なるpreorder のカテゴリーでした。そこでの射 𝑓 : 𝑥 → 𝑦 ∈ 𝐿(𝑥,𝑦) は、単に真か偽の値しか取らない関数でしたが、これを単位区間[0.1]に値を取る確率値を取るようにしたいと言うことです。
そこで用いられたのが、あるカテゴリーCの射を(Cのオブジェクトはそのままで、Cの射だけを)、他のカテゴリーVに置き換えるという手法です。これを、CのカテゴリーV上のenrich化といいます。
この手法によって、もとのpreorder カテゴリーとしての言語のカテゴリーは、[0,1]カテゴリーによってenrich化され、オブジェクト間の射は確率値を取るように拡張されたのです。それが、Syntax カテゴリーです。
【 言語のカテゴリーLと意味のカテゴリー copresheaf 𝑆𝑒𝑡^𝐿 】
前回のセミナーの一番重要な主張は、言語のカテゴリーLが与えられた時、それに対応する意味のカテゴリーは、Lから集合のカテゴリーSetへのfunctor からなる、functor カテゴリー 𝑆𝑒𝑡^𝐿 とみなすことができるという主張です。𝑆𝑒𝑡^𝐿を、L上のcopresheaf と呼びます。
簡単に言うと、Lのオブジェクトx (それは、xが言語Lのある表現だと言うことです)が与えられた時、L(x,y)の形のすべての関数の集合を考えて(それは、xの継続でありうるすべてのyについてL(x,y)なる関数すべてを考えることです)、それを次のように表し、それを表現xの「意味」と考えようと言うことです。 𝐿(𝑥,−)
こうした意味の解釈は、Firthの 「我々は、ある語を、それが引きつれている仲間たちによって知ることになる」 という解釈の拡大版だと考えることができます。
【 前回のセミナーで示したこと】
copresheaf意味論は、非常に魅力的なビジョンなのですが、問題は、言語のカテゴリーLが、[0,1]上でenrich化された時(それをL’としましょう)、それに対応した[0,1]上でenrich化されたcopresheafがうまく構成できるかと言うことです。
前回のセミナーが示したことは、preorder版のL上の copresheaf 𝑆𝑒𝑡^𝐿から、[0,1]上でenrich化されたL’上のcopresheaf [0,1]^L' (このカテゴリーを言語のSemanticと呼んでいます)への移行が可能だと言うことです。
enrich化されたカテゴリーを用いると、大規模言語モデルの振る舞いに近い形で、SyntaxからSemantic への移行をモデル化できる。前回のセミナーのカテゴリー論的な関心の中心が、enrich化の手法にあったのは、そのためです。
ただ、前回の到達点では、次のことに注意が必要です。
それは、現在稼働している大規模言語モデルでは、事実上は所与として与えられている embedding = 「意味の分散表現」のモデル内での具体的な生成過程にフォーカスしたものではないと言うことです。
【 今回のセミナーの課題 】
今回のセミナーも、前回に引き続き、Tai-Danae Bradleyらの、次の論文の紹介を行います。
“The structure of meaning in language: parallel narratives in linear algebra and category theory”
https://www.ams.org/journals/notices/202402/rnoti-p174.pdf
https://www.ams.org/journals/notices/202402/rnoti-p174.pdf
特に、この論文の”Embeddings in Natural Language Processing” のセクションを中心に紹介しようと思います。
この論文の素晴らしいところは、ニューラルネット(DNN)が、実際の言語使用の場面で極めて有益な、低い次元での意味の分散表現を「近似的に」生み出すメカニズムに迫っているところです。
それは、次のように語られています。
「この論文は、関連するカテゴリー論との驚くべきな並行性を準備することになる線形代数のかなりぺダンティックなレビューから始まる。 その後、線形代数を用いて、大規模言語モモデルの根底にある単語の埋め込みを理解する方法を検討する。」
注目すべきことは、前回の論文が、SyntaxからSemanticへの移行という、いわばマクロな視点から大規模言語モデルの働きを説明しようとしていたのに対して、今回の論文は、それらの働きのいわばミクロな基礎である単語の埋め込みに関心を向けていることです。
しかも、そうした embedding=「意味の分散表現」は、巨大な大規模言語モデルの登場によって初めて可能になったものではなく、われわれにとって身近なニューラル・ネットワークそのものの働きによって基礎付けられるうることが、強く示唆されています。
それは、どこにでもあるニューラル・ネットワークの働きに、新しい光を当てるものです。
もっとも、前回の論文では、SyntaxからSemanticへの移行のモデルを、実際に構築してみせたのですが、今回の論文は、「意味の構造」を解明する上で、どのようなアプローチが可能かを、いろいろな角度から検討してみたものです。
【 Tai-Danaeの道具箱】
扱っている対象は、ディープ・ラーニング発祥の地とも言うべきDNN(ディープ・ニューラル・ネットワーク)や、Word2Vec以来の単語の埋め込み、あるいは線形代数でのSVD分解といったよく知られたものなのですが、それを扱うTai-Danaeの手法は華麗なものです。そのいくつかを、まずは名前だけですがあげておきます。
⚫️ Tropical Algebra
⚫️ Formal Concept Analysis
⚫️ Pro Functor
⚫️ Isbell Adjunction
これらのコンセプト、セミナーで説明できたらと思っています。
--------------------------------
ショートムービー「 マルレク「意味の分散表現とニューラルネットワークの数理」へのお誘い」を公開しました。
https://youtu.be/YzPylUyzrJo?list=PLQIrJ0f9gMcOJYKeUN_8q2K-yxtTfbIoB
「 マルレク「意味の分散表現とニューラルネットワークの数理」へのお誘い 」のpdf資料https://drive.google.com/file/d/12ub9tEUPDNBB1eEzLNH_z4AngbW1tnaV/view?usp=sharing
blog 「 マルレク「意味の分散表現とニューラルネットワークの数理」へのお誘い」
https://maruyama097.blogspot.com/2024/02/blog-post.html
「意味の分散表現とニューラルネットワークの数理」まとめページ
https://www.marulabo.net/docs/embedding-dnn/
https://www.marulabo.net/docs/embedding-dnn/
ショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcOJYKeUN_8q2K-yxtTfbIoB
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcOJYKeUN_8q2K-yxtTfbIoB
コメント
コメントを投稿