ことばと意味の数学的構造 -- はじめに

【 ことばと意味の数学的構造 -- はじめに 】

人間とことばで対話することができるChatGPTの登場は、「ことばと意味」についての私たちの関心を改めて高めました。

ChatGPTを産み出した「大規模言語モデル」の成功は、意味を多次元のベクトルで表現する「意味の分散表現」技術の採用に多くをおっています。

AI技術の分野で、 「意味の分散表現論」がどのように生まれ、どのように発展してきたかを、理論と実装の二つの面から、振り返ってみた考察を、「意味の分散表現論の系譜 – 大規模言語モデルへ」にまとめました。ぜひ、ご利用ください。

小論は、 同時に公開したこの「意味の分散表現論の系譜 – 大規模言語モデルへ」とは異なる視点から、「ことばと意味」について、その背後に存在する数学的構造を探究しようとする研究を紹介したものです。

なぜなら、この 「ことばと意味」の形式的・数学的理論の分野でも、近年、目覚ましい研究の進展が見られるからです。

ここでもその関心は、「意味の分散表現」に置かれています。「意味の分散表現」の担い手を多次元ベクトルから密度行列に置き換えるという研究の中で、「ことばと意味」の理論の量子論との一致が発見されています。これは驚くべきことです。また、自然言語処理を量子コンピュータ上で行おうという実験が始まっています。

残念ながら、今回のセミナーでは、こうした新しい研究の進展(Part 4) については詳しく述べることはできませんでした。改めて別のセミナーで紹介したいと考えています。

今回のセミナーの中心は、AIの分野での「意味の分散表現論」とは異なる、いわば「もう一つの意味の表現論」の出発点となった、Bob Coecke, Tai-Danae Bradley らの、「カテゴリー論的構成的分散意味論」 DisCoCat 理論です。

「カテゴリー論的構成的分散意味論」を扱ったPart 3 では、オリジナルのCoeckeの展開と、それを紹介したTai-Danaeの議論の二つを紹介しました。内容は重複しますが、二人のアプローチを知ることは、DiCoCatの理解に役立つと思います。

ことばと意味への関心は、なにも最新の大規模言語モデルによってはじめて生まれたわけではありません。

意味の数学的理論の基礎には、LawvereのFunctorial Semantics があり(Part 1)、ことばの構成性の理論の基礎には、Chomsky - Lambekの文法の形式化・数学化の取り組みがあります(Part 2)。最新の「意味の分散表現論」は、1950-60年代に起源を持つこれらの理論によって支えられています。

最後に、Coeckeが、現在(2022-2023年) Oxfordで学生に教えている講義のシラバスを紹介しておきます。若い人が(若い人に限りませんが)、今、何を学ぶべきか、ぜひ、参考にしてもらえればと思います。

-------------------------------------

「 ことばと意味の数学的構造 -- はじめに 」を公開しました。
https://youtu.be/eYZ-pXbK0kw?list=PLQIrJ0f9gMcMpryyqVYL-T8Z4zQ-ejvpF

資料pdf
https://drive.google.com/file/d/1NLgFKwuz8SOqmBI6MP7Gq76NS5WcQ1xp/view?usp=sharing

blog:「ことばと意味の数学的構造 -- はじめに 」
https://maruyama097.blogspot.com/2023/04/blog-post_27.html

「ことばと意味の数学的構造」まとめページ
https://www.marulabo.net/docs/math-structure/

「ことばと意味の数学的構造」セミナー申し込みページ

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について