第1部 「意味の分散表現論の系譜」の概要

【 研究では、問題の立て方が重要であること 】

今回のセミナー「ことばと意味の数学的構造」の第1部「意味の分散表現論の系譜」では、「意味の分散表現論」がどのように生まれ、どのように発展してきたかを、実装と理論の二つの面から、振り返ってみたいと思います。

第1部「意味の分散表現論の系譜」は、次のような構成を考えています。

 1. Bengioの「次元の呪い」からSentence to Sentence まで
 2. Google機械翻訳からBERT Transformer まで
 3. DisCoCat の登場 – ことばと意味の「構成性」
 4. DisCoCat の変化 – Coecke と Tai-Danae

1-1章と1-2章は、「意味の分散表現」にフォーカスして、大規模言語モデルにいたる実装レベルでの興味深い取り組みを、コンパクトに紹介したものです。

この章の内容は、2023年1月に行ったマルレク「AIは意味をどのように扱っているのか? -- ChatGPT の不思議」を短くまとめたものです。 https://www.marulabo.net/docs/meaning/

1-3章の「DisCoCat の登場 – ことばと意味の「構成性」」は、実践的な第1章とは少し違った切り口、理論的な面から「意味の分散表現」論にアプローチしたものです。

ここで取り上げたDisCoCatの最大の貢献は、ことばと意味の「構成性」の問題に、あらためて焦点をあて、さらにカテゴリー論的アプローチを言語理解に取り入れたことにあります。

この章の内容は、2022年12月のマルレク「ことばと意味の「構成性」について」を短くまとめたものです。 https://www.marulabo.net/docs/discocat/ 

1-4章の「DisCoCat の変化 – Coecke と Tai-Danae」は、2010年の論文発表以来の、「カテゴリー論的構成的分散意味論」 Distributional Compositional Categorical Semantics の変化を、量子論的アプローチをとるBob Coecke と数学的アプローチを取るTai-Danae Bradley の立場の違いにフォーカスしてまとめたものです。

この章は、今回のセミナー全体、第2部、第3部への導入になっています。

 【 なぜ、Tai-Danaeの議論に注目するのか 】

今回のセミナーは、基本的には、Tai-Danae Bradleyの2021年11月の次の論文の紹介を目指したものです。

 Language Modeling with Reduced Densities

この論文の数学的基礎については、2023年2月のマルレク 「密度行列 ρ で理解する確率の世界」がその解説になっています。https://www.marulabo.net/docs/density2/ 

なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか?この論文の冒頭で、彼女はこう言っています。

「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」

彼女の関心は、現在の「大規模言語モデル」の「印象的」な成功に向けられています。彼女はそれがDisCoCatモデルとは少し異なる言語モデルであることも知っています。その上で、その背後にあるものを探り出そうとしているのです。

 【 Tai-Danaeの問題の立て方 】

僕にとって印象的だったのは、彼女が次々と問題を立てることでした。答えの前には、もちろん、問題があります。ただ、答えを見つける条件が成熟するというのは、正しく問題をたてることができるということです。

 ○ 自然言語における表現の意味をとらえる数学的構造は何か?
 ○ この構造は、テキスト・コーパスを用いてどの程度まで十分に検出できるのか?
 ○ 抽象的な概念とその相互関係を自然に掘りだす方法はあるのか?
 ○ 論理と命題の連関はどのようにして生まれるのか?

こうして、彼女は、次の二つが基本的な問題だとします。 

 ● どのような数学的構造が、構造化されていないテキストデータには存在するのか?
 ● どのようにして、テキストの情報は、カテゴリー構造を維持したまま保存され、モデル化することができるのか。

先の論文は、この問題に対する彼女の答えを述べたものです。

彼女の答えは数学的に表現されたものなのですが、すくなくとも彼女の「問題意識」は、わかりやすいものだと思います。

-------------------------------------

「 第1部 「意味の分散表現論の系譜」の概要 」を公開しました。
https://youtu.be/1T5vJUUPwxI?list=PLQIrJ0f9gMcMpryyqVYL-T8Z4zQ-ejvpF

資料pdf
https://drive.google.com/file/d/1EL1n3OnOZpuRbh1JhjUJTk-DV2cMuPeJ/view?usp=sharing

blog:「研究では、問題の立て方が重要であること」
https://maruyama097.blogspot.com/2023/04/1.html

「ことばと意味の数学的構造」まとめページ
https://www.marulabo.net/docs/math-structure/

「ことばと意味の数学的構造」セミナー申し込みページ

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について