Tai-Danaeの reduced densityとenriched category
【 探究は続く 】 今回のセミナーでは、Tai-Danae Bradleyの次の論文の紹介する予定でした。 Language Modeling with Reduced Densities https://arxiv.org/abs/2007.03834v4 ただ、今回は他の部分が膨らんで、また、準備に十分な時間が取れず断念しました。すみません。 この Tai-Danaeの論文の数学的基礎の reduced density については、2023年2月のマルレク「密度行列 ρ で理解する確率の世界」がその解説になっています。先日、講演資料と講演ビデオを公開したので、そちらを参照ください。 https://www.marulabo.net/docs/density2/ セミナーの構成を変更して、「意味の分散表現論の系譜 – 大規模言語モデルへ」の部分を切り離したので、そちらに含まれていたTai-Danae の新しいアプローチを紹介していた部分を、改めて今回のセミナーの一部として再掲したいと思います。 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? この論文の冒頭で、彼女はこう言っています。 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、現在の「大規模言語モデル」の「印象的」な成功に向けられています。彼女はそれがDisCoCatモデルとは少し異なる言語モデルであることも知っています。その上で、その背後にあるものを探り出そうとしているのです。 僕にとって印象的だったのは、彼女が次々と問題を立てることでした。答えの前には、もちろん、問題があります。ただ、答えを見つける条件が成熟するというのは、正しく問題をたてることができるということです。 ⚫️ 自然言語における表現の意味をとらえる数学的構造は何か? ⚫️ この構造は、テキスト・コーパスを用いてどの程度まで十分に検出できるのか? ⚫️ 抽象的な概念とその相互関係を自然に掘りだす方法はあるのか? ⚫️ 論理と命題の連関はどのようにして生まれるのか? こうして、彼女は、次の二つ