大規模言語モデルの特徴と Tai-Danaeの問題意識
【 なぜ、Tai-Danaeの議論に注目するのか】 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? 今回のセミナーで取り上げる論文に一つ先行する論文の冒頭で、彼女はこう言っています。( "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4 ) 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 【 大規模言語モデルが行なっていること -- 彼女は何に強い印象を受けたのか? 】 ここでは、彼女が大規模言語モデルのどんな性能に印象を受けたのかをみておきましょう。 大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」 確かにそう言われています。ただ、それだけでしょうか? 彼女は続けます。 「直感的に言えば、物語を続ける能力は、非常に高度なことを意味している。 文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。 可能な継続の確率分布を効果的に学習する言語モデルは、明らかに意味的知識も学習しているはずだ。 物語の続きが合理的で内部的に一貫しているためには、世界に関する知識が必要である。内部的に一貫しているためには、犬とは吠える動物であり、ゴルフは日中屋外でプレーするものである、火曜日は月曜日の翌日である、などといった世界の知識が必要である。」 この驚きの感覚に、僕は共感します。 【 より驚くべき大規模言語モデルの能力】 問題は、それだけではありません。 「驚くべきは、これらのLLMが、ラベルのないテキストサンプルを使って、