投稿

大規模言語モデルの特徴と Tai-Danaeの問題意識

 【 なぜ、Tai-Danaeの議論に注目するのか 】 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? 今回のセミナーで取り上げる論文に一つ先行する論文の冒頭で、彼女はこう言っています。( "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4   )  「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 【 大規模言語モデルが行なっていること -- 彼女は何に強い印象を受けたのか? 】 ここでは、彼女が大規模言語モデルのどんな性能に印象を受けたのかをみておきましょう。 大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」  確かにそう言われています。ただ、それだけでしょうか? 彼女は続けます。 「直感的に言えば、物語を続ける能力は、非常に高度なことを意味している。   文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。  可能な継続の確率分布を効果的に学習する言語モデルは、明らかに意味的知識も学習しているはずだ。  物語の続きが合理的で内部的に一貫しているためには、世界に関する知識が必要である。内部的に一貫しているためには、犬とは吠える動物であり、ゴルフは日中屋外でプレーするものである、火曜日は月曜日の翌日である、などといった世界の知識が必要である。」 この驚きの感覚に、僕は共感します。 【 より驚くべき大規模言語モデルの能力 】 問題は、それだけではありません。  「驚くべきは、これらのLLMが、ラベルのないテキストサンプルを使って、

構成的分散意味論の展開 -- DisCoCat

 【 DisCoCat の登場 】 前回、「論理的形式」と「文脈的使用」という意味の定義の二者択一を超えるものとして、Coeckeらの「 DisCoCat = 構成的分散意味論 」が、生まれるという話をしました。 この野心的な試みを、理論的に支えたのはCategory論でした。DisCoCatは、"Distributional Compositional Categorial Semantics" の省略で、「カテゴリー論的構成的分散意味論」という意味です。確かに英語でも日本語でも長い名前ですね。 今回のセッションは、この「 DisCoCat = 構成的分散意味論 」を紹介しようと思います。 改めて、構成的分散意味論の問題意識を確認しましょう。   語から構成される「文の構成性=Syntax(=文法)」と、   語の意味から構成される「文の意味=Semantics」を、   対応づける。 では、どのようにしてこのSyntaxとSemanticsの対応ができるようになるのでしょう。 そこに登場するのがカテゴリー論です。 現代のカテゴリー論の始祖の一人といっていい L.W.ローヴェールは、次のような重要な定理を発見します。   二つのカテゴリーCとDの間に、Functor Fが存在する時、   Functor Fは、「理論」Cの「表現」Dを与える。   このCとDの関係は、「理論」とその「解釈」である   「モデル」の関係とみなすことができる。   別の言い方をすると、カテゴリー Cからカテゴリー Dへの   Functorは、「理論」Cの「意味」を与える。 こうした「意味」へのFunctorを用いた数学的アプローチは、「ファンクター意味論 = Functorial Semantics 」と呼ばれています。 Coeckeたちの構成的分散意味論の中心的アイデアは、自然言語の意味理解に、このカテゴリー論の Functorial Semantics を利用しようということです。これは卓見だったと思います。 言語の文法を数学的カテゴリーSyntax として捉え返し、言語の意味をベクトル空間に値を取る数学的カテゴリーSemantics として捉え返せば、カテゴリーSyntaxからカテゴリーSemanticsへのFunctor Fが、言語の意味を与えることになる

構成的分散意味論の展開 -- Quntum NLP

 【 Coecke のQNLP 】 構成的分散意味論は、現在、多様な展開を見せています。 このセッションでは、DisCoCatの創始者Bob Coeckeが、現在どのような研究を行っているのかを見てみようと思います。 彼は、DisCoCat の枠組みを、ことばの意味を量子状態として捉える方向で発展させ、QNLP 量子論的自然言語処理 Quantum Natural Language Processing の理論を展開しています。 「意味と構造を結合するために量子的なモデルが必要であるという事実は、QNLPが量子系のシミュレーションと同じように、量子ネイティブであることを立証している。さらに、量子ハードウェア上で古典データをエンコードするための、現在主流のノイズの下での中規模量子(NISQ)パラダイムのさまざまな量子回路は、NISQを特別にQNLPに適したものにしている。言語構造は、明らかに指数関数的に高い計算コストを必要とするな古典な文法のエンコーディングとは対照的に、ほとんどただでエンコードすることができる。」 基本的なアイデアは、複数の語の意味は、複数のqubit(量子ビット)の状態で表現されるというものです。 hat(帽子)のような名詞 の意味は、1-qubitの状態 状態 |𝜓_ℎ𝑎𝑡> ∈ ℂ^2で表現されることになります。 black hatというフレーズで、black という形容詞の果たしている役割は、hat という状態を入力として受け取り、それをblack hat という状態に変換し出力する写像として解釈できます。同時に、black という形容詞は、ある変形を適用すると、二つのqubitの状態としても解釈できます。 Alice hates Bob という文で、hates という動詞の果たしている役割は、AliceとBobの状態を入力として受け取り、それを Alice hates Bobという状態に変換し出力する写像として解釈できます。同時に、hates という動詞は、ある変形を適用すると、三つの量子状態からなる状態としても解釈できます。 実は、Coecke のQNLPで興味深いのは、上の説明で「ある変形を適用すると」の部分なのです。彼は、図形たちを "cup", "cap" という線で結んでいきます。これ

語の意味をどう捉えるか -- 分散意味論の系譜

【 分散意味論の系譜 】 このセッションでは、分散意味論の系譜を簡単に振り返ってみようと思います。 意味の分散表現論の起源の一つは、「ある語の意味は、ある言語におけるその使用である」というヴィトゲンシュタインの「意味=使用」説だと言われています。 チューリングは、この説が気に入らなかったようで、「「機械」や「考える」という言葉の使い方をいくら調べた所で「機械は考える事ができるか」という問の意味も答えも明らかになるわけではない。それとも、「ギャラップの世論調査の様な 統計的研究」が必要という事になるのだろうか。」と痛烈な皮肉を言っています。 言語学では、イギリスの言語学者ファースが「状況の文脈」という概念で、意味の文脈依存的な性質に注目します。次のような言葉が有名です。  “You shall know a word by the company it keeps” 「我々は、ある語を、それが引きつれている仲間たちによって知ることになる。」 Tai-Danae もこの言葉をよく引用します。 分散意味論は、フレームワークとして線形代数を使うようになります。基本的なアプローチは、分散情報を高次元ベクトルで表現し、意味の類似性をベクトルの類似性 cosine similarityで定義します。 こうした動きは、統計的言語モデルからニューラルネットワーク上での言語モデル構築へと進んでいきます。 Bengioの”A Neural Probabilistic Language Model”や、Deep Learningの世界では有名なMikalovのWord2Vecも、こうした流れの中で生まれたものです。 もう少し目を広げると、言語モデルには、文の意味は文中の単語の関係から導かれるというフレーゲの原理(構成性の原理)を中心とする数理論理学の考えに基づく、論理的なアプローチと、単語の意味はその文脈から決定することができるという確率論的アプローチの二つのタイプがあることがわかります。 問題は、「理論面では論理モデルが王者であったが、実践面では確率論的なライバルが最良の予測を提供してきた。」というところにありました。 そうした中で、「論理的形式」と「文脈的使用」という意味の定義特性の二者択一を超えるものとして、「意味の基礎構造とは何か」という問いを正面に掲げて、Coeckeら「構成的分

大規模言語モデルの数学的構造

 【 セミナー「大規模言語モデルの数学的構造」へのお誘い 】 次回のセミナー「大規模言語モデルの数学的構造」へのお誘いです。 このセッションでは、 まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。 【 大規模言語モデルの働きがよくわからない 】 第一の理由は、個人的なものですが、単純なものです。 それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。 意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。 ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。 【 大規模言語モデルの振る舞いには理由がある 】 今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。 AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。 今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。 【 「根拠」は数学的に表現される 】 今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。 それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。 そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。 【 カテゴリ

マーク・トウェインのChaGPT評

 【 マーク・トウェインのChaGPT評 】 Facebookで友人がこういうマーク・トウェインの警句を投稿しているの見つけました。https://www.facebook.com/kawaguchi.tatsuo/posts/7006017286115864 これ面白いですね。まるでChatGPTのことを言っているみたい。 出典を知りたくて、「万華鏡」に注目して "kaleidoscope Mark Twain"でググってみたら、原文はすぐに見つかりました。 “There is no such thing as a new idea. It is impossible. We simply take a lot of old ideas and put them into a sort of mental kaleidoscope. We give them a turn and they make new and curious combinations. We keep on turning and making new combinations indefinitely; but they are the same old pieces of colored glass that have been in use through all the ages.” Mark Twain's Own Autobiographyからの引用だというので、Wikiで"Autobiography of Mark Twain" 調べたら、External Linkに "THE AUTOBIOGRAPHY OF MARK TWAIN"を見つけました。全文、epubで公開されていました。https://standardebooks.org/ebooks/mark-twain/the-autobiography-of-mark-twain ところが、問題が。 いくら探しても、この文章が見つからないのです。 改めて、出典を確かめたら、"Mark Twain's Own Autobiography: The Chapters from the North American Review" と

セミナーのタイトルを変更しました

【 セミナーのタイトルを「大規模言語モデルの数学的構造」に変更しました 】 ごめんなさい。セミナーのタイトルを変更しました。この数日で3回目の変更です。 最初は確か「意味の分散表現論とエントロピー(予定)」でした。 ここ、今個人的には一番興味を持っているところなのですが、セミナーの2時間で分散表現論とエントロピーの二つを扱うのは難しいだろうと思い直しました。 正直いうと、自分の考えがまとまっていないのが大きいのかも。 シャノンの「情報量」を定義する基本的なモデルとなったコミュニケーションのモデルは、Encoder / Decoder として解釈できるし、Deep Learning のActivatorのひとつのSoftMax 関数は (多分、いまならHeadというのが妥当かも)、ギブスの分配関数と同じものだし、全ての確率分布はエントロピーと同じものです。ただ、いろいろよくわからないところがある。もう少し、考えます。 二つ目は、「大規模言語モデルと意味の分散表現の数学」でした。 ただ、これは長すぎると思いました。 それに、大規模言語モデルを扱うなら意味の分散表現を扱うのは必須ですが、意味の分散表現の数学は、なにも大規模言語モデルに限った話ではありません。ことばの意味の分散表現論でもCoeckeたちのDisCoCatは、量子論の影響のもと大規模言語モデルとは独立に発展してきたものだし、ベクトルではなく密度行列を使う分散表現論は、独自の射程と面白さを持っています。 それで、三つ目の「大規模言語モデルの数学的構造」に。 もともと、Ta-Danae Bradleyの現在のアプローチを紹介しようと思っていたので、それには、このタイトルの方がいいようにも思います。 ただ、名前を変えるごとに問題意識は、シュリンクしています。 C'est la vie !