投稿

11月, 2023の投稿を表示しています

GPTをAI Assistantアプリに カスタマイズする API編

 【 AI利用のインターフェースを 劇的に変えるAI Assistant アプリ API編 】 このセッションでは、前回紹介したAI利用のインターフェースを 劇的に変えるAI Assistant アプリ をどのように開発するのかを、Assistant APIのレベルで、少し詳しく紹介しようと思います。 はじめにAssistant APIの基本を、改めて確認します。 その後で、OpenAIが公開している、Assistants playgroundでのコードを見ていきたいと思います。 最後に、Assistantの内部で利用できる三つのツールを確認します。 Assistants playgroundサンプルコードは、次のような構成をしています。  Step 1: Assistantを生成する  Step 2: Threadを生成する  Step 3: ThreadにMessageを追加する  Step 4: Assistantを走らせる  Step 5: Runのstatusをチェックする  Step 6: AssistantのResponseを表示する  サンプルの出力例 Toolsの説明は次のような構成です。  Code Interpreter   Code Interpreterを有効にする   Code Interpreterにファイルを渡す  Knowledge Retrieval   Retrievalを有効にする   Retrieval は、どう働くか?   Retrieval用のファイルをアップロードする  関数呼び出し   関数を定義する   Assistantから呼ばれた関数を読み込む   関数の出力をサブミットする このセッションは、あまりビデオでの短い講義には向いていません。是非、公開しているpdfファイルをゆっくりお読みください。 -------------------------------- ショートムービー「 GPTをAI Assistantアプリに カスタマイズする API編」を公開しました。 https://youtu.be/R9IPc17r6Po?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm 「 GPTをAI Assistantアプリに カスタマイズする API編」のpdf資料 https...

GPTをAI Assistantアプリに カスタマイズする

 【 AI利用のインターフェースを 劇的に変えるAI Assistant アプリ 】 このセッションでは、OpenAi DevDayで発表された、GPTの能力をユーザーが開発したアプリの上で自由に生かすことを可能にするAssistant APIの概要を見ていきます。 また次回以降のセッションでは、OpenAIが同時に開発を進めていたAIのマルチモーダル化の成果を、今や、AI Assistant アプリの形で、ユーザーが利用できることを紹介したいと思います。 これまで、ChatGPTの利用のスタイルは、OpenAIのサイトにログインして直接ChatGPTと向き合って対話を続けること、具体的にはキーボードとスクリーンを通じてChatGPTとテキストを交換するのが基本でした。このスタイルが大きく変わろうとしています。 ユーザは、場合によればそのアプリの背後にAIがいることを全く意識せずに、普通のスマートフォンアプリと同じように画面タッチでボタンを押したり、スワイプしたりすればいいのです。僕が一番気に入っているインターフェースは、アプリに声で話しかけ、アプリが声で答えるというものです。 重要なことは、こうしたアプリを、OpenAIだけでなく開発者なら誰でも作成できるということです。OpenAIは、こうしたアプリの開発・流通を促進するためのマーケットを用意しています。 AI Assistant アプリ(これを、OpenAIはGPTsと呼んでいるようですが、ChatBotといういいかたもよく使われているようです)の登場は、一般のユーザーとAIとの距離をとても身近なものに劇的に変えるだけではありません。 それは、IT技術者・開発者とAIの距離を大きく変えるものです。 IT技術は・開発者は、これまで 、github copilot等を利用して、主要に開発支援ツールとしてAIを利用してきました。これからは、AIに支援された強力な独自のアプリを、自分の手で開発し、それを多数のユーザーが待つ市場に送り出すことができるのです。 このセミナーの前半では、人工知能技術の転換点を、翻訳モデル、大規模言語モデル、ChatGPTの三つに見てきたのですが、マルチモーダル化したAI Assistant アプリの登場が第四のマイルストーンになるのは確実だと、僕は考えています。 【 Assistan...

Google Vision Transformer

【 画像処理でのGoogleとOpenAIのアプローチの違い 】 現在の人工知能技術の技術的な焦点の一つは、「Multimodalな人工知能」 の実現にあります。このセッションでは、大規模言語の上に Multimodalな人工知能を実現しようとする動きを紹介しようとおもいます。 マルチモーダルな人工知能とは、現在のテキスト中心の人間と人工知能のインターフェースを大きく変える「見ることも聞くことも話すこともできる」インターフェースを備えた人工知能のことです。 ただ、AIが「聞くこと話すこと」と比べて、AIが「見ること」を実現するのは技術的には様ざまな難しさがあります。ですから、マルチモーダルなAIを目指す技術の大きな関心は、AIが「見ること」の実現にむけられていると僕は考えています。 【 Vision Transformer とは何か? 】 大規模言語モデルがMulti-Modal なAI に展開して上で、大きな役割を果たしたシステムがあります。それが、2021年に Google が発表した Vision Transformer です。 自然言語処理の世界では、Transformerベースの大規模言語モデルが大きな成功を収めていたのですが、画像情報処理の世界では、近年に至るまで CNN ( Convolution Neural Network )が主流でした。 それに対して、GoogleのVision Transformer は、大規模な画像情報処理の世界でも、CNNを全く利用せずに、Transformer だけで最先端のCNNのシステムを上回る性能を発揮できることを示しました。 このことは、Transformerをエンジンとする一つのシステムで、自然言語処理と画像処理のタイプの異なる二つの処理が同時に可能になることを意味しています。 Vision Transformer が、Multi-ModalなAIへの突破口となったというのは、そういうことです。 【 Vision Transformer のアーキテクチャー 】 Vision Transformerが自然言語だけではなく、画像も処理できるのは、次のような手法を用いているからです。 「元の画像を小さな画像パッチに分割し、これらのパッチの線形なembeddingのシーケンスをTransformerへの入力として提供...

AIの危険性の認識とModel Refusalという手法

【 Interlude -- AIと人間の関係を考える 】 これまで、ChatGPTの成功に至るまでの大規模言語モデルの成立とその発展を、主要には技術的な関心から振り返ってきました。それは過去の歴史の話です。 後半では「マルチモーダル化」と「カスタム化」という二つのトピックスにフォーカスして、ChatGPTがどのように変わっていくのかということを考えたいのですが、そこでも具体的には技術的な話が中心になります。それはAI技術の現在の話になるでしょう。 AIの未来を考えようとすると、それを単なる技術予測として語るのは適切なものではないと思います。AI技術が人間と社会の未来に大きな影響を与えるだろうと考えるならなおさらのことです。それは技術だけの問題ではないからです。 興味深いのは、技術の側から見ても「単なる技術」というくくりはAIの「技術的予測」にとっても狭いものかもしれないと思えることです。 もしも、ChatGPTの成功の要因のひとつが、「人間のフィードバックからの強化学習」という「技術」の採用にあるのなら、それは、現在のAI技術は人間の介在を必要としていると考えることもできるはずです。そして、それは正しい認識だと僕は考えています。 【 AIの安全性をめぐって -- OpenAI の隠れた優位性 】 AIの安全性をめぐる議論は、まさに、AIと人間の接点の問題です。 この問題は、AI技術が社会的に受け入れられ、AIビジネスが経済的に成功するためにも、今以上に重要な課題になっていくと思います。AI開発の競争の焦点は、言語モデルの規模の大きさから、AIシステムの安全性に移っていくと思います。 AIの安全性をめぐる議論は、AIの危険性をめぐる議論に他なりません。 AIを安全なものにするためには、その危険性を知らないといけないはずです。 OpenAIについて、我々はその技術的優位性に目が行きがちなのですが、これらのAIを安全なものにする取り組みで、OpenAIが、圧倒的に進んでいることは注目に値します。 【 OpenAIの安全性への取り組み 】 OpenAIは、訓練用データから性的コンテンツを人手で除去し、不適切な回答を人間がチェックする安全に関連するRLHFトレーニングプロンプトの見直しを進めています。 また、社外の多数の専門家とも連携して、危険性の徹底的な洗い出しを行なって...

TransformerとBERT

 【 大規模言語モデルの基礎 】 このセッションでは、現在の大規模言語モデルの基礎となっている二つのアーキテクチャーを紹介します。 一つは、2017年にGoogleが発表したアーキテクチャー Transformerです。 もう一つは、2019年に Google が発表した「言語表現モデル」BERTです。 次回のセッションで紹介するChatGPTは、もちろんOpenAIのプロダクトですが、この時期のAI技術は、主要にGoogleによって推進されてきたことに留意ください。 【 TransformerとGoogleニューラル機械翻訳 】 Transformerは、GoogleのBERTやOpenAIのGPTといった現代の大規模言語モデルほとんど全ての基礎になっています。BERTの最後の文字 'T' も、GPTの'T'も"Transformer" アーキテクチャーを採用していることを表しています。 まず最初に確認したいのは、見かけはずいぶん違って見えますが、Transformer アーキテクチャーは、大きな成功を収めた2016年のGoogle ニューラル機械翻訳のアーキテクチャーから多くを学んでいるということです。 ポイントをあげれば、Encode-Decoder アーキテクチャーの採用、EncoderとDecoderの分離、両者をつなぐAttention Mechanismの採用、等々。 こうした、Google ニューラル機械翻訳のアーキテクチャーの特徴は、そのまま、Transformerのアーキテクチャーに引き継がれています。 それらの特徴の中で、Attentionこそが一番重要なのだというのが、Transformerの提案者の分析なのだと思います。 【 Attention Is All You Need 】 Transfomer を提案した 2017年のVaswani らの論文は、"Attention Is All You Need" と名付けられていました。 「現在優勢なシーケンス変換モデルは、エンコーダーとデコーダーを含む、複雑なリカレントまたはコンボリューション・ニューラルネットワークに基づいている。 また、最も優れた性能を持つモデルは、アテンション・メカニズムを通じてエンコーダーとデコー...

AttentionメカニズムとGoogle機械翻訳

 【 大規模言語モデルの母胎は「翻訳モデル」】 このセッションでは、大規模言語モデルの成立期の話をしようと思います。 まず、大まかな流れを見ておきましょう。 この時期の到達点を示すのは、2016年の「Google ニューラル機械翻訳」の登場なのですが、それに至る経過で重要な画期がいくつかあります。 一つが2014年の Ilya Sutskever らによる、ニューラルネットワークによる翻訳モデルの提案です。もう一つが、2016年の Bengioのグループによる Ilya翻訳モデルの批判と「Attention メカニズム」の提案です。 【  Ilyaの翻訳モデルと 文の意味のベクトル表現の発見 】 2014年に、Ilya Sutskever らは、シーケンスをシーケンスに変換するRNN(LSTM)の能力が、機械翻訳に応用できるという論文 を発表します。 「我々の方法では、入力のシーケンスを固定次元のベクトルにマップするのに、多層のLong Short-Term Memory(LSTM)を利用する。その後、別の深いLSTMが、このベクトルから目的のシーケンスをデコードする。」 「Sequence to Sequence」は、当時、非常に注目されたコンセプトだったのですが、それは、単なる文字列から文字列への変換・生成とも解釈できます。その本当の意味は、皆に明らかだった訳ではなかったようにも思えます。 それでは、翻訳モデルで二つのSequence を結びつけているのはなんでしょう。それは二つのSequenceが「同じ意味」を持つということです。 前段の入力のSequenceから作られ、後段の出力のSequenceを構成するのに利用される「固定次元のベクトル」とは、二つの文が「同じ意味」を持つことを表現している文の意味のベクトル表現に他なりません。 発見されたこの文の意味ベクトルは、次のセッションでに見る Transformer / BERT が作り上げる大規模言語モデルの世界で、本質的に重要な役割を果たすことになります。 【 Bahdanau たちの批判とAttentionメカニズムの登場 】 Ilya Sutskever らの翻訳システムでは、翻訳さるべき文は、Encoderで、一旦、ある決まった大きさの次元(例えば8000次元)を持つベクトル...

大規模言語モデルの特徴とTai-Danaeの道具箱

【 Tai-Danaeはどんな概念装置を利用したか? 】  このセッションでは、大規模言語モデルの特徴を捉えるために、彼女がどのような概念装置を利用したかを見ていきたいと思います。 今回、紹介するのはその概略です。 【  DisCoCatモデルとの比較 】 彼女の大規模言語モデルの数学モデルの概要を理解するには、を、それをDisCoCatのモデルと比較するのがわかりやすいと思います。 DisCoCatのモデルというのは、SyntaxとSemanticsの対応を次のように捉えるものです。   𝐹𝑢𝑛𝑐𝑡𝑜𝑟 𝐹 : 𝑃𝑟𝑒𝐺𝑟𝑜𝑢𝑝 →  𝐹𝑉𝑒𝑐𝑡  ここで 𝑃𝑟𝑒𝐺𝑟𝑜𝑢𝑝は、LambekのPregroup文法のカテゴリーで、𝐹𝑉𝑒𝑐𝑡は、意味を表現する有限ベクトル空間のカテゴリー、𝐹𝑢𝑛𝑐𝑡𝑜𝑟 𝐹 は、カテゴリーからカテゴリーへの一般的なFunctorです。 【 大規模言語モデルの訓練用データは PreGroupではない 】 大規模言語モデルに与えられる訓練用データは、ただの平文で、文法構造が Pregroup文法で解析済みのものではありません。 ただ、これまでそうした平文の集まりは、「何の構造もない」と言ってきたのですが、文をフレーズに、フレーズを語に分解して、それらの全体を考えてみます。文・フレーズ・文を、文字の並びとして考えてみると、これらの文字列の間には、単純ですが、ある関係があることがわかります。 それは、文字列xが文字列yに含まれるという関係です。これを 𝑥 ≤ 𝑦 と表すことにします。 例えば、     ”blue” ≤ “small blue” ≤ “small blue marbles” という関係が成り立っています。 xがyの部分文字列であるという関係𝑥≤𝑦 をPreorderと言います。 𝑥 ≤ 𝑦 を𝑥→𝑦 で表すと、文字列の全体は、 𝑥→𝑦を射とするカテゴリーと考えることができます。 これを言語Lだと考えます。 言語は、Preorderを射とするカテゴリーということになります。 【 DisCoCatの意味を表現するFVectは? 】 意味を表現するFVectは、どう変わったの...

大規模言語モデルの特徴と Tai-Danaeの問題意識

 【 なぜ、Tai-Danaeの議論に注目するのか 】 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? 今回のセミナーで取り上げる論文に一つ先行する論文の冒頭で、彼女はこう言っています。( "Language Modeling with Reduced Densities" https://arxiv.org/abs/2007.03834v4   )  「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、まず、現在の「大規模言語モデル」の「印象的」な性能に向けられています。その上で、「構造化されていないテキストデータの相関関係から完全に構築されている」ことに注目しています。 【 大規模言語モデルが行なっていること -- 彼女は何に強い印象を受けたのか? 】 ここでは、彼女が大規模言語モデルのどんな性能に印象を受けたのかをみておきましょう。 大規模言語モデルは、「対話的に、最初の文を入力すると、次の単語分布から繰り返しサンプリングすることで、オリジナルの高品質なテキストを生成することができる。」  確かにそう言われています。ただ、それだけでしょうか? 彼女は続けます。 「直感的に言えば、物語を続ける能力は、非常に高度なことを意味している。   文法的に正しい文を継続するためには、文法を習得し、注意深く代名詞のマッチングを行い、品詞の認識を持ち、時制の感覚も持たなければならない。その他多くのことを必要とする。  可能な継続の確率分布を効果的に学習する言語モデルは、明らかに意味的知識も学習しているはずだ。  物語の続きが合理的で内部的に一貫しているためには、世界に関する知識が必要である。内部的に一貫しているためには、犬とは吠える動物であり、ゴルフは日中屋外でプレーするものである、火曜日は月曜日の翌日である、などといった世界の知識が必要である。」 この驚きの感覚に、僕は共感します。 【 より驚くべき大規模言語モデルの能力 】 問題は、それだけではありません。  「驚くべきは、これらのLLMが、...

構成的分散意味論の展開 -- DisCoCat

 【 DisCoCat の登場 】 前回、「論理的形式」と「文脈的使用」という意味の定義の二者択一を超えるものとして、Coeckeらの「 DisCoCat = 構成的分散意味論 」が、生まれるという話をしました。 この野心的な試みを、理論的に支えたのはCategory論でした。DisCoCatは、"Distributional Compositional Categorial Semantics" の省略で、「カテゴリー論的構成的分散意味論」という意味です。確かに英語でも日本語でも長い名前ですね。 今回のセッションは、この「 DisCoCat = 構成的分散意味論 」を紹介しようと思います。 改めて、構成的分散意味論の問題意識を確認しましょう。   語から構成される「文の構成性=Syntax(=文法)」と、   語の意味から構成される「文の意味=Semantics」を、   対応づける。 では、どのようにしてこのSyntaxとSemanticsの対応ができるようになるのでしょう。 そこに登場するのがカテゴリー論です。 現代のカテゴリー論の始祖の一人といっていい L.W.ローヴェールは、次のような重要な定理を発見します。   二つのカテゴリーCとDの間に、Functor Fが存在する時、   Functor Fは、「理論」Cの「表現」Dを与える。   このCとDの関係は、「理論」とその「解釈」である   「モデル」の関係とみなすことができる。   別の言い方をすると、カテゴリー Cからカテゴリー Dへの   Functorは、「理論」Cの「意味」を与える。 こうした「意味」へのFunctorを用いた数学的アプローチは、「ファンクター意味論 = Functorial Semantics 」と呼ばれています。 Coeckeたちの構成的分散意味論の中心的アイデアは、自然言語の意味理解に、このカテゴリー論の Functorial Semantics を利用しようということです。これは卓見だったと思います。 言語の文法を数学的カテゴリーSyntax として捉え返し、言語の意味をベクトル空間に値を取る数学的カテゴリーSemantics として捉え返せば、カテゴリーSyntaxからカテゴリーSemanticsへのFunctor Fが、言語の意味を与えることになる...

構成的分散意味論の展開 -- Quntum NLP

 【 Coecke のQNLP 】 構成的分散意味論は、現在、多様な展開を見せています。 このセッションでは、DisCoCatの創始者Bob Coeckeが、現在どのような研究を行っているのかを見てみようと思います。 彼は、DisCoCat の枠組みを、ことばの意味を量子状態として捉える方向で発展させ、QNLP 量子論的自然言語処理 Quantum Natural Language Processing の理論を展開しています。 「意味と構造を結合するために量子的なモデルが必要であるという事実は、QNLPが量子系のシミュレーションと同じように、量子ネイティブであることを立証している。さらに、量子ハードウェア上で古典データをエンコードするための、現在主流のノイズの下での中規模量子(NISQ)パラダイムのさまざまな量子回路は、NISQを特別にQNLPに適したものにしている。言語構造は、明らかに指数関数的に高い計算コストを必要とするな古典な文法のエンコーディングとは対照的に、ほとんどただでエンコードすることができる。」 基本的なアイデアは、複数の語の意味は、複数のqubit(量子ビット)の状態で表現されるというものです。 hat(帽子)のような名詞 の意味は、1-qubitの状態 状態 |𝜓_ℎ𝑎𝑡> ∈ ℂ^2で表現されることになります。 black hatというフレーズで、black という形容詞の果たしている役割は、hat という状態を入力として受け取り、それをblack hat という状態に変換し出力する写像として解釈できます。同時に、black という形容詞は、ある変形を適用すると、二つのqubitの状態としても解釈できます。 Alice hates Bob という文で、hates という動詞の果たしている役割は、AliceとBobの状態を入力として受け取り、それを Alice hates Bobという状態に変換し出力する写像として解釈できます。同時に、hates という動詞は、ある変形を適用すると、三つの量子状態からなる状態としても解釈できます。 実は、Coecke のQNLPで興味深いのは、上の説明で「ある変形を適用すると」の部分なのです。彼は、図形たちを "cup", "cap" という線で結んでいきます。これ...

語の意味をどう捉えるか -- 分散意味論の系譜

【 分散意味論の系譜 】 このセッションでは、分散意味論の系譜を簡単に振り返ってみようと思います。 意味の分散表現論の起源の一つは、「ある語の意味は、ある言語におけるその使用である」というヴィトゲンシュタインの「意味=使用」説だと言われています。 チューリングは、この説が気に入らなかったようで、「「機械」や「考える」という言葉の使い方をいくら調べた所で「機械は考える事ができるか」という問の意味も答えも明らかになるわけではない。それとも、「ギャラップの世論調査の様な 統計的研究」が必要という事になるのだろうか。」と痛烈な皮肉を言っています。 言語学では、イギリスの言語学者ファースが「状況の文脈」という概念で、意味の文脈依存的な性質に注目します。次のような言葉が有名です。  “You shall know a word by the company it keeps” 「我々は、ある語を、それが引きつれている仲間たちによって知ることになる。」 Tai-Danae もこの言葉をよく引用します。 分散意味論は、フレームワークとして線形代数を使うようになります。基本的なアプローチは、分散情報を高次元ベクトルで表現し、意味の類似性をベクトルの類似性 cosine similarityで定義します。 こうした動きは、統計的言語モデルからニューラルネットワーク上での言語モデル構築へと進んでいきます。 Bengioの”A Neural Probabilistic Language Model”や、Deep Learningの世界では有名なMikalovのWord2Vecも、こうした流れの中で生まれたものです。 もう少し目を広げると、言語モデルには、文の意味は文中の単語の関係から導かれるというフレーゲの原理(構成性の原理)を中心とする数理論理学の考えに基づく、論理的なアプローチと、単語の意味はその文脈から決定することができるという確率論的アプローチの二つのタイプがあることがわかります。 問題は、「理論面では論理モデルが王者であったが、実践面では確率論的なライバルが最良の予測を提供してきた。」というところにありました。 そうした中で、「論理的形式」と「文脈的使用」という意味の定義特性の二者択一を超えるものとして、「意味の基礎構造とは何か」という問いを正面に掲げて、Coeckeら「...

大規模言語モデルの数学的構造

 【 セミナー「大規模言語モデルの数学的構造」へのお誘い 】 次回のセミナー「大規模言語モデルの数学的構造」へのお誘いです。 このセッションでは、 まず最初に、なぜ、このようなセミナーを企画したのかについて述べてみたいと思います。 【 大規模言語モデルの働きがよくわからない 】 第一の理由は、個人的なものですが、単純なものです。 それは、僕自身、大規模言語モデルの働きでよく分かっていないところがいろいろあり、もっとそれをよく理解したいと思っているからです。 意味の分散表現と、補助的にはAttentionメカニズムの理解を通じて、大規模言語モデルの生誕の地ともいうべき「機械翻訳モデル」の振る舞いは、だいたい理解できたと思います。 ただ、ChatGPT以降の、いわゆる「生成AI」の働きには、いろいろ謎があるように感じています。 【 大規模言語モデルの振る舞いには理由がある 】 今回のセミナーを開催した二つ目の理由は、生成AIの「飛躍」の不思議さを数え上げることではありません。むしろ逆の、「不思議に見えることには理由があるはずだ」という考えからです。 AIに対して、その「応用」や「ビジネス」の観点からの関心が高いのは、ある意味当然のことかもしれません。ただ、AIの振る舞いに謎があるなら、その技術的な「理由」とさらに深い「根拠」を問う研究も、確実に広がっていると僕は考えています。 今回紹介するTai-Danae Bradleyのアプローチもその一つです。現実に進行している実際的な問題からはある意味無関係な議論に思えるかもしれないこうした研究も、いつか実際的な「応用」へと身を結ぶことがあると僕は考えています。 【 「根拠」は数学的に表現される 】 今回のセミナーには、もう一つの、先に述べた二つの理由より少し抽象的な開催の理由があります。 それは、技術の基礎には科学的な認識があり、さらに進んでその基礎は数学的に表現されうると僕が考えているからです。大規模言語モデルの不思議な振る舞いにも数学的根拠があるはずです。 そうした研究が切り開くのは、基礎へ掘り進んでいくだけの一方向の認識の「深化」だけではありません。興味深いのは、そうした過程が、全く抽象的な無意味な形式と思われていた数学理論の「応用」の領域の発見として、認識の「豊富化」として現れることがあるということです。 【 ...

マーク・トウェインのChaGPT評

 【 マーク・トウェインのChaGPT評 】 Facebookで友人がこういうマーク・トウェインの警句を投稿しているの見つけました。https://www.facebook.com/kawaguchi.tatsuo/posts/7006017286115864 これ面白いですね。まるでChatGPTのことを言っているみたい。 出典を知りたくて、「万華鏡」に注目して "kaleidoscope Mark Twain"でググってみたら、原文はすぐに見つかりました。 “There is no such thing as a new idea. It is impossible. We simply take a lot of old ideas and put them into a sort of mental kaleidoscope. We give them a turn and they make new and curious combinations. We keep on turning and making new combinations indefinitely; but they are the same old pieces of colored glass that have been in use through all the ages.” Mark Twain's Own Autobiographyからの引用だというので、Wikiで"Autobiography of Mark Twain" 調べたら、External Linkに "THE AUTOBIOGRAPHY OF MARK TWAIN"を見つけました。全文、epubで公開されていました。https://standardebooks.org/ebooks/mark-twain/the-autobiography-of-mark-twain ところが、問題が。 いくら探しても、この文章が見つからないのです。 改めて、出典を確かめたら、"Mark Twain's Own Autobiography: The Chapters from the North American Review" と...

セミナーのタイトルを変更しました

【 セミナーのタイトルを「大規模言語モデルの数学的構造」に変更しました 】 ごめんなさい。セミナーのタイトルを変更しました。この数日で3回目の変更です。 最初は確か「意味の分散表現論とエントロピー(予定)」でした。 ここ、今個人的には一番興味を持っているところなのですが、セミナーの2時間で分散表現論とエントロピーの二つを扱うのは難しいだろうと思い直しました。 正直いうと、自分の考えがまとまっていないのが大きいのかも。 シャノンの「情報量」を定義する基本的なモデルとなったコミュニケーションのモデルは、Encoder / Decoder として解釈できるし、Deep Learning のActivatorのひとつのSoftMax 関数は (多分、いまならHeadというのが妥当かも)、ギブスの分配関数と同じものだし、全ての確率分布はエントロピーと同じものです。ただ、いろいろよくわからないところがある。もう少し、考えます。 二つ目は、「大規模言語モデルと意味の分散表現の数学」でした。 ただ、これは長すぎると思いました。 それに、大規模言語モデルを扱うなら意味の分散表現を扱うのは必須ですが、意味の分散表現の数学は、なにも大規模言語モデルに限った話ではありません。ことばの意味の分散表現論でもCoeckeたちのDisCoCatは、量子論の影響のもと大規模言語モデルとは独立に発展してきたものだし、ベクトルではなく密度行列を使う分散表現論は、独自の射程と面白さを持っています。 それで、三つ目の「大規模言語モデルの数学的構造」に。 もともと、Ta-Danae Bradleyの現在のアプローチを紹介しようと思っていたので、それには、このタイトルの方がいいようにも思います。 ただ、名前を変えるごとに問題意識は、シュリンクしています。 C'est la vie !

11月セミナーの予告 -- 大規模言語モデルと意味の分散表現の数学

【 11月セミナーの予告 -- 「大規模言語モデルと意味の分散表現の数学」 】 大規模言語モデルの実践的な成功は、その理論的基礎に対する広い関心を呼び起こしています。 今回のセミナーでは、大規模言語モデルとそこで用いられている意味の分散表現論には、どのような数学的な基礎があるのかについての研究の動向を、Tai-Danae Bradleyのアプローチを中心に紹介したいと思います。 この点では、今回のセミナーは、4月に開催した マルゼミ 「ことばと意味の数学的構造」の続編です。 https://www.marulabo.net/docs/math-structure/   【 基本的な問題意識 】 どのような問題意識が、Tai-Danae Bradley たちの研究をドライブしているのかを、改めて確認しておきましょう。 「この研究は、今日の最先端の統計的言語モデルのパフォーマンスに強い印象を受けたことに端を発している。ただ、印象的なのはその性能だけではない。極めて重要なことだが、それは、非構造化テキストデータの相関関係から完全に構築されている。 後者の観察は、本論文の核心にある基本的な疑問を促す: 非構造化テキストデータにはどのような数学的構造が存在するのか?」  Ta-Danae Bradley, Yiannis Vlassopoulos.  Language Modeling with Reduced Densities   https://arxiv.org/abs/2007.03834 この論文については、先に挙げた4月のマルゼミ 「ことばと意味の数学的構造」のPart 4-2で、簡単に紹介しています。 ただ、不十分なものでした。 今回のセミナーでは、先の論文に続くTai-Danaeらの論文を紹介しようと思います。Abstractに次のような問題意識が示されています。   「最先端の言語モデルは、どのような入力テキストからも、連続した自然言語テキストの続きを返す。首尾一貫したテキストの拡張を生成するこの能力は、このモデルが文法や意味論の知識を含む、重要な高度化を達成していることを意味する。 本論文では、今日の大規模言語モデルによって学習される、 与えられたテキストの拡張に関する確率分布を、意味情報を含む豊かなカテゴリに渡すような数学的枠組みを提...