投稿

意味の分散表現論の登場

イメージ
  【 意味の分散表現論の登場 】  コンピュータと自然言語が出会った時以来、大量の言語データを統計的に処理すれば、言語の性質がわかるだろうという楽観論が存在しました。ただ、そうしたアプローチは失敗します。 For breakfast I ate _____eggs. という文の空白部分に入るのは、三つの単語{ to, two, too }のどれかという問題に(答えはもちろん 'two'です)、21世紀に入っても、単純な統計的アプローチは、100% 正確に答えることができませんでした。この論文の著者は、なんと10億語からなる用例集を統計的に処理したのですが。 利用したデータの膨大さにも関わらず、このアプローチの無力さは、なんなのでしょう? 【 Bengioの「次元の呪い」-- 語の数と文の数 】 それは問題の複雑さの尺度を見誤ったことによるものです。データの数を増やせば、問題が解けるようになるとは限らないのです。 26文字のアルファベット15文字以内で構成される語の数は、高々、26^15です。ただし、語彙が10万個ある言語での10個の語からなる文は、100000^10=10^50種類もあるのです。 確認しておくべき重要な事実があります。それは、ある言語ですべての語彙を集めた「辞書」は存在するかもしれないのですが、その言語のすべての文の例を網羅した「用語集」は存在しないということです。 Bengioは、早くから、言語処理に現れる組み合わせの数の爆発を意識していた一人でした。意味の分散表現論の登場を告げる歴史的な2003年の論文で、彼は、それを「次元の呪い」 Curse of Dimentionality と呼びました。 【 Bengioのアプローチ 】 この論文で、Bengioは「次元の呪い」と戦うために、次のような方法を提案します。  1.  語彙中のそれぞれの語に、m個の実数に値を持つ、分散したm次元の特徴ベクトル(word feature vector)を対応づける。  2.  語の並びの結合確率関数を、この並びの中の語の特徴ベクトルで表現する。  3.  語の特徴ベクトルとこの確率関数のパラメーターを、同時に学習する。 乱暴なまとめをすれば、こんなことです。 「文」全体を相手にすると、その数はあまりに多すぎて、い...

文字からembeddingへ −−意味の分散表現論の系譜

イメージ
【 文字から embedding へ −−意味の分散表現論の系譜 】 前回までの投稿で、大規模言語モデルを中核とした現代のAI技術が、インターネット上の膨大な機械可読な情報の集積・蓄積とその技術基盤としての Web Scale の大規模分散システムの成立という所与のもとで生まれてきたという話をしてきました。 それらは、現代のAI成立に先行した技術の経験的に確認できる到達点、あるいは、現代のAIを生み出した技術的「環境」の確認としては意味があると思います。進化にとって、所与としての「環境」は重要です。また、それはその後の進化の方向を決定づけます。 【 何が飛躍だったのか? 】 ただ、環境自体が直接「進化」を生み出すわけではないはずです。技術自体の内部の内発的な変化がその「進化」を主導したはずです。 今回のお話は、現在、我々が目撃している、機械の言語能力の獲得という、歴史上稀に見る「創発的な進化」を可能にしたものは何かというお話です。 機械の言語能力の獲得という進化にとって、何が「飛躍」だったのかは明らかだと思います。僕はそれを、機械が言葉の意味を理解し始めたことだと考えています。 話す聴く音声としてのことばも、書く読む記号としての文字も、人間が意味を伝えるための手段に過ぎません。ことばや文字を駆使する人間の言語能力の中核にあるのは、意味を理解し、意味を伝える能力です。  機械が、意味を理解し意味を伝える能力を持ったこと、それが機械の言語能力獲得という飛躍の中心的な内容です。 人間が意味を理解し伝えるためにことばや文字を使うように、機械が意味を理解し伝えるために使うものがembeddingなのです。 【 意味の分散表現論の系譜 】 embedding 技術を生み出した人間の研究を、「意味の分散表現論」といいます。「意味の分散表現論」には、21世紀のはじめ2003年のベンジオの論文を起源としているのですが、20年近い研究の歴史があります。それは、現在のAI研究の本流とでもいうべきものです。 図は、この研究の流れの中での重要なトピックを抜き出したものです。「意味の分散表現論の系譜」という資料を作成しています。興味がある方はご覧ください。 https://drive.google.com/file/d/1NTs7r-wdtG1EbIkpb1oDmmIFiTlU_0ip/vie...

文字からembeddingへ −− 大規模分散システムの成立

イメージ
【 文字からembeddingへ −− 大規模分散システムの成立】 先に、獲得した言語能力によって可能となった話す聴くことから始まった人間のコミュニケーションと情報共有の範囲が、文字の発明によって空間的にも時間的にも大きく拡大したという話をしました。 大量の情報を時間を超えて世代から次の世代に伝える上で、文字が果たした役割は決定的なものでした。文字は個人の記憶力に依存しない新しい情報の「共有ツール」「記憶装置」を人間に与えました。 文字メディアの発展・拡大は、21世紀まで続きました。 「文字からembeddingへ」という僕のの話は、それに続くものの話なのですが、すこし飛躍があるように思われるかもしれません。今回は言語の歴史と比べれば短いものですが、この四半世紀のIT技術の歴史の話を、大規模分散システムの発展という視点からしてみようと思います。(写真は、Big Table です。ちょっと違うかも。) 【 インターネットの登場と発展 】 インターネットの登場は、情報共有の動きをかつてない規模に拡大しました。同時に、情報共有の拡大は、かつてない規模の情報の集積・蓄積を生み出しました。 21世紀の最初の四半世紀のインターネット上の情報の共有と蓄積の主役は文字(あるいはその電子版である「文字コード」)と言っていいと思います。 そのことは、この時期を代表するBig Techの雄であるGoogleの技術を振り返れば、一層明らかになります。GoogleのPagaRankは、基本的には、検索ワードにそれを含む文章の集合を対応付ます。文字列処理の技術としては、大規模な逆引きインデックスを作成するシステムでした。 PageRankされるべき文章の集合は、Googleのcrawlerが世界中のネットから収集した膨大なものでした。文字情報の「かつてない規模での集積」は、まず、Googleの検索システムの中で生まれたと考えていいと思います。 また、Googleの検索と広告を結びつけるというビジネスモデルは、多くのサイトがGoogleのcrawlerによる情報収集の対象となることをすすんで歓迎することを後押ししました。 【 Googleの検索システムの変化 】 PageRankの実装システムであるMapReduceは処理に数日かかるバッチ・システムでした。検索インデックスを更新するためには、ウ...

情報の共有と情報の集積

イメージ
  【 情報の共有と情報の集積 】 21世紀初頭の四半世紀は、現在の Big Tech の覇権が確立した時期でした。同時にこの時期は、20世紀末から始まったインターネット上のオープンな情報共有が、史上例を見ないほどに拡大した時期でもあります。そのいくつかを見ておきましょう。 【 arXiv 】 1991年8月14日に開始された arXiv.org は、査読なしで科学論文を公開するサイトですが、その掲載論文数は、2008年10月3日に50万件を突破し、2014年末までに100万件、2021年末までに200万件に達しました。 2024年11月現在、投稿数は月間約24,000件だと言います。数学や物理学の多くの分野では、査読付きジャーナルに掲載される前に、ほぼ全ての論文がarXivリポジトリに自己アーカイブされていま(  https://en.wikipedia.org/wiki/ArXiv  より ) 【 GitHub 】 GitHub  は、開発者がコードを作成、保存、管理、共有できる開発者向けプラットフォームです。一般的にオープンソースソフトウェア開発プロジェクトのホスティングに利用されています。2023年1月時点で、GitHubは1億人以上の開発者と4億2000万以上のリポジトリ(少なくとも2800万の公開リポジトリを含む)を擁すると報告しています。2024年には500万以上のオープンソースプロジェクトに対し、50億件以上の開発者の貢献が行われたと言われています。(  https://en.wikipedia.org/wiki/GitHub より )’ 【 WikiPedia 】 2001年にジミー・ウェールズとラリー・サンガーによって創設された WikiPedia は、史上最大かつ最も読まれている参考書であると言われています。当初は英語版のみでしたが、現在では340以上の言語で提供され、世界で9番目にアクセス数の多いウェブサイトに成長しています。英語版ウィキペディアは700万以上の記事を擁し最大ですが、全部の言語版を合わせると6500万以上の記事があり、2024年4月時点で月間15億以上のユニークデバイスアクセスと1300万回の編集アクセスを集めていると言います。 ( https://en...

ことばから文字へ

イメージ
  【 ことばから文字へ 】 人間が生物学的進化のなかで獲得した類的な能力である人類の言語能力は、ある発明によって、新しい段階に進むことになります。それは、文字の発明です。 人間の言語能力の獲得がいつ起きたかについては、30万年前とか10万年前とか諸説あるようなのですが、文字の利用については、紀元前3000年以前に遡ることはないと思います。メソポタミア、エジプト、中国の古代文明がほぼ同時期に文字の利用を始めます。 人間はその言語能力の発揮のほとんどの時間を、文字無しで、話し聴くことばだけで過ごしてきました。 情報伝達の手段としての、話し聴くことばには弱点があります。話し手の情報が届くのは、同じ時間を話し手と共有して、空間的にはその近くにいた人たちだけです。こうしたコミュニケーションを「共時的コミュニケーション」といます。 それでは、文字を持たなかった人間は、話し聴くことばの、時間的・空間的制約を超えることはできなかったのでしょうか? そうではないのです。人間は記憶力と人の輪を舞台としたことばによる共時的コミュニケーションの無数の連鎖によって、世代を超える「通時的コミュニケーション」を可能にしてきました。 盲人だったホメロスは、文字を知りませんでしたが、古代ギリシャの英雄たちの物語を伝え続けました、日本でも、平家の物語は、琵琶法師たちの活躍によって口伝えで広まりました、 現代でも、チベットでは、文字数8千万字余り全詩の行数は100万行を超える「ケサル王伝」が口伝で継承されていると言います。信じられない人は、次のビデオをご覧ください。  https://www.youtube.com/watch?v=W5EBxwejDck スマホ依存症のせいで、人間の記憶力が退化しているのかもしれません。でも、ご心配なく。我らが「言語能力」の本体は、生物学的進化の産物ですので、DNA の「通時的コミュニケーション」の能力を通じて、確実に継承されています。 グーテンベルクの印刷技術にブーストされた文字メディアの発達は、それを我々の「情報共有」と「情報蓄積」の主要なツールへと押し上げました。インターネットの登場は、それをかつてない規模に拡大しました。 インターネットが登場したところで、話はそれで終わりでしょうか? そうではありません。今回の昔話は、機械が言語能力を獲得したことをどう...

「機械が言語能力を獲得した」ということについて

イメージ
  【 「機械が言語能力を獲得した」ということについて 】 先日の投稿( MaruLabo への寄付を訴えた投稿)の中で、「我々は、今、「機械が言語能力を獲得した」という歴史的瞬間に立っています」と書いたのですが、そのことについて質問がありました。 「機械にそんなことできるわけないだろう」という質問ではなく、むしろ逆に、現在の AI の能力の評価としては、「機械が知性(あるいは知能)を獲得した」という評価の方が、適切なのではという意見でした。 確かに、「機械は考えることはできるか?」という判断の基準を示した「チューリング・テスト」を、現在のAI はいとも簡単にクリアできます。 また、チューリングの先輩にあたるディドロは、「どんな質問にも即座にこたえるオウムがいれば、我々はそのオウムは知性を持っていると考えるだろう」と言っていました。ディドロが ChatGPT をみたら、「こいつは知性を持っている」と言ったかもしれません。  僕は、人間の知性(あるいは、知能)と人間の言語能力を区別しています。人間の知能は複雑な構造を持ち、その最も基本的な構成要素、最も重要な基礎が言語能力なのだと。 親と子も恋人同士の二人も老人ホームの老人もことばを使います。 SNS で罵倒し合うのにも、戦争を呼びかけるのにも戦争に反対するのにもことばが必要です。捏造された論文もノーベル賞の対象となる論文も、ことばで書かれています。ビートルズやボブ・ディランや米津の音楽が人のこころにに訴えるのには、彼らの言葉の力が大きな役割を果たしています。 これらすべては、人間がひとしく言語能力を持ってコミュニケーションできるから可能になっていることです。 言語能力をもつ人間がそうであるように、機械が人間並の言語能力を獲得したとしても、それだけで優れた「知性」を発揮するかはわかりません。ただ、優れた知性に成長する土台はできたと考えることはできるかもしれません。 たとえ、それだけに過ぎないとしても、我々が現在目撃していることは、驚くべきことです。 質問もらって嬉しかったです。

マルレク「マグニチュードとは何か」の公開詳細情報です

【 マルレク「マグニチュードとは何か」 講演ビデオと講演資料公開しました 】  9月に開催したマルレク「マグニチュードとは何か」の講演ビデオと講演資料公開しました。ご利用ください。 現在展開中のセミナー「LLMのマグニチュード論 1」  https://www.marulabo.net/docs/llm1bradley2/  のテーマの一つである「マグニチュード」についてのマルレクでは最初の解説です。 マグニチュード論というのは、「大きさ」について考える新しい数学的理論です。 今回のセミナーでは、マグニチュード論の起源に関わる、カントール、オイラー、レンスターという3人の数学者が登場するのですが、一見すると、3人別々の数学をやっているように見えるかもしれません。なかなか「大きさ」についての一つの理論として、イメージが掴めないところがあると思います。 その点では、次の音声概要「マグニチュードとは何か」が、全体像を掴む上では役に立つと思います。ぜひ、ご利用ください。 https://www.marulabo.net/wp-content/uploads/2025/12/%E3%83%9E%E3%82%B0%E3%83%8B%E3%83%81%E3%83%A5%E3%83%BC%E3%83%89%E8%AB%96%E3%81%A8%E3%81%AF%E3%81%AA%E3%81%AB%E3%81%8B.mp3 【マグニチュードは、生成AIと大規模言語モデルの 時代に発見された新しい「大きさ」の概念 】 そこでも述べたのですが、マグニチュードというのは、蒸気機関やインターネットの時代ではなく、生成AIと大規模言語モデルの時代に発見された新しい「大きさ」の概念だと僕は考えています。。時代の大きな変革期には新しい「大きさ」が登場するのかもしれません。 それは、なぜ、生成AIと大規模言語モデルが、あれほどまで見事に言葉の意味を理解できるのかという問題に結びついています。現在ではまだ完全には解明されていないこの問題の解決に、マグニチュード論が貢献する可能性があるのです。 マグニチュード論については、これからもマルレクで取り上げていこうと思っています。  =========================== セミナーは4つのパートに分かれています。個別に...

マルレク「LLMのマグニチュード論 1」へのお誘い

【 マルレク「LLMのマグニチュード論 1」へのお誘い 】 今週末(12月6日(土))に開催予定のマルレク「LLMのマグニチュード論 1」へのお誘いです。 セミナーへのお申し込みは、次のページからお願いします。 https://llmbradley2.peatix.com/view 今回のセミナーでは、LLMの理論研究で、もっとも新しく最も先進的な業績である Tai−Danae Bradleyの論文 “The Magnitude of Categories of Texts Enriched by Language Models”  https://arxiv.org/pdf/2501.06662   の紹介をしようと思います。 【 この論文が扱っている二つの課題 】 この論文は、二つの課題を扱っています。 一つは、LMの意味論に カテゴリー論的基礎を与えた 2022年のBradleyらの論文“An enriched category theory of language: From syntax to semantics.” のモデルを拡大するという課題です。 たとえば、「プロンプトの入力」「プロンプトへの回答の出力」というような、LLMの現実の振る舞いを解釈しうるようにLLMのモデルを拡大するということです。 もう一つの課題は、こうして現実のLLMの振る舞いをシミュレートしうる拡大されたLLMのカテゴリー論的理論をを構築し、それを、この間マルレクでも取り上げてきたマグニチュードの理論を結びつける課題です。 【 今回のセミナーが扱う範囲とセミナーの構成 】 ただし、今回のセミナー「LLMのマグニチュード論 1」は、そうしたBradleyの論文紹介を目的とした連続セミナーの第一回目です。 今回のセミナーがカバーする内容は、先の「この論文が扱っている二つの課題」の前半部分の「LLMのモデルの拡大」にフォーカスしたものです。 今回のセミナーの構成は、次のようになります。   Part 1 BradleyのLLMモデル論概要   Part 2   LLMの確率計算   Part 3   Enrichedカテゴリー論とLLMモデルの拡大 【 Part 1 BradleyのLLMモデル論概要 】 連続セミナーの第一回目とし...

LLMの確率計算の基本

【 -LLMの確率計算の基本 】 先のセッションでは、Bradleyの2025年の論文の前半部分の中心的な内容である「命題 1」の証明の概略を述べましたが、その細部は省略していました。 このセッションでは、「命題 1」の証明に必要なLLMの確率計算の基本を確認したいと思います。証明は次のセッションで行います。 「命題 1」は、次のことを主張しています。 命題1.言語Lにおける未完成テキストxが与えられたとき、関数𝜋(−│𝑥) |_𝑇(𝑥) は入力xの終端状態上の確率質量関数である。 【  基本的な用語の確認 】 「命題 1」に出てくる基本的な言葉の意味を確認しておきましょう。ここでは、次のような用語の意味を確認します。特に「確率質量関数」では、具体的な例をいくつかあげておきました。  ・未完成テキスト  ・完成テキスト  ・終端状態集合 𝑇(𝑥)  ・確率質量関数  ・カテゴリーLのオブジェク𝑜𝑏(𝐿)  ・カテゴリーLの射 x → y  ・部分カテゴリー 𝐿_𝑥 【 確率分布𝑝_𝑥( −|𝑥 )の生成と その分布の下でのサンプリング 】 ・LLMは、テキスト 𝑥 が与えられた時、次に出現するトークンを予測する確率分布 𝑝_𝑥( −|𝑥 )を生成します。 ・LLMは、一つのトークン 𝑎 を選んで𝑥に追加して、テキストを一つ分延長して 𝑥𝑎にします。 ・このとき、𝑥の後ろに一つのトークン𝑎が追加される確率は、𝑝_𝑥( a|𝑥 )になります。 【 Next Token 確率 𝑝_x( a|x ) 】 テキスト x が与えられた時、次に出現するトークンを予測する確率分布 𝑝_x( −|x) を、Next Token 確率分布といいます。 この分布の下でaをサンプリングして、テキストxの次のトークンがaとなることを表す確率𝑝_x( a|x )  を「Next Token 確率」と呼びます。 定義 2 の𝜋(y|𝑥) の定義は、もし、 x→yであるyが、xにk個のトークンを追加したものなら、その値は、k個の Next Token 確率の積で定義されるということです。 【 パス確率 𝜋(y|𝑥)と Next Token 確率 𝑝(𝑎|𝑥) 】 x, y, zが x → y → z を...

論文前半の基本定理の証明

【 論文前半の基本定理の証明 】 先のセッションでは、Bradleyの2025年の論文の前半部分の中心的な内容である「命題 1」の証明の概略を述べましたが、その細部は省略していました。このセッションでは、その詳細を補いたいと思います。 【 「命題 1」の帰納法による証明 】 「命題1.言語Lにおける未完成テキストxが与えられたとき、関数𝜋( − | x ) |_𝑇(𝑥) は入力xの終端状態上の確率質量関数である。」 目標は、次の式が成り立つことを示すことです。   ∑_(𝑦 ∈ 𝑇(𝑥) 𝜋( 𝑦│𝑥 ) = 1 基本的には、この主張を、x の後にモデルが終了するまで続く最大記号数 𝑚 = 𝑁 − |𝑥| についての帰納法で証明します。 【 Bradleyの四つのヒント 】 Bradley は、論文で証明のステップを4つの式で表していて、その導出の詳細については展開していません。今回のセッションでの証明は、Bradleyのヒントに基づいたものです。 数式をテキストで述べるのは難しいので、ぜひ、pdfの資料とビデオをご利用ください。 --------------------------- セッションの要約blog  https://maruyama097.blogspot.com/2025/11/blog-post.html まとめページ「LLMのマグニチュード論 1」 https://www.marulabo.net/docs/llm1bradley2/ ムービーの再生リスト「LLMのマグニチュード論  -- エピソード」 https://www.youtube.com/playlist?list=PLQIrJ0f9gMcMjv25F7mabNGdzKUVt-2CZ 本日のムービーのpdf 「 論文前半の基本定理の証明 」 https://drive.google.com/file/d/1PIFKecQkyEX36hnr050gzMZb_ee0VmJ_/view?usp=sharing 本日のムービー「  論文前半の基本定理の証明 」 https://youtu.be/5DyL1k3rVzs?list=PLQIrJ0f9gMcMjv25F7mabNGdzKUVt-2CZ

Recent Reel

【 マルレク「LLMのマグニチュード論 1」へのお誘い(動画)】 今週末(12月6日(土))に開催予定のマルレク「LLMのマグニチュード論 1」へのお誘いです。 セミナーへのお申し込みは、次のページからお願いします。 https://llmbradley2.peatix.com/view 今回のセミナーでは、LLMの理論研究で、もっとも新しく最も先進的な業績である Tai−Danae Bradleyの論文 “The Magnitude of Categories of Texts Enriched by Language Models”   https://arxiv.org/pdf/2501.06662   の紹介をしようと思います。 【 この論文が扱っている二つの課題 】 この論文は、二つの課題を扱っています。 一つは、LMの意味論に カテゴリー論的基礎を与えた 2022年のBradleyらの論文“An enriched category theory of language: From syntax to semantics.” のモデルを拡大するという課題です。 たとえば、「プロンプトの入力」「プロンプトへの回答の出力」というような、LLMの現実の振る舞いを解釈しうるようにLLMのモデルを拡大するということです。 もう一つの課題は、こうして現実のLLMの振る舞いをシミュレートしうる拡大されたLLMのカテゴリー論的理論をを構築し、それを、この間マルレクでも取り上げてきたマグニチュードの理論を結びつける課題です。 【 今回のセミナーが扱う範囲とセミナーの構成 】 ただし、今回のセミナー「LLMのマグニチュード論 1」は、そうしたBradleyの論文紹介を目的とした連続セミナーの第一回目です。 今回のセミナーがカバーする内容は、先の「この論文が扱っている二つの課題」の前半部分の「LLMのモデルの拡大」にフォーカスしたものです。 今回のセミナーの構成は、次のようになります。   Part 1 BradleyのLLMモデル論概要   Part 2   LLMの確率計算   Part 3   Enrichedカテゴリー論とLLMモデルの拡大 --------------------------- セミナーへ...

3/30 マルレク「マトリョーシカとトロピカル」講演ビデオと講演資料の公開です

【 3/30 マルレク「マトリョーシカとトロピカル」講演ビデオと講演資料公開しました 】 だいぶ遅れてしまって申し訳ないのですが、3月に開催したマルレク「マトリョーシカとトロピカル -- AI技術の最近の動向について」の講演ビデオと講演資料を公開しました。   奇妙なタイトルですが、現在のAI技術の動向について知る上で基本的な情報を取り上げています。 このセミナーは二つのトピックスを取り上げています。 【 マトリョーシカ 】 embeddingは、自然言語やコードなどの様々なコンテンツの意味や概念を、多次元ベクトル空間の一点の座標を表す数字の列で表現する技術です。embeddingは、現代のAI技術のもっとも革新的で基本的な技術です。 embedding技術も日々発展を続けています。embedding技術の最近の動向で、もっとも注目をあつめているのが、「マトリョーシカ表現学習」と呼ばれるものです。(図 1) 「マトリョーシカ」embeddingが可能にした柔軟で高速なAdaptive Retrieval 技術は、RAG (Retrieval-Augmented Generation)という形で、既にほとんど全てのベンダーのの生成AIエンジンに組み込まれています。  【 トロピカル 】 このセミナーが取り上げているもう一つのトピックは、現在の生成AIのベースになっている大規模言語モデル LLM のアーキテクチャーの見直しの動きです。 その見直しの中心は、浮動小数点からなる行列計算の簡略化です。行列計算の中で、浮動小数点同士の掛け算を整数の足し算に還元することができれば、大幅にエネルギー消費を削減することが可能になります。「トロピカル」というタイトルは、掛け算が足し算になる不思議な代数理論である「トロピカル代数」から借用したものです。 セミナーでは、こうしたアプローチで行列演算でのエネルギー消費を 1/70 にすることに成功したという「1-bit LLM」といわれる驚くべき提案を紹介します。(図 2) 【 Ai技術のダウンサイジング化のはじまり 】 このセミナーでとりあげた「マトリョーシカembedding」と「1-bit LLM」は、それぞれ異なった分野のそれぞれに独立した取り組みなのですが、ある共通の方向を向いていると感じています。 それ...

「ニューラル・ネットワークの数理 -- Tropical代数入門」の講演ビデオと講演資料を公開しました

【 「ニューラル・ネットワークの数理 -- Tropical代数入門」講演ビデオと講演資料を公開しました 】  4月末に開催したマルレク「ニューラル・ネットワークの数理 -- Tropical代数入門」講演ビデオと講演資料を公開しました。  今回の資料公開に際して、セミナーのまとめページ「ニューラル・ネットワークの数理 -- Tropical代数入門」  https://www.marulabo.net/docs/tropical/  の構成を、YouTubeへの参照を中心にしたものから、pdf資料の表示を中心にしたものに、全面的に書き換えました。 数学的な議論を追うのに、YouTubeはあまり向いていません。今度のページでは、pdfは簡単に全文スクロールできるようになっています。是非、ご利用ください。 ------------------------------------------------- 私たちが日常的に利用している「生成AI」にしろ「大規模言語モデル」にしろ、それらが「なぜ、そのように振る舞うことができるのか?」については、わかっていないことがたくさんあります。 近年、これらのモデルの背後にある数学的構造を解明することで、その謎を解こうという取り組みが活発に進められています。 このセミナーで紹介している L. Zhang らの理論は、大規模言語モデルの振る舞いを co-presheaf 意味論を導入して説明しようとした Tai-Danae Bradleyらの理論と並んで、そうした取り組みの代表的なものの一つだと思います。   Tropical geometry of deep neural networks,   Liwen Zhang, Gregory Naitzat, and Lek-Heng Lim.     https://arxiv.org/abs/1805.07091   Zhangは、現代のAI技術の基礎であり、そのすべてで利用されている、Deep Neural Network(DNN) に数学的モデルを与えることを目指し、それに成功します。 古典的には(1969年)、 Minskyらが Rosenblattらの一つの層しか持たない単純なニューラル・ネットワーク Perceptron...

1/31 マルレク「量子エラー訂正技術の動向」講演ビデオと講演資料のURLです

【 1/31 マルレク「量子エラー訂正技術の動向」講演ビデオと講演資料のURLです 】 セミナーは4つのパートに分かれています。個別にも全体を通してもアクセスできます。  -------------------------- 全体を通して見る --------------------------  ●  「量子エラー訂正技術の動向」セミナーの講演ビデオ全体の再生リストのURLです。全体を通して再生することができます。  https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNejtE5PENfZw_zmpUV480z  ●  講演資料全体を一つのpdfファイルにまとめたものはこちらです。    「量子エラー訂正技術の動向」講演資料 https://drive.google.com/file/d/1PpjPO17caxwnAjpM6Dnc4Ycunq68mJpA/view?usp=sharing --------------------------  パートごとに見る --------------------------  ●   はじめに    講演ビデオURL : https://youtu.be/v73UkSaWyOA?list=PLQIrJ0f9gMcNejtE5PENfZw_zmpUV480z    講演資料 pdf : https://drive.google.com/file/d/1Pzs7C2CPNtsHsYtbRlIkBTyEf10-Rdo5/view?usp=sharing  ●  Part 1 量子エラー訂正技術の基礎    講演ビデオURL : https://youtu.be/rcQZzfUQoTI?list=PLQIrJ0f9gMcNejtE5PENfZw_zmpUV480z    講演資料 pdf : https://drive.google.com/file/d/1Q0stgt0U5hfzHc1Q---m6kf46JvvcedO/view?usp=sharing  ●  Part 2 Shor が考えたこと     講演ビデオURL : https://youtu.be/iog36CoYZz0?list=PLQIr...

【 5月に開催した マルレク「カテゴリー論基礎」講演ビデオと講演資料を公開しました 】

【 5月に開催した マルレク「カテゴリー論基礎」講演ビデオと講演資料を公開しました 】 科学・技術の急速な変化の中で、それらの基礎としての数学に関心を持つ人が、確実に増えていると僕は感じています。ただ、新しく、あるいは新しい数学の勉強を始めようしようという人にとって、数学を学ぶことの難しさも増しているように思います。  数学の応用のスタイルは大きく変化しています。例えば、大規模言語モデルの振る舞いの理解に、copresheafや enriched category を使うなどは、以前には考えられなかったことです。 ただ、これまでの丸山のセミナーでは、copresheafやYoneda embeddingの話をしながら、カテゴリー論の基礎については系統的に話すことはなく、カテゴリー論の重要なlimitやadjointの概念についてはほとんど触れることができませんでした。 基本的な反省は、個々のトピックスでの数学の「応用」の範囲でカテゴリー論に触れているだけで、これから数学を学ぶなら、まずカテゴリー論を学ぶべきというメッセージを明確に出していなかったことだと考えています。 今後マルレクでは、カテゴリー論の基礎をきちんと学ぶことを目標の一つににして、「カテゴリー論基礎」のセミナーを継続的に開催しようと思っていいます。今回のセミナーは、そうした取り組みの第一回目です。 今回のセミナーは、次のような構成をしています。   Part 1-1 Category   Categoryとは何か?   Categoryの例   Part 1-2 Functor   Part 1-3 Natural Transformation   Part 2-1 Limit   Limit と Colimit とは何か?   Product   Pullback   Part 2-2 その他のLimit   Equalizer   Inverse Limit   Terminal Object 【 もう一つのきっかけ 】 このセミナーを始めようと思い立ったきっかけが、もう一つあります。 5月の連休中に、「ラングランズ予想」の一部が解かれたというニュースが飛び込んできました。この証明の意義については、Quanta誌の次の記事が参考になると思います。 "Monumental Proof Set...

マルレク「LLMと意味の理論モデル概説 」の講演ビデオと講演資料を公開しました

【 マルレク「LLMと意味の理論モデル概説 」の講演ビデオと講演資料を公開しました】 8月に開催したマルレク「LLMと意味の理論モデル概説 」の講演ビデオと講演資料を公開しました。ご利用ください。  ●  今回のセミナー「LLMと意味の理論モデル概説」のまとめページはこちらです。 https://www.marulabo.net/docs/llm0/   ○   今回のセミナーの音声による概要ページはこちらです。 https://www.marulabo.net/docs/dda20250816/   ○  今回のセミナーのAIによる調査レポート「意味論における数学的ルネサンス」は、こちらからアクセスできます。 https://drive.google.com/file/d/14Egk1h4daMCDsncAhqI0iSMWByHz7Z1L/view?usp=sharing --------------------------- セミナーは4つのパートに分かれています。個別にも全体を通してもアクセスできます。  ●  Part 1   LLMの理論モデルの新しい展開  ●  Part 2 新しい展開の背景を探る  ●  Part 3 Bradleyの理論の発展をたどる  ●  Part 4 Bradleyのcopresheaf意味論 -------------------------- 全体を通して見る --------------------------  ●  「LLMと意味の理論モデル概説」セミナーの講演ビデオ全体の再生リストのURLです。全体を通して再生することができます。  https://www.youtube.com/playlist?list=PLQIrJ0f9gMcO-HFBZuV2oNGzKysLMdm72  ●  講演資料全体を一つのpdfファイルにまとめたものはこちらです。    「LLMと意味の理論モデル概説」講演資料 https://drive.google.com/file/d/1XHo_jW5yJKDfCghRHijOw-Yi4mRvOiYk/view?usp=sharing -----------...

Reel Header

【 トークンとテキスト (動画)】 このセッションでは、Bradleyの2025年の論文を読むにあたって必要な準備を行います。 Bradleyは新しい論文で、現実のLLMの具体的な振る舞いに合わせて新しいLLMのモデルを提案しています。今回は、まず、そこで導入されたノテーションや定義を紹介します。 【 新しいLLMモデルは、何を目的としているのか 】 論文の「はじめに」の部分で、彼女はこう述べています。 「以前の論文ではπ(y|x)の明示的な定義は与えられていなかったが、本稿ではこれらの値がLLMによって生成される次トークン確率から実際に生じ得ることを示す。 類似の構成は[GV24]にも見られるが、我々の手法は有限コンテキストサイズに加え、文頭トークン(⊥で表記)と文末トークン(†で表記)も考慮に入れる。 これにより、π(−|x) は入力 x に対する LLM の終端状態集合 T(x)、あるいは同値的に可能な出力集合上の確率質量関数と見なせることが証明できる。」 【 新しいLLMモデルの構成の詳細はスライドで 】 新しいLLMモデルの構成の詳細については、ビデオあるいはスライドpdfを参照ください。 【 L_x の構成に注目 】 一つだけ補足すると、この中で部分カテゴリー L_x の構成には注目ください。𝐿_𝑥 のオブジェクトは x → y を満たす y ∈ L です。 ----------------------------- まとめページ「LLMのマグニチュード論」 https://www.marulabo.net/docs/llm1bradley2/ ムービーの再生リスト「LLMのマグニチュード論  -- エピソード」 https://www.youtube.com/playlist?list=PLQIrJ0f9gMcMjv25F7mabNGdzKUVt-2CZ 本日のムービーのpdf 「トークンとテキスト」 https://drive.google.com/file/d/11oAZla0Z0krd4ajXrAK75A5Au84eD34_/view?usp=sharing 本日のムービー「トークンとテキスト」 https://youtu.be/Sn4YVvc_F2w ?list=PLQIrJ0f9gMcMjv25F7mabNGdzKUVt-2CZ

マルレク「マグニチュード論の展開」へのお誘い 2

【 マルレク「マグニチュード論の展開」へのお誘い 2 】 今月のマルレク 「マグニチュード論の展開」へのお誘いです。 今回のセミナーの概要を紹介します。 【 お詫び:タイトルを「マグニチュード論の展開」に変更しました 】 セミナーのタイトルを、「Bradleyのマグニチュード論」から「マグニチュード論の展開」 に変更しました。すみません。 当初、今月は、Tai−Danae Bradleyの論文”The Magnitude of Categories of Texts Enriched by Language Models” https://arxiv.org/pdf/2501.06662 を素材としてで、次のような構成を考えていました。 「Bradleyのマグニチュード論」      Part 1  マグニチュード論の展開      Part 2  LLMモデルの拡大    (論文の第二セクション)      Part 3  LLMとマグニチュード論 (論文の第三セクション) 今回のセミナーは、予告した内容の Part 1 を、一つのセミナーに独立させたものになります。 次回のセミナーは、今回入り口の前で止まってしまった「Bradleyのマグニチュード論」をキチンと紹介したいと思っています。新しいURLで「Bradleyのマグニチュード論」のまとめページを作りました。 【 セミナー「マグニチュード論の展開」の構成 】 今回のセミナーは、次のような構成をしています。 「マグニチュード論の展開」      Part 1  マグニチュード論の登場      Part 2  enriched カテゴリー論とマグニチュード      Part 3  Lawvereのenriched カテゴリー論 以下、それぞれの内容を簡単に見ていきましょう。 【 マグニチュード論の登場 】 前回のセミナーは、現代のマグニチュード論の前身ともいうべき数学的対象の「大きさ」についての理論、カントールの「無限の大きさ」や、オイラーの「変わらぬ大きさ – 不変量」の...

マルレク「マグニチュード論の展開」へのお誘い

【 マルレク「マグニチュード論の展開」へのお誘い 】 今月のマルレク 「マグニチュード論の展開」へのお誘いです。 今回のセミナーの概要を紹介します。 【 お詫び:タイトルを「マグニチュード論の展開」に変更しました 】 セミナーのタイトルを、「Bradleyのマグニチュード論」から「マグニチュード論の展開」 に変更しました。すみません。 当初、今月は、Tai−Danae Bradleyの論文”The Magnitude of Categories of Texts Enriched by Language Models” https://arxiv.org/pdf/2501.06662 を素材としてで、次のような構成を考えていました。 「Bradleyのマグニチュード論」      Part 1  マグニチュード論の展開      Part 2  LLMモデルの拡大    (論文の第二セクション)      Part 3  LLMとマグニチュード論 (論文の第三セクション) 今回のセミナーは、予告した内容の Part 1 を、一つのセミナーに独立させたものになります。 次回のセミナーは、今回入り口の前で止まってしまった「Bradleyのマグニチュード論」をキチンと紹介したいと思っています。新しいURLで「Bradleyのマグニチュード論」のまとめページを作りました。(Part 1 だけで未完に終わったページをうつしただけです。) 【 セミナー「マグニチュード論の展開」の構成 】 今回のセミナーは、次のような構成をしています。 「マグニチュード論の展開」      Part 1  マグニチュード論の基礎      Part 2  enriched カテゴリー論とマグニチュード      Part 3  Lawvereのenriched カテゴリー論 以下、それぞれの内容を簡単に見ていきましょう。 【 マグニチュード論の基礎 】 このセクションでは、論理的にも歴史的にも、雑多なトピックが取り上げられています。「マグニチュード論の基礎」とし...

Lawvereの「一般化された距離空間」

【 Lawvereの「一般化された距離空間」 】 このセッションでは、Lawvereの「一般化された距離空間」の話をしたいと思います。 今回、取り上げるのは、1973年の彼の次の論文です。 “Metric Spaces, Generalized Logic and Closed Category” http://www.tac.mta.ca/tac/reprints/articles/1/tr1.pdf この論文、Enriched カテゴリー論を用いて、距離空間の概念を見事に拡張してみせた、彼の有名な論文の一つです。 【 アナロジーで語るEnriched カテゴリー論 】 ただ、この論文のどこにも、Enriched カテゴリーという言葉は使われていません。代わりに、「閉じたカテゴリー」と「強いカテゴリー」いう言葉が使われています。 現代のenriched カテゴリー論の用語でいうと、この論文でLawvereのいう「閉じたカテゴリー」が、enrich化するmonoidai カテゴリー Vのことで、「強いカテゴリー」は、Vでenrich化されたV-カテゴリーのことなのです。(このことを念頭におくと、この論文は読みやすいと思います。) 【 Lawvereの研究と教育のアプローチ 】 また、理論の展開にも特徴があります。彼は言います。 「本稿が、閉じた実数の非負の量という閉カテゴリーを値域とする、強いカテゴリーとして捉えられた距離空間の方向のはっきりした例に基づいて、閉じたカテゴリーへの入門としても読まれることを願う。 閉じたカテゴリーは強いカテゴリーの妥当な理論を構築するのに十分なものであるため、本研究の基盤となるアナロジーの初歩的な性質を明らかにするために、まず強いカテゴリーのいくつかの例を検討する。」 [0, ∞]区間の実数からなる距離空間のような「強いカテゴリー」は、身近でイメージしやすい。そこから具体的な例をうまく積み重ねて、抽象的な「閉じたカテゴリー」を理解する入門コースとしても読んでもらえるようにしたい。 両者の関係では、「閉じたカテゴリー」の役割が本質的だということが、この論文の基本的内容なのだが、そのことは、具体例からの初等的なアナロジーで理解できるはずである。 まあ、そういった趣旨だと思います。 【 enriched カテゴリーという言葉は、 いつ登場し...