投稿

1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い

イメージ
1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い  1月31日 マルレク「機械の言語能力の獲得を考える」を開催します。 セミナーのお申し込みは、次のページからお願いします。 https://machine-competence.peatix.com/view 当初、「機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来」というテーマでセミナーを開催することを考えていたのですが、長くなりそうなので、セミナーを次の二つに分けることにしました。 「機械の言語能力の獲得を考える」 「embeddingの共有・蓄積・検索の未来」 このWebページやYouTubeと並行して、次のblogリストからも関連コンテンツにアクセスできます。  https://maruyama097.blogspot.com/2025/12/embedding-blog.html 今回のセミナーのアプローチ  今回のセミナー「機械の言語能力の獲得を考える」は、現代のAI技術の到達点を「機械が言語能力を獲得した」と捉える議論を展開したものです。 機械が新しく獲得した言語能力の中核は、「意味を理解する」能力だと僕は考えています。 今回のセミナーでは、機械の言語能力の獲得の中核を、機械の意味を理解する能力の獲得とする議論を行います。 中心問題は、機械は、どのようにして「意味を理解する」ようになったのか? という問題です。この問題については、21世紀初めからの「意味の分散表現論」の発展が一つの答えを与えてくれると思っています。 セミナーでは、意味のベクトル表現の発見に始まり、翻訳モデルから大規模言語モデルへの発展へと結実する理論の歴史を振り返ろうと思います。 こうしたアプローチの意味と課題  「言語能力の獲得」→「意味の理解能力の獲得」→「意味の分散表現論の発展」というスキームや、AI技術の発展を分散表現論の歴史で説明するアプローチには、多くのものを捨象しているという問題もあります。  AGI論の功罪 アルトマンは、2035年までに、あらゆる個人が「2025年時点の全人類に匹敵する知的能力」を手に入れることができると予測しています。 https://www.marketingaiinstitute.com/blog/the-ai-show-...

Transformerの登場

イメージ
 Transformerの登場 今回は、意味の分散表現論の流れの中で、最も重要な技術的達成の一つであるTransformerの話です。この間、2回のInterludeを挟んで話題が飛んでいたので、これまでの投稿を振り返りから始めていきたいと思います。一部の議論の重複お許しください。 Interlude以前の投稿で、2014年のIlya Sutskever らによる「文の意味のベクトル表現の発見」が、意味の分散表現論の大きな転機となったことを紹介してきました。 「文の意味のベクトル表現の発見」 https://maruyama097.blogspot.com/2025/12/blog-post_30.html   そこでも述べましたが、特に重要な出来事は、この発見に刺激を受けてBengioのグループが、Attention メカニズムを提案したことです。(以前の資料では、Attentionメカニズムの提案は、2016年になっていますが、正確には、2014年です。詳しくは、このblogのAppendixをご覧ください。) 今回のテーマのTransformerは、このAttention メカニズムの集大成です。 そのことは、2017年のTransformerの論文タイトルの "Attention Is All You Need"   https://arxiv.org/pdf/1706.03762   によく表れています。 同時に、意味の分散表現論にとって、Transformerの登場は画期的なものでした。そのことは、翻訳モデルとして提起されたTransformer のアーキテクチャーが、大規模言語モデルの最も基本的なエンジンに姿を変えて、論文発表後9年たった今日も、生き続けていることを見ればわかると思います。 翻訳システムの進化  Transformer論文の出る一年前の2016年、当時のAI技術の中心領域であった機械翻訳の分野で、画期的な成果が世に出ます。前回のポストで紹介した、「Googleニューラル機械翻訳  GNMT」です。それは、2014年の Ilya Sutskever の   Sequence to Sequence の翻訳システムの進化系です、 Ilyaの翻訳システムでは、Enc...

Interlude 2 −− OpenAI の分裂が残したもの

イメージ
 Interlude 2 −− OpenAI の分裂が残したもの  2022年11月30日のChatGPTの衝撃的な登場とその後の利用者の爆発的な拡大は、OpenAIの成功とAIの新時代の到来を多くの人に印象づけました。 順風満帆に見えたOpenAIですが、その取締役会はCEOのサム・アルトマンを突然解任し、世界を驚かせました。ChatGPTの発表から一年後の2023年11月17日のことでした。 そのわずか5日後の11月21日には、アルトマンがCEOに復帰します。結果的には、それまでOpenAIの主要メンバーだった、イリヤ・サツケヴァー、ヘレン・トナーらが取締役会を去ることになります。旧OpenAIは、激しい意見対立の末、分裂・解体したのです。 突然問題が起きたように見え、また、非常に短期間で決着がついたこともあって、「そんな騒動もあったな」ぐらいの印象しか残っていないかもしれません。今では、AI BigTechたちの競争とその未来については多くのことが語られていても、この「事件」に遡った考察はほとんどないように見えます。それは残念なことです。 今回の「Interlude 2 −− OpenAI の分裂が残したもの」は、あらためて、この問題を扱ったものです。 予兆としての「GPT-4 System Card」の公開  問題は、突然起きたわけではありません。分裂の予兆はすでにありました。そのことは、2023年3月に公開されたOpenAIの「GPT-4 System Card」という文書の内容とその公開のスタイルに象徴的に現れていると僕は考えています。 正確にいうと、OpenAIが独立の文書としてこの「GPT-4 System Card」を公開したわけではありません。OpenAIが3月に公開したのは、「GPT-4 Technical Report」という文書で、そのAppendixとして「GPT-4 System Card」は世に出ることになります。 奇妙なことに、論文本体の「GPT-4 Technical Report」は、“Introduction” から ”Conclusion”まで、12ページ程の短いものなのですが、先のpdf全体のボリュームは 100ページもあります。(今、確認したら、この論文の現在のバージョンは 2024年に改定さ...

Interlude 1 −− ChatGPTが生まれた日

イメージ
 Interlude 1 −− ChatGPTが生まれた日  今年もよろしくお願いします。 今回は、順番から言うと、TransformerとBERTを扱うはずだったのですが、予定を変更しています。正月を挟んで少し間が空いたのでが、幕間 − Interlude として、少し寄り道をして二つのエピソードを紹介しようと思います。 今回は、Interlude 1 として、ChatGPTの登場を、次回は、Interlude 2 として、その一年後の OpenAIの大分裂を取り上げます。 今回のシリーズの問題意識は、どのような技術の発展が、機械に意味を理解させることを可能にしたのかを追いかけてみようというものです。その中核はembeddingです。 ただ、技術だけを狭く追いかけていては、うまく捉えられない飛躍もあります。雑な言い方ですが、技術的には見れば、Google ニューラル機械翻訳とTransgormerとBERTには技術的な連続性があります。BERTとGPTの末尾の'T'はTransformerの先頭の'T'です。 当時の僕は、ラベルも何もないWebから集めた膨大な文字列を、TransformerやBERTが、バリバリと食べてembeddingを生成し続けることに驚嘆していました。(繰り返しますが、それが今回のシリーズの主題です)もちろん、ChatGPTの示す意味理解能力が、そうした技術に裏打ちされているのは確かなのですが。 ただ、ChatGPTを見た時の驚きは、それとは違う性格のものでした。確かに、そのアプローチは、意味の分散表現論の主流に位置付けられるものではないように思えます。 ChatGPTが生まれた日は、2022年11月30日  ChatGPTが、おおやけに姿を現したのは、2022年の11月30日のOpenAIの次のblog記事によってでした。 https://openai.com/blog/chatgpt/ 2022年の12月26日、僕は「なぜ?で考える ChatGPT の不思議」というタイトルのセミナーを開きました。 https://www.marulabo.net/docs/chatgpt/ 「ChatGPT 試してみましたか?  なかなか驚きです。今までのAI技術と一味違います。 いろいろ不思議なことに気がつきます。 ...

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

イメージ
機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来 #01 「機械が言語能力を獲得した」ということについて https://maruyama097.blogspot.com/2025/12/blog-post_25.html #02 ことばから文字へ https://maruyama097.blogspot.com/2025/12/blog-post_51.html #03 情報の共有と情報の集積 https://maruyama097.blogspot.com/2025/12/blog-post_37.html #04 文字からembeddingへ −− 大規模分散システムの成立 https://maruyama097.blogspot.com/2025/12/embedding.html #05  文字からembeddingへ −−意味の分散表現論の系譜 https://maruyama097.blogspot.com/2025/12/embedding_25.html #06  意味の分散表現論の登場 https://maruyama097.blogspot.com/2025/12/blog-post_27.html #07  文の意味のベクトル表現の発見 https://maruyama097.blogspot.com/2025/12/blog-post_30.html #08  Interlude 1 −− ChatGPTが生まれた日 https://maruyama097.blogspot.com/2026/01/interlude-1-chatgpt.html #09 Interlude 2 −− OpenAI の分裂が残したもの https://maruyama097.blogspot.com/2026/01/interlude-2-openai.html #10  Transformerの登場 https://maruyama097.blogspot.com/2026/01/transformer.html #11  1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い https://maruyama097.blogspot.com/2026/01/131...

文の意味のベクトル表現の発見

イメージ
  文の意味のベクトル表現の発見  意味の分散表現論の誕生期から発展期への転換を画する論文があります。それは、Ilya Sutskever らの2014年の論文、"Sequence to Sequence Learning with Neural Networks" です。 この論文は、Mikalovの「語の意味ベクトル」の発見の翌年のものです。Ilyaは、「語の意味」がベクトルで表現されるだけでなく、「文の意味」もベクトルで表現されることを見事に示したのです。これは、意味の分散表現論にとって大きな飛躍でした。 "Sequence to Sequence"という名前が少し分かりにくいかもしれません。Ilya Sutskever らの論文は、シーケンスをシーケンスに変換するRNN(LSTM)の能力が、機械翻訳に応用できるという論文でした。 「我々の方法では、入力のシーケンスを固定次元のベクトルにマップするのに、多層のLong Short-Term Memory(LSTM)を利用する。その後、別の深いLSTMが、このベクトルから目的のシーケンスをデコードする。」 図の意味を簡単に説明します。前段の入力のSequenceから作られるのは、それら入力情報のエッセンスとしての「文の意味」ベクトルです。それがEncoderの最終出力になります。そうして、この情報が後段のDecoderの最初の入力になり出力のSequenceを構成するのに利用されます。 それでは、二つのSequence を結びつけているのはなんでしょう。それは二つのSequenceが「同じ意味」を持つということです。Encoderの最終の出力で、Decoderの最初の入力となる「固定次元のベクトル」とは、二つの文が「同じ意味」を持つことを表現している「文の意味」のベクトル表現に他なりません。 Ilya Sutskever らは、このアーキテクチャーで、英語をフランス語に翻訳するシステムを作成し、BLEUのスコアで、34.81という高得点をたたき出しました。この時のシステムは、5段重ねのLSTMで構成され、それぞれが 8,000次元の状態からなる384M個のパラメーターを持つ巨大なものでした。 Attention メカニズム  語だけでなく文の意味もベクトルで表現されるとい...

意味の分散表現論の登場

イメージ
  意味の分散表現論の登場  コンピュータと自然言語が出会った時以来、大量の言語データを統計的に処理すれば、言語の性質がわかるだろうという楽観論が存在しました。ただ、そうしたアプローチは失敗します。 For breakfast I ate _____eggs. という文の空白部分に入るのは、三つの単語{ to, two, too }のどれかという問題に(答えはもちろん 'two'です)、21世紀に入っても、単純な統計的アプローチは、100% 正確に答えることができませんでした。この論文の著者は、なんと10億語からなる用例集を統計的に処理したのですが。 利用したデータの膨大さにも関わらず、このアプローチの無力さは、なんなのでしょう? Bengioの「次元の呪い」-- 語の数と文の数  それは問題の複雑さの尺度を見誤ったことによるものです。データの数を増やせば、問題が解けるようになるとは限らないのです。 26文字のアルファベット15文字以内で構成される語の数は、高々、26^15です。ただし、語彙が10万個ある言語での10個の語からなる文は、100000^10=10^50種類もあるのです。 確認しておくべき重要な事実があります。それは、ある言語ですべての語彙を集めた「辞書」は存在するかもしれないのですが、その言語のすべての文の例を網羅した「用語集」は存在しないということです。 Bengioは、早くから、言語処理に現れる組み合わせの数の爆発を意識していた一人でした。意味の分散表現論の登場を告げる歴史的な2003年の論文で、彼は、それを「次元の呪い」 Curse of Dimentionality と呼びました。 Bengioのアプローチ  この論文で、Bengioは「次元の呪い」と戦うために、次のような方法を提案します。  1.  語彙中のそれぞれの語に、m個の実数に値を持つ、分散したm次元の特徴ベクトル(word feature vector)を対応づける。  2.  語の並びの結合確率関数を、この並びの中の語の特徴ベクトルで表現する。  3.  語の特徴ベクトルとこの確率関数のパラメーターを、同時に学習する。 乱暴なまとめをすれば、こんなことです。 「文」全体を相手にすると、その数はあまりに多すぎて、い...

文字からembeddingへ −−意味の分散表現論の系譜

イメージ
文字から embedding へ −−意味の分散表現論の系譜  前回までの投稿で、大規模言語モデルを中核とした現代のAI技術が、インターネット上の膨大な機械可読な情報の集積・蓄積とその技術基盤としての Web Scale の大規模分散システムの成立という所与のもとで生まれてきたという話をしてきました。 それらは、現代のAI成立に先行した技術の経験的に確認できる到達点、あるいは、現代のAIを生み出した技術的「環境」の確認としては意味があると思います。進化にとって、所与としての「環境」は重要です。また、それはその後の進化の方向を決定づけます。 何が飛躍だったのか? ただ、環境自体が直接「進化」を生み出すわけではないはずです。技術自体の内部の内発的な変化がその「進化」を主導したはずです。 今回のお話は、現在、我々が目撃している、機械の言語能力の獲得という、歴史上稀に見る「創発的な進化」を可能にしたものは何かというお話です。 機械の言語能力の獲得という進化にとって、何が「飛躍」だったのかは明らかだと思います。僕はそれを、機械が言葉の意味を理解し始めたことだと考えています。 話す聴く音声としてのことばも、書く読む記号としての文字も、人間が意味を伝えるための手段に過ぎません。ことばや文字を駆使する人間の言語能力の中核にあるのは、意味を理解し、意味を伝える能力です。  機械が、意味を理解し意味を伝える能力を持ったこと、それが機械の言語能力獲得という飛躍の中心的な内容です。 人間が意味を理解し伝えるためにことばや文字を使うように、機械が意味を理解し伝えるために使うものがembeddingなのです。 意味の分散表現論の系譜  embedding 技術を生み出した人間の研究を、「意味の分散表現論」といいます。「意味の分散表現論」には、21世紀のはじめ2003年のベンジオの論文を起源としているのですが、20年近い研究の歴史があります。それは、現在のAI研究の本流とでもいうべきものです。 図は、この研究の流れの中での重要なトピックを抜き出したものです。「意味の分散表現論の系譜」という資料を作成しています。興味がある方はご覧ください。 https://drive.google.com/file/d/1NTs7r-wdtG1EbIkpb1oDmmIFiTlU_0ip/view...

文字からembeddingへ −− 大規模分散システムの成立

イメージ
文字からembeddingへ −− 大規模分散システムの成立 先に、獲得した言語能力によって可能となった話す聴くことから始まった人間のコミュニケーションと情報共有の範囲が、文字の発明によって空間的にも時間的にも大きく拡大したという話をしました。 大量の情報を時間を超えて世代から次の世代に伝える上で、文字が果たした役割は決定的なものでした。文字は個人の記憶力に依存しない新しい情報の「共有ツール」「記憶装置」を人間に与えました。 文字メディアの発展・拡大は、21世紀まで続きました。 「文字からembeddingへ」という僕のの話は、それに続くものの話なのですが、すこし飛躍があるように思われるかもしれません。今回は言語の歴史と比べれば短いものですが、この四半世紀のIT技術の歴史の話を、大規模分散システムの発展という視点からしてみようと思います。(写真は、Big Table です。ちょっと違うかも。) インターネットの登場と発展  インターネットの登場は、情報共有の動きをかつてない規模に拡大しました。同時に、情報共有の拡大は、かつてない規模の情報の集積・蓄積を生み出しました。 21世紀の最初の四半世紀のインターネット上の情報の共有と蓄積の主役は文字(あるいはその電子版である「文字コード」)と言っていいと思います。 そのことは、この時期を代表するBig Techの雄であるGoogleの技術を振り返れば、一層明らかになります。GoogleのPagaRankは、基本的には、検索ワードにそれを含む文章の集合を対応付ます。文字列処理の技術としては、大規模な逆引きインデックスを作成するシステムでした。 PageRankされるべき文章の集合は、Googleのcrawlerが世界中のネットから収集した膨大なものでした。文字情報の「かつてない規模での集積」は、まず、Googleの検索システムの中で生まれたと考えていいと思います。 また、Googleの検索と広告を結びつけるというビジネスモデルは、多くのサイトがGoogleのcrawlerによる情報収集の対象となることをすすんで歓迎することを後押ししました。 Googleの検索システムの変化 PageRankの実装システムであるMapReduceは処理に数日かかるバッチ・システムでした。検索インデックスを更新するためには、ウェブ全体を再...

情報の共有と情報の集積

イメージ
  情報の共有と情報の集積  21世紀初頭の四半世紀は、現在の Big Tech の覇権が確立した時期でした。同時にこの時期は、20世紀末から始まったインターネット上のオープンな情報共有が、史上例を見ないほどに拡大した時期でもあります。そのいくつかを見ておきましょう。  arXiv  1991年8月14日に開始された arXiv.org は、査読なしで科学論文を公開するサイトですが、その掲載論文数は、2008年10月3日に50万件を突破し、2014年末までに100万件、2021年末までに200万件に達しました。 2024年11月現在、投稿数は月間約24,000件だと言います。数学や物理学の多くの分野では、査読付きジャーナルに掲載される前に、ほぼ全ての論文がarXivリポジトリに自己アーカイブされていま(  https://en.wikipedia.org/wiki/ArXiv  より )  GitHub  GitHub  は、開発者がコードを作成、保存、管理、共有できる開発者向けプラットフォームです。一般的にオープンソースソフトウェア開発プロジェクトのホスティングに利用されています。2023年1月時点で、GitHubは1億人以上の開発者と4億2000万以上のリポジトリ(少なくとも2800万の公開リポジトリを含む)を擁すると報告しています。2024年には500万以上のオープンソースプロジェクトに対し、50億件以上の開発者の貢献が行われたと言われています。(  https://en.wikipedia.org/wiki/GitHub より )’ WikiPedia   2001年にジミー・ウェールズとラリー・サンガーによって創設された WikiPedia は、史上最大かつ最も読まれている参考書であると言われています。当初は英語版のみでしたが、現在では340以上の言語で提供され、世界で9番目にアクセス数の多いウェブサイトに成長しています。英語版ウィキペディアは700万以上の記事を擁し最大ですが、全部の言語版を合わせると6500万以上の記事があり、2024年4月時点で月間15億以上のユニークデバイスアクセスと1300万回の編集アクセスを集めていると言いま...

ことばから文字へ

イメージ
  ことばから文字へ 人間が生物学的進化のなかで獲得した類的な能力である人類の言語能力は、ある発明によって、新しい段階に進むことになります。それは、文字の発明です。   人間の言語能力の獲得がいつ起きたかについては、30万年前とか10万年前とか諸説あるようなのですが、文字の利用については、紀元前3000年以前に遡ることはないと思います。メソポタミア、エジプト、中国の古代文明がほぼ同時期に文字の利用を始めます。 人間はその言語能力の発揮のほとんどの時間を、文字無しで、話し聴くことばだけで過ごしてきました。 情報伝達の手段としての、話し聴くことばには弱点があります。話し手の情報が届くのは、同じ時間を話し手と共有して、空間的にはその近くにいた人たちだけです。こうしたコミュニケーションを「共時的コミュニケーション」といます。 それでは、文字を持たなかった人間は、話し聴くことばの、時間的・空間的制約を超えることはできなかったのでしょうか? そうではないのです。人間は記憶力と人の輪を舞台としたことばによる共時的コミュニケーションの無数の連鎖によって、世代を超える「通時的コミュニケーション」を可能にしてきました。 盲人だったホメロスは、文字を知りませんでしたが、古代ギリシャの英雄たちの物語を伝え続けました、日本でも、平家の物語は、琵琶法師たちの活躍によって口伝えで広まりました、 現代でも、チベットでは、文字数8千万字余り全詩の行数は100万行を超える「ケサル王伝」が口伝で継承されていると言います。信じられない人は、次のビデオをご覧ください。  https://www.youtube.com/watch?v=W5EBxwejDck スマホ依存症のせいで、人間の記憶力が退化しているのかもしれません。でも、ご心配なく。我らが「言語能力」の本体は、生物学的進化の産物ですので、DNA の「通時的コミュニケーション」の能力を通じて、確実に継承されています。 グーテンベルクの印刷技術にブーストされた文字メディアの発達は、それを我々の「情報共有」と「情報蓄積」の主要なツールへと押し上げました。インターネットの登場は、それをかつてない規模に拡大しました。 インターネットが登場したところで、話はそれで終わりでしょうか? そうではありません。今回の昔話は、機械が言語能力を獲得したことをどう見る...

「機械が言語能力を獲得した」ということについて

イメージ
  「機械が言語能力を獲得した」ということについて  先日の投稿( MaruLabo への寄付を訴えた投稿)の中で、「我々は、今、「機械が言語能力を獲得した」という歴史的瞬間に立っています」と書いたのですが、そのことについて質問がありました。   「機械にそんなことできるわけないだろう」という質問ではなく、むしろ逆に、現在の AI の能力の評価としては、「機械が知性(あるいは知能)を獲得した」という評価の方が、適切なのではという意見でした。 確かに、「機械は考えることはできるか?」という判断の基準を示した「チューリング・テスト」を、現在のAI はいとも簡単にクリアできます。 また、チューリングの先輩にあたるディドロは、「どんな質問にも即座にこたえるオウムがいれば、我々はそのオウムは知性を持っていると考えるだろう」と言っていました。ディドロが ChatGPT をみたら、「こいつは知性を持っている」と言ったかもしれません。  僕は、人間の知性(あるいは、知能)と人間の言語能力を区別しています。人間の知能は複雑な構造を持ち、その最も基本的な構成要素、最も重要な基礎が言語能力なのだと。 親と子も恋人同士の二人も老人ホームの老人もことばを使います。 SNS で罵倒し合うのにも、戦争を呼びかけるのにも戦争に反対するのにもことばが必要です。捏造された論文もノーベル賞の対象となる論文も、ことばで書かれています。ビートルズやボブ・ディランや米津の音楽が人のこころにに訴えるのには、彼らの言葉の力が大きな役割を果たしています。 これらすべては、人間がひとしく言語能力を持ってコミュニケーションできるから可能になっていることです。 言語能力をもつ人間がそうであるように、機械が人間並の言語能力を獲得したとしても、それだけで優れた「知性」を発揮するかはわかりません。ただ、優れた知性に成長する土台はできたと考えることはできるかもしれません。 たとえ、それだけに過ぎないとしても、我々が現在目撃していることは、驚くべきことです。 質問もらって嬉しかったです。 画像クリックで関連blogのリストへ移動できます

マルレク「マグニチュードとは何か」の公開詳細情報です

【 マルレク「マグニチュードとは何か」 講演ビデオと講演資料公開しました 】  9月に開催したマルレク「マグニチュードとは何か」の講演ビデオと講演資料公開しました。ご利用ください。 現在展開中のセミナー「LLMのマグニチュード論 1」  https://www.marulabo.net/docs/llm1bradley2/  のテーマの一つである「マグニチュード」についてのマルレクでは最初の解説です。 マグニチュード論というのは、「大きさ」について考える新しい数学的理論です。 今回のセミナーでは、マグニチュード論の起源に関わる、カントール、オイラー、レンスターという3人の数学者が登場するのですが、一見すると、3人別々の数学をやっているように見えるかもしれません。なかなか「大きさ」についての一つの理論として、イメージが掴めないところがあると思います。 その点では、次の音声概要「マグニチュードとは何か」が、全体像を掴む上では役に立つと思います。ぜひ、ご利用ください。 https://www.marulabo.net/wp-content/uploads/2025/12/%E3%83%9E%E3%82%B0%E3%83%8B%E3%83%81%E3%83%A5%E3%83%BC%E3%83%89%E8%AB%96%E3%81%A8%E3%81%AF%E3%81%AA%E3%81%AB%E3%81%8B.mp3 【マグニチュードは、生成AIと大規模言語モデルの 時代に発見された新しい「大きさ」の概念 】 そこでも述べたのですが、マグニチュードというのは、蒸気機関やインターネットの時代ではなく、生成AIと大規模言語モデルの時代に発見された新しい「大きさ」の概念だと僕は考えています。。時代の大きな変革期には新しい「大きさ」が登場するのかもしれません。 それは、なぜ、生成AIと大規模言語モデルが、あれほどまで見事に言葉の意味を理解できるのかという問題に結びついています。現在ではまだ完全には解明されていないこの問題の解決に、マグニチュード論が貢献する可能性があるのです。 マグニチュード論については、これからもマルレクで取り上げていこうと思っています。  =========================== セミナーは4つのパートに分かれています。個別に...

マルレク「LLMのマグニチュード論 1」へのお誘い

【 マルレク「LLMのマグニチュード論 1」へのお誘い 】 今週末(12月6日(土))に開催予定のマルレク「LLMのマグニチュード論 1」へのお誘いです。 セミナーへのお申し込みは、次のページからお願いします。 https://llmbradley2.peatix.com/view 今回のセミナーでは、LLMの理論研究で、もっとも新しく最も先進的な業績である Tai−Danae Bradleyの論文 “The Magnitude of Categories of Texts Enriched by Language Models”  https://arxiv.org/pdf/2501.06662   の紹介をしようと思います。 【 この論文が扱っている二つの課題 】 この論文は、二つの課題を扱っています。 一つは、LMの意味論に カテゴリー論的基礎を与えた 2022年のBradleyらの論文“An enriched category theory of language: From syntax to semantics.” のモデルを拡大するという課題です。 たとえば、「プロンプトの入力」「プロンプトへの回答の出力」というような、LLMの現実の振る舞いを解釈しうるようにLLMのモデルを拡大するということです。 もう一つの課題は、こうして現実のLLMの振る舞いをシミュレートしうる拡大されたLLMのカテゴリー論的理論をを構築し、それを、この間マルレクでも取り上げてきたマグニチュードの理論を結びつける課題です。 【 今回のセミナーが扱う範囲とセミナーの構成 】 ただし、今回のセミナー「LLMのマグニチュード論 1」は、そうしたBradleyの論文紹介を目的とした連続セミナーの第一回目です。 今回のセミナーがカバーする内容は、先の「この論文が扱っている二つの課題」の前半部分の「LLMのモデルの拡大」にフォーカスしたものです。 今回のセミナーの構成は、次のようになります。   Part 1 BradleyのLLMモデル論概要   Part 2   LLMの確率計算   Part 3   Enrichedカテゴリー論とLLMモデルの拡大 【 Part 1 BradleyのLLMモデル論概要 】 連続セミナーの第一回目とし...

LLMの確率計算の基本

【 -LLMの確率計算の基本 】 先のセッションでは、Bradleyの2025年の論文の前半部分の中心的な内容である「命題 1」の証明の概略を述べましたが、その細部は省略していました。 このセッションでは、「命題 1」の証明に必要なLLMの確率計算の基本を確認したいと思います。証明は次のセッションで行います。 「命題 1」は、次のことを主張しています。 命題1.言語Lにおける未完成テキストxが与えられたとき、関数𝜋(−│𝑥) |_𝑇(𝑥) は入力xの終端状態上の確率質量関数である。 【  基本的な用語の確認 】 「命題 1」に出てくる基本的な言葉の意味を確認しておきましょう。ここでは、次のような用語の意味を確認します。特に「確率質量関数」では、具体的な例をいくつかあげておきました。  ・未完成テキスト  ・完成テキスト  ・終端状態集合 𝑇(𝑥)  ・確率質量関数  ・カテゴリーLのオブジェク𝑜𝑏(𝐿)  ・カテゴリーLの射 x → y  ・部分カテゴリー 𝐿_𝑥 【 確率分布𝑝_𝑥( −|𝑥 )の生成と その分布の下でのサンプリング 】 ・LLMは、テキスト 𝑥 が与えられた時、次に出現するトークンを予測する確率分布 𝑝_𝑥( −|𝑥 )を生成します。 ・LLMは、一つのトークン 𝑎 を選んで𝑥に追加して、テキストを一つ分延長して 𝑥𝑎にします。 ・このとき、𝑥の後ろに一つのトークン𝑎が追加される確率は、𝑝_𝑥( a|𝑥 )になります。 【 Next Token 確率 𝑝_x( a|x ) 】 テキスト x が与えられた時、次に出現するトークンを予測する確率分布 𝑝_x( −|x) を、Next Token 確率分布といいます。 この分布の下でaをサンプリングして、テキストxの次のトークンがaとなることを表す確率𝑝_x( a|x )  を「Next Token 確率」と呼びます。 定義 2 の𝜋(y|𝑥) の定義は、もし、 x→yであるyが、xにk個のトークンを追加したものなら、その値は、k個の Next Token 確率の積で定義されるということです。 【 パス確率 𝜋(y|𝑥)と Next Token 確率 𝑝(𝑎|𝑥) 】 x, y, zが x → y → z を...