投稿

12月, 2025の投稿を表示しています

意味の分散表現論の登場

イメージ
  【 意味の分散表現論の登場 】  コンピュータと自然言語が出会った時以来、大量の言語データを統計的に処理すれば、言語の性質がわかるだろうという楽観論が存在しました。ただ、そうしたアプローチは失敗します。 For breakfast I ate _____eggs. という文の空白部分に入るのは、三つの単語{ to, two, too }のどれかという問題に(答えはもちろん 'two'です)、21世紀に入っても、単純な統計的アプローチは、100% 正確に答えることができませんでした。この論文の著者は、なんと10億語からなる用例集を統計的に処理したのですが。 利用したデータの膨大さにも関わらず、このアプローチの無力さは、なんなのでしょう? 【 Bengioの「次元の呪い」-- 語の数と文の数 】 それは問題の複雑さの尺度を見誤ったことによるものです。データの数を増やせば、問題が解けるようになるとは限らないのです。 26文字のアルファベット15文字以内で構成される語の数は、高々、26^15です。ただし、語彙が10万個ある言語での10個の語からなる文は、100000^10=10^50種類もあるのです。 確認しておくべき重要な事実があります。それは、ある言語ですべての語彙を集めた「辞書」は存在するかもしれないのですが、その言語のすべての文の例を網羅した「用語集」は存在しないということです。 Bengioは、早くから、言語処理に現れる組み合わせの数の爆発を意識していた一人でした。意味の分散表現論の登場を告げる歴史的な2003年の論文で、彼は、それを「次元の呪い」 Curse of Dimentionality と呼びました。 【 Bengioのアプローチ 】 この論文で、Bengioは「次元の呪い」と戦うために、次のような方法を提案します。  1.  語彙中のそれぞれの語に、m個の実数に値を持つ、分散したm次元の特徴ベクトル(word feature vector)を対応づける。  2.  語の並びの結合確率関数を、この並びの中の語の特徴ベクトルで表現する。  3.  語の特徴ベクトルとこの確率関数のパラメーターを、同時に学習する。 乱暴なまとめをすれば、こんなことです。 「文」全体を相手にすると、その数はあまりに多すぎて、い...

文字からembeddingへ −−意味の分散表現論の系譜

イメージ
【 文字から embedding へ −−意味の分散表現論の系譜 】 前回までの投稿で、大規模言語モデルを中核とした現代のAI技術が、インターネット上の膨大な機械可読な情報の集積・蓄積とその技術基盤としての Web Scale の大規模分散システムの成立という所与のもとで生まれてきたという話をしてきました。 それらは、現代のAI成立に先行した技術の経験的に確認できる到達点、あるいは、現代のAIを生み出した技術的「環境」の確認としては意味があると思います。進化にとって、所与としての「環境」は重要です。また、それはその後の進化の方向を決定づけます。 【 何が飛躍だったのか? 】 ただ、環境自体が直接「進化」を生み出すわけではないはずです。技術自体の内部の内発的な変化がその「進化」を主導したはずです。 今回のお話は、現在、我々が目撃している、機械の言語能力の獲得という、歴史上稀に見る「創発的な進化」を可能にしたものは何かというお話です。 機械の言語能力の獲得という進化にとって、何が「飛躍」だったのかは明らかだと思います。僕はそれを、機械が言葉の意味を理解し始めたことだと考えています。 話す聴く音声としてのことばも、書く読む記号としての文字も、人間が意味を伝えるための手段に過ぎません。ことばや文字を駆使する人間の言語能力の中核にあるのは、意味を理解し、意味を伝える能力です。  機械が、意味を理解し意味を伝える能力を持ったこと、それが機械の言語能力獲得という飛躍の中心的な内容です。 人間が意味を理解し伝えるためにことばや文字を使うように、機械が意味を理解し伝えるために使うものがembeddingなのです。 【 意味の分散表現論の系譜 】 embedding 技術を生み出した人間の研究を、「意味の分散表現論」といいます。「意味の分散表現論」には、21世紀のはじめ2003年のベンジオの論文を起源としているのですが、20年近い研究の歴史があります。それは、現在のAI研究の本流とでもいうべきものです。 図は、この研究の流れの中での重要なトピックを抜き出したものです。「意味の分散表現論の系譜」という資料を作成しています。興味がある方はご覧ください。 https://drive.google.com/file/d/1NTs7r-wdtG1EbIkpb1oDmmIFiTlU_0ip/vie...

文字からembeddingへ −− 大規模分散システムの成立

イメージ
【 文字からembeddingへ −− 大規模分散システムの成立】 先に、獲得した言語能力によって可能となった話す聴くことから始まった人間のコミュニケーションと情報共有の範囲が、文字の発明によって空間的にも時間的にも大きく拡大したという話をしました。 大量の情報を時間を超えて世代から次の世代に伝える上で、文字が果たした役割は決定的なものでした。文字は個人の記憶力に依存しない新しい情報の「共有ツール」「記憶装置」を人間に与えました。 文字メディアの発展・拡大は、21世紀まで続きました。 「文字からembeddingへ」という僕のの話は、それに続くものの話なのですが、すこし飛躍があるように思われるかもしれません。今回は言語の歴史と比べれば短いものですが、この四半世紀のIT技術の歴史の話を、大規模分散システムの発展という視点からしてみようと思います。(写真は、Big Table です。ちょっと違うかも。) 【 インターネットの登場と発展 】 インターネットの登場は、情報共有の動きをかつてない規模に拡大しました。同時に、情報共有の拡大は、かつてない規模の情報の集積・蓄積を生み出しました。 21世紀の最初の四半世紀のインターネット上の情報の共有と蓄積の主役は文字(あるいはその電子版である「文字コード」)と言っていいと思います。 そのことは、この時期を代表するBig Techの雄であるGoogleの技術を振り返れば、一層明らかになります。GoogleのPagaRankは、基本的には、検索ワードにそれを含む文章の集合を対応付ます。文字列処理の技術としては、大規模な逆引きインデックスを作成するシステムでした。 PageRankされるべき文章の集合は、Googleのcrawlerが世界中のネットから収集した膨大なものでした。文字情報の「かつてない規模での集積」は、まず、Googleの検索システムの中で生まれたと考えていいと思います。 また、Googleの検索と広告を結びつけるというビジネスモデルは、多くのサイトがGoogleのcrawlerによる情報収集の対象となることをすすんで歓迎することを後押ししました。 【 Googleの検索システムの変化 】 PageRankの実装システムであるMapReduceは処理に数日かかるバッチ・システムでした。検索インデックスを更新するためには、ウ...

情報の共有と情報の集積

イメージ
  【 情報の共有と情報の集積 】 21世紀初頭の四半世紀は、現在の Big Tech の覇権が確立した時期でした。同時にこの時期は、20世紀末から始まったインターネット上のオープンな情報共有が、史上例を見ないほどに拡大した時期でもあります。そのいくつかを見ておきましょう。 【 arXiv 】 1991年8月14日に開始された arXiv.org は、査読なしで科学論文を公開するサイトですが、その掲載論文数は、2008年10月3日に50万件を突破し、2014年末までに100万件、2021年末までに200万件に達しました。 2024年11月現在、投稿数は月間約24,000件だと言います。数学や物理学の多くの分野では、査読付きジャーナルに掲載される前に、ほぼ全ての論文がarXivリポジトリに自己アーカイブされていま(  https://en.wikipedia.org/wiki/ArXiv  より ) 【 GitHub 】 GitHub  は、開発者がコードを作成、保存、管理、共有できる開発者向けプラットフォームです。一般的にオープンソースソフトウェア開発プロジェクトのホスティングに利用されています。2023年1月時点で、GitHubは1億人以上の開発者と4億2000万以上のリポジトリ(少なくとも2800万の公開リポジトリを含む)を擁すると報告しています。2024年には500万以上のオープンソースプロジェクトに対し、50億件以上の開発者の貢献が行われたと言われています。(  https://en.wikipedia.org/wiki/GitHub より )’ 【 WikiPedia 】 2001年にジミー・ウェールズとラリー・サンガーによって創設された WikiPedia は、史上最大かつ最も読まれている参考書であると言われています。当初は英語版のみでしたが、現在では340以上の言語で提供され、世界で9番目にアクセス数の多いウェブサイトに成長しています。英語版ウィキペディアは700万以上の記事を擁し最大ですが、全部の言語版を合わせると6500万以上の記事があり、2024年4月時点で月間15億以上のユニークデバイスアクセスと1300万回の編集アクセスを集めていると言います。 ( https://en...

ことばから文字へ

イメージ
  【 ことばから文字へ 】 人間が生物学的進化のなかで獲得した類的な能力である人類の言語能力は、ある発明によって、新しい段階に進むことになります。それは、文字の発明です。 人間の言語能力の獲得がいつ起きたかについては、30万年前とか10万年前とか諸説あるようなのですが、文字の利用については、紀元前3000年以前に遡ることはないと思います。メソポタミア、エジプト、中国の古代文明がほぼ同時期に文字の利用を始めます。 人間はその言語能力の発揮のほとんどの時間を、文字無しで、話し聴くことばだけで過ごしてきました。 情報伝達の手段としての、話し聴くことばには弱点があります。話し手の情報が届くのは、同じ時間を話し手と共有して、空間的にはその近くにいた人たちだけです。こうしたコミュニケーションを「共時的コミュニケーション」といます。 それでは、文字を持たなかった人間は、話し聴くことばの、時間的・空間的制約を超えることはできなかったのでしょうか? そうではないのです。人間は記憶力と人の輪を舞台としたことばによる共時的コミュニケーションの無数の連鎖によって、世代を超える「通時的コミュニケーション」を可能にしてきました。 盲人だったホメロスは、文字を知りませんでしたが、古代ギリシャの英雄たちの物語を伝え続けました、日本でも、平家の物語は、琵琶法師たちの活躍によって口伝えで広まりました、 現代でも、チベットでは、文字数8千万字余り全詩の行数は100万行を超える「ケサル王伝」が口伝で継承されていると言います。信じられない人は、次のビデオをご覧ください。  https://www.youtube.com/watch?v=W5EBxwejDck スマホ依存症のせいで、人間の記憶力が退化しているのかもしれません。でも、ご心配なく。我らが「言語能力」の本体は、生物学的進化の産物ですので、DNA の「通時的コミュニケーション」の能力を通じて、確実に継承されています。 グーテンベルクの印刷技術にブーストされた文字メディアの発達は、それを我々の「情報共有」と「情報蓄積」の主要なツールへと押し上げました。インターネットの登場は、それをかつてない規模に拡大しました。 インターネットが登場したところで、話はそれで終わりでしょうか? そうではありません。今回の昔話は、機械が言語能力を獲得したことをどう...

「機械が言語能力を獲得した」ということについて

イメージ
  【 「機械が言語能力を獲得した」ということについて 】 先日の投稿( MaruLabo への寄付を訴えた投稿)の中で、「我々は、今、「機械が言語能力を獲得した」という歴史的瞬間に立っています」と書いたのですが、そのことについて質問がありました。 「機械にそんなことできるわけないだろう」という質問ではなく、むしろ逆に、現在の AI の能力の評価としては、「機械が知性(あるいは知能)を獲得した」という評価の方が、適切なのではという意見でした。 確かに、「機械は考えることはできるか?」という判断の基準を示した「チューリング・テスト」を、現在のAI はいとも簡単にクリアできます。 また、チューリングの先輩にあたるディドロは、「どんな質問にも即座にこたえるオウムがいれば、我々はそのオウムは知性を持っていると考えるだろう」と言っていました。ディドロが ChatGPT をみたら、「こいつは知性を持っている」と言ったかもしれません。  僕は、人間の知性(あるいは、知能)と人間の言語能力を区別しています。人間の知能は複雑な構造を持ち、その最も基本的な構成要素、最も重要な基礎が言語能力なのだと。 親と子も恋人同士の二人も老人ホームの老人もことばを使います。 SNS で罵倒し合うのにも、戦争を呼びかけるのにも戦争に反対するのにもことばが必要です。捏造された論文もノーベル賞の対象となる論文も、ことばで書かれています。ビートルズやボブ・ディランや米津の音楽が人のこころにに訴えるのには、彼らの言葉の力が大きな役割を果たしています。 これらすべては、人間がひとしく言語能力を持ってコミュニケーションできるから可能になっていることです。 言語能力をもつ人間がそうであるように、機械が人間並の言語能力を獲得したとしても、それだけで優れた「知性」を発揮するかはわかりません。ただ、優れた知性に成長する土台はできたと考えることはできるかもしれません。 たとえ、それだけに過ぎないとしても、我々が現在目撃していることは、驚くべきことです。 質問もらって嬉しかったです。

マルレク「マグニチュードとは何か」の公開詳細情報です

【 マルレク「マグニチュードとは何か」 講演ビデオと講演資料公開しました 】  9月に開催したマルレク「マグニチュードとは何か」の講演ビデオと講演資料公開しました。ご利用ください。 現在展開中のセミナー「LLMのマグニチュード論 1」  https://www.marulabo.net/docs/llm1bradley2/  のテーマの一つである「マグニチュード」についてのマルレクでは最初の解説です。 マグニチュード論というのは、「大きさ」について考える新しい数学的理論です。 今回のセミナーでは、マグニチュード論の起源に関わる、カントール、オイラー、レンスターという3人の数学者が登場するのですが、一見すると、3人別々の数学をやっているように見えるかもしれません。なかなか「大きさ」についての一つの理論として、イメージが掴めないところがあると思います。 その点では、次の音声概要「マグニチュードとは何か」が、全体像を掴む上では役に立つと思います。ぜひ、ご利用ください。 https://www.marulabo.net/wp-content/uploads/2025/12/%E3%83%9E%E3%82%B0%E3%83%8B%E3%83%81%E3%83%A5%E3%83%BC%E3%83%89%E8%AB%96%E3%81%A8%E3%81%AF%E3%81%AA%E3%81%AB%E3%81%8B.mp3 【マグニチュードは、生成AIと大規模言語モデルの 時代に発見された新しい「大きさ」の概念 】 そこでも述べたのですが、マグニチュードというのは、蒸気機関やインターネットの時代ではなく、生成AIと大規模言語モデルの時代に発見された新しい「大きさ」の概念だと僕は考えています。。時代の大きな変革期には新しい「大きさ」が登場するのかもしれません。 それは、なぜ、生成AIと大規模言語モデルが、あれほどまで見事に言葉の意味を理解できるのかという問題に結びついています。現在ではまだ完全には解明されていないこの問題の解決に、マグニチュード論が貢献する可能性があるのです。 マグニチュード論については、これからもマルレクで取り上げていこうと思っています。  =========================== セミナーは4つのパートに分かれています。個別に...