投稿

Interlude 2 −− OpenAI の分裂が残したもの

イメージ
 Interlude 2 −− OpenAI の分裂が残したもの  2022年11月30日のChatGPTの衝撃的な登場とその後の利用者の爆発的な拡大は、OpenAIの成功とAIの新時代の到来を多くの人に印象づけました。 順風満帆に見えたOpenAIですが、その取締役会はCEOのサム・アルトマンを突然解任し、世界を驚かせました。ChatGPTの発表から一年後の2023年11月17日のことでした。 そのわずか5日後の11月21日には、アルトマンがCEOに復帰します。結果的には、それまでOpenAIの主要メンバーだった、イリヤ・サツケヴァー、ヘレン・トナーらが取締役会を去ることになります。旧OpenAIは、激しい意見対立の末、分裂・解体したのです。 突然問題が起きたように見え、また、非常に短期間で決着がついたこともあって、「そんな騒動もあったな」ぐらいの印象しか残っていないかもしれません。今では、AI BigTechたちの競争とその未来については多くのことが語られていても、この「事件」に遡った考察はほとんどないように見えます。それは残念なことです。 今回の「Interlude 2 −− OpenAI の分裂が残したもの」は、あらためて、この問題を扱ったものです。 予兆としての「GPT-4 System Card」の公開  問題は、突然起きたわけではありません。分裂の予兆はすでにありました。そのことは、2023年3月に公開されたOpenAIの「GPT-4 System Card」という文書の内容とその公開のスタイルに象徴的に現れていると僕は考えています。 正確にいうと、OpenAIが独立の文書としてこの「GPT-4 System Card」を公開したわけではありません。OpenAIが3月に公開したのは、「GPT-4 Technical Report」という文書で、そのAppendixとして「GPT-4 System Card」は世に出ることになります。 奇妙なことに、論文本体の「GPT-4 Technical Report」は、“Introduction” から ”Conclusion”まで、12ページ程の短いものなのですが、先のpdf全体のボリュームは 100ページもあります。(今、確認したら、この論文の現在のバージョンは 2024年に改定さ...

Interlude 1 −− ChatGPTが生まれた日

イメージ
 Interlude 1 −− ChatGPTが生まれた日  今年もよろしくお願いします。 今回は、順番から言うと、TransformerとBERTを扱うはずだったのですが、予定を変更しています。正月を挟んで少し間が空いたのでが、幕間 − Interlude として、少し寄り道をして二つのエピソードを紹介しようと思います。 今回は、Interlude 1 として、ChatGPTの登場を、次回は、Interlude 2 として、その一年後の OpenAIの大分裂を取り上げます。 今回のシリーズの問題意識は、どのような技術の発展が、機械に意味を理解させることを可能にしたのかを追いかけてみようというものです。その中核はembeddingです。 ただ、技術だけを狭く追いかけていては、うまく捉えられない飛躍もあります。雑な言い方ですが、技術的には見れば、Google ニューラル機械翻訳とTransgormerとBERTには技術的な連続性があります。BERTとGPTの末尾の'T'はTransformerの先頭の'T'です。 当時の僕は、ラベルも何もないWebから集めた膨大な文字列を、TransformerやBERTが、バリバリと食べてembeddingを生成し続けることに驚嘆していました。(繰り返しますが、それが今回のシリーズの主題です)もちろん、ChatGPTの示す意味理解能力が、そうした技術に裏打ちされているのは確かなのですが。 ただ、ChatGPTを見た時の驚きは、それとは違う性格のものでした。確かに、そのアプローチは、意味の分散表現論の主流に位置付けられるものではないように思えます。 ChatGPTが生まれた日は、2022年11月30日  ChatGPTが、おおやけに姿を現したのは、2022年の11月30日のOpenAIの次のblog記事によってでした。 https://openai.com/blog/chatgpt/ 2022年の12月26日、僕は「なぜ?で考える ChatGPT の不思議」というタイトルのセミナーを開きました。 https://www.marulabo.net/docs/chatgpt/ 「ChatGPT 試してみましたか?  なかなか驚きです。今までのAI技術と一味違います。 いろいろ不思議なことに気がつきます。 ...

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

イメージ
機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来 #01 「機械が言語能力を獲得した」ということについて https://maruyama097.blogspot.com/2025/12/blog-post_25.html #02 ことばから文字へ https://maruyama097.blogspot.com/2025/12/blog-post_51.html #03 情報の共有と情報の集積 https://maruyama097.blogspot.com/2025/12/blog-post_37.html #04 文字からembeddingへ −− 大規模分散システムの成立 https://maruyama097.blogspot.com/2025/12/embedding.html #05  文字からembeddingへ −−意味の分散表現論の系譜 https://maruyama097.blogspot.com/2025/12/embedding_25.html #06  意味の分散表現論の登場 https://maruyama097.blogspot.com/2025/12/blog-post_27.html #07  文の意味のベクトル表現の発見 https://maruyama097.blogspot.com/2025/12/blog-post_30.html #08  Interlude 1 −− ChatGPTが生まれた日 https://maruyama097.blogspot.com/2026/01/interlude-1-chatgpt.html #09 Interlude 2 −− OpenAI の分裂が残したもの https://maruyama097.blogspot.com/2026/01/interlude-2-openai.html #10  Transformerの登場 https://maruyama097.blogspot.com/2026/01/transformer.html #11  1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い https://maruyama097.blogspot.com/2026/01/131...

文の意味のベクトル表現の発見

イメージ
  文の意味のベクトル表現の発見  意味の分散表現論の誕生期から発展期への転換を画する論文があります。それは、Ilya Sutskever らの2014年の論文、"Sequence to Sequence Learning with Neural Networks" です。 この論文は、Mikalovの「語の意味ベクトル」の発見の翌年のものです。Ilyaは、「語の意味」がベクトルで表現されるだけでなく、「文の意味」もベクトルで表現されることを見事に示したのです。これは、意味の分散表現論にとって大きな飛躍でした。 "Sequence to Sequence"という名前が少し分かりにくいかもしれません。Ilya Sutskever らの論文は、シーケンスをシーケンスに変換するRNN(LSTM)の能力が、機械翻訳に応用できるという論文でした。 「我々の方法では、入力のシーケンスを固定次元のベクトルにマップするのに、多層のLong Short-Term Memory(LSTM)を利用する。その後、別の深いLSTMが、このベクトルから目的のシーケンスをデコードする。」 図の意味を簡単に説明します。前段の入力のSequenceから作られるのは、それら入力情報のエッセンスとしての「文の意味」ベクトルです。それがEncoderの最終出力になります。そうして、この情報が後段のDecoderの最初の入力になり出力のSequenceを構成するのに利用されます。 それでは、二つのSequence を結びつけているのはなんでしょう。それは二つのSequenceが「同じ意味」を持つということです。Encoderの最終の出力で、Decoderの最初の入力となる「固定次元のベクトル」とは、二つの文が「同じ意味」を持つことを表現している「文の意味」のベクトル表現に他なりません。 Ilya Sutskever らは、このアーキテクチャーで、英語をフランス語に翻訳するシステムを作成し、BLEUのスコアで、34.81という高得点をたたき出しました。この時のシステムは、5段重ねのLSTMで構成され、それぞれが 8,000次元の状態からなる384M個のパラメーターを持つ巨大なものでした。 Attention メカニズム  語だけでなく文の意味もベクトルで表現されるとい...

意味の分散表現論の登場

イメージ
  意味の分散表現論の登場  コンピュータと自然言語が出会った時以来、大量の言語データを統計的に処理すれば、言語の性質がわかるだろうという楽観論が存在しました。ただ、そうしたアプローチは失敗します。 For breakfast I ate _____eggs. という文の空白部分に入るのは、三つの単語{ to, two, too }のどれかという問題に(答えはもちろん 'two'です)、21世紀に入っても、単純な統計的アプローチは、100% 正確に答えることができませんでした。この論文の著者は、なんと10億語からなる用例集を統計的に処理したのですが。 利用したデータの膨大さにも関わらず、このアプローチの無力さは、なんなのでしょう? Bengioの「次元の呪い」-- 語の数と文の数  それは問題の複雑さの尺度を見誤ったことによるものです。データの数を増やせば、問題が解けるようになるとは限らないのです。 26文字のアルファベット15文字以内で構成される語の数は、高々、26^15です。ただし、語彙が10万個ある言語での10個の語からなる文は、100000^10=10^50種類もあるのです。 確認しておくべき重要な事実があります。それは、ある言語ですべての語彙を集めた「辞書」は存在するかもしれないのですが、その言語のすべての文の例を網羅した「用語集」は存在しないということです。 Bengioは、早くから、言語処理に現れる組み合わせの数の爆発を意識していた一人でした。意味の分散表現論の登場を告げる歴史的な2003年の論文で、彼は、それを「次元の呪い」 Curse of Dimentionality と呼びました。 Bengioのアプローチ  この論文で、Bengioは「次元の呪い」と戦うために、次のような方法を提案します。  1.  語彙中のそれぞれの語に、m個の実数に値を持つ、分散したm次元の特徴ベクトル(word feature vector)を対応づける。  2.  語の並びの結合確率関数を、この並びの中の語の特徴ベクトルで表現する。  3.  語の特徴ベクトルとこの確率関数のパラメーターを、同時に学習する。 乱暴なまとめをすれば、こんなことです。 「文」全体を相手にすると、その数はあまりに多すぎて、い...

文字からembeddingへ −−意味の分散表現論の系譜

イメージ
文字から embedding へ −−意味の分散表現論の系譜  前回までの投稿で、大規模言語モデルを中核とした現代のAI技術が、インターネット上の膨大な機械可読な情報の集積・蓄積とその技術基盤としての Web Scale の大規模分散システムの成立という所与のもとで生まれてきたという話をしてきました。 それらは、現代のAI成立に先行した技術の経験的に確認できる到達点、あるいは、現代のAIを生み出した技術的「環境」の確認としては意味があると思います。進化にとって、所与としての「環境」は重要です。また、それはその後の進化の方向を決定づけます。 何が飛躍だったのか? ただ、環境自体が直接「進化」を生み出すわけではないはずです。技術自体の内部の内発的な変化がその「進化」を主導したはずです。 今回のお話は、現在、我々が目撃している、機械の言語能力の獲得という、歴史上稀に見る「創発的な進化」を可能にしたものは何かというお話です。 機械の言語能力の獲得という進化にとって、何が「飛躍」だったのかは明らかだと思います。僕はそれを、機械が言葉の意味を理解し始めたことだと考えています。 話す聴く音声としてのことばも、書く読む記号としての文字も、人間が意味を伝えるための手段に過ぎません。ことばや文字を駆使する人間の言語能力の中核にあるのは、意味を理解し、意味を伝える能力です。  機械が、意味を理解し意味を伝える能力を持ったこと、それが機械の言語能力獲得という飛躍の中心的な内容です。 人間が意味を理解し伝えるためにことばや文字を使うように、機械が意味を理解し伝えるために使うものがembeddingなのです。 意味の分散表現論の系譜  embedding 技術を生み出した人間の研究を、「意味の分散表現論」といいます。「意味の分散表現論」には、21世紀のはじめ2003年のベンジオの論文を起源としているのですが、20年近い研究の歴史があります。それは、現在のAI研究の本流とでもいうべきものです。 図は、この研究の流れの中での重要なトピックを抜き出したものです。「意味の分散表現論の系譜」という資料を作成しています。興味がある方はご覧ください。 https://drive.google.com/file/d/1NTs7r-wdtG1EbIkpb1oDmmIFiTlU_0ip/view...

文字からembeddingへ −− 大規模分散システムの成立

イメージ
文字からembeddingへ −− 大規模分散システムの成立 先に、獲得した言語能力によって可能となった話す聴くことから始まった人間のコミュニケーションと情報共有の範囲が、文字の発明によって空間的にも時間的にも大きく拡大したという話をしました。 大量の情報を時間を超えて世代から次の世代に伝える上で、文字が果たした役割は決定的なものでした。文字は個人の記憶力に依存しない新しい情報の「共有ツール」「記憶装置」を人間に与えました。 文字メディアの発展・拡大は、21世紀まで続きました。 「文字からembeddingへ」という僕のの話は、それに続くものの話なのですが、すこし飛躍があるように思われるかもしれません。今回は言語の歴史と比べれば短いものですが、この四半世紀のIT技術の歴史の話を、大規模分散システムの発展という視点からしてみようと思います。(写真は、Big Table です。ちょっと違うかも。) インターネットの登場と発展  インターネットの登場は、情報共有の動きをかつてない規模に拡大しました。同時に、情報共有の拡大は、かつてない規模の情報の集積・蓄積を生み出しました。 21世紀の最初の四半世紀のインターネット上の情報の共有と蓄積の主役は文字(あるいはその電子版である「文字コード」)と言っていいと思います。 そのことは、この時期を代表するBig Techの雄であるGoogleの技術を振り返れば、一層明らかになります。GoogleのPagaRankは、基本的には、検索ワードにそれを含む文章の集合を対応付ます。文字列処理の技術としては、大規模な逆引きインデックスを作成するシステムでした。 PageRankされるべき文章の集合は、Googleのcrawlerが世界中のネットから収集した膨大なものでした。文字情報の「かつてない規模での集積」は、まず、Googleの検索システムの中で生まれたと考えていいと思います。 また、Googleの検索と広告を結びつけるというビジネスモデルは、多くのサイトがGoogleのcrawlerによる情報収集の対象となることをすすんで歓迎することを後押ししました。 Googleの検索システムの変化 PageRankの実装システムであるMapReduceは処理に数日かかるバッチ・システムでした。検索インデックスを更新するためには、ウェブ全体を再...