過去・現在・未来

投稿

LLM アーキテクチャー成功を支えたもの −- Next token Prediction

1月 24, 2026

LLMアーキテクチャーの成功を支えたもの振り返り -- LLM アーキテクチャーの成立先のセッション「大規模言語モデルへのアーキテクチャーの変化概要」では、革命的なTransformerアーキテクチャーの登場を引き金として起きた大きな変化を見てきました。 Transformerのアーキテクチャーから何を継承・発展させるかで、「翻訳モデル」が中心だったAIのアーキテクチャーに大きな分岐が起きました。一方は、TransformerからEncoderを継承し、他方はTransformerからDecoderを継承しようとしました。これら二つのAIアーキテクチャーは、"Encoder−only" あるいは "Decoder−only" と呼ばれていました。結果的に大きな成功を収めたのは、 "Decoder−only" と呼ばれた流れでした。これが、現在の「大規模言語モデル LLM」です。こうして、 AIのアーキテクチャーは、「翻訳モデル」から「大規模言語モデル」へと大きくな転換したのです。今日では、GPTファミリーはもとより、Gemini も Claude もLLamaもすべて、 Decoder−only のLLMアーキテクチャーを採用しています。 LLMアーキテクチャーの成功を支えたもの −- Next token Prediction このセッションでは、LLMアーキテクチャーの成功を支えた、技術的な優位性はなんだったのかを、まずは、次のような視点から見ていきたいと思います。システムの目的設定のシンプルさ　Next token prediction 大量のテキストから学習する能力 Self-Supervised Learning プロンプトを利用した柔軟なタスクの習得 In-Context Learning まだまだたくさんありますね。ある意味、いいことづくめにも見えます。切り口によって見えてくるものが変わります。プロンプト導入によるLLMの成功のベースにあるのは、 LLMの基本的な性格に遡って考えれば、 LLMアーキテクチャーが持つ「実行可能なタスクの一般性　Universality」です。同じように考えれば、 LLMの推論の効率性には、「推論の因果性 Casuality...

大規模言語モデルへのアーキテクチャーの変化概要

1月 21, 2026

大規模言語モデルへのアーキテクチャーの変化概要先に見たTransformerの登場と成功は、AI技術と意味の分散表現論の大きな飛躍でした。このPart 2では、AI技術と意味の分散表現論のさらに大きな飛躍、翻訳モデルから大規模言語モデルへの移行という現代のAI技術に直接つながる重要な変化を取り上げます。非常にドラスティックな変化が進行します。ここでは、その流れの概略を見ておこうと思います。 TransformerからBERTとGPTへ翻訳モデルから大規模言語モデルへの進化の過程において、Transformerの影響は決定的なものでした。大規模言語モデルへの進化において大きな役割を果たした、Post Transformer の代表的な二つのアーキテクチャー BERTとGPTの末尾の ‘T’ がTransfomerの ‘T’ であることは、その影響の大きさを表しています。　　 BERT : Bidirectional Encoder Representations from Transformers 　　 GPT : Generative pre-trained transformer TransfomerのEncoderとDecoderの分離とその継承ただ、Transformerの達成した成果をどのように継承するのかという点で、BERTとGPTのとったアプローチは真逆と言っていい対照的なものでした。両者は、Transformerの二つの基本的な構成要素 EncoderとDecoderを分離し、その一方だけを継承したのです。　　 BERT : TransformerからEncoderのみを継承。 Encoder−only アーキテクチャー　　 GPT : TransformerからDecoderのみを継承。 Decoder−only アーキテクチャー Encoder−only, Decoder−onlyのアーキテクチャーの特徴 Transformerは、翻訳システムとして実装されていたのですが、BERTもGPTも、もはやかつてのようなSequence to Sequenceの翻訳システムではありませんでした。AIから見れば「翻訳」とい...

1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い

1月 19, 2026

1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い 1月31日マルレク「機械の言語能力の獲得を考える」を開催します。セミナーのお申し込みは、次のページからお願いします。 https://machine-competence.peatix.com/view 当初、「機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来」というテーマでセミナーを開催することを考えていたのですが、長くなりそうなので、セミナーを次の二つに分けることにしました。「機械の言語能力の獲得を考える」「embeddingの共有・蓄積・検索の未来」このWebページやYouTubeと並行して、次のblogリストからも関連コンテンツにアクセスできます。 https://maruyama097.blogspot.com/2025/12/embedding-blog.html 今回のセミナーのアプローチ今回のセミナー「機械の言語能力の獲得を考える」は、現代のAI技術の到達点を「機械が言語能力を獲得した」と捉える議論を展開したものです。機械が新しく獲得した言語能力の中核は、「意味を理解する」能力だと僕は考えています。今回のセミナーでは、機械の言語能力の獲得の中核を、機械の意味を理解する能力の獲得とする議論を行います。中心問題は、機械は、どのようにして「意味を理解する」ようになったのか？という問題です。この問題については、21世紀初めからの「意味の分散表現論」の発展が一つの答えを与えてくれると思っています。セミナーでは、意味のベクトル表現の発見に始まり、翻訳モデルから大規模言語モデルへの発展へと結実する理論の歴史を振り返ろうと思います。こうしたアプローチの意味と課題「言語能力の獲得」→「意味の理解能力の獲得」→「意味の分散表現論の発展」というスキームや、AI技術の発展を分散表現論の歴史で説明するアプローチには、多くのものを捨象しているという問題もあります。　AGI論の功罪アルトマンは、2035年までに、あらゆる個人が「2025年時点の全人類に匹敵する知的能力」を手に入れることができると予測しています。 https://www.marketingaiinstitute.com/blog/the-ai-show-...

Transformerの登場

1月 16, 2026

Transformerの登場今回は、意味の分散表現論の流れの中で、最も重要な技術的達成の一つであるTransformerの話です。この間、2回のInterludeを挟んで話題が飛んでいたので、これまでの投稿を振り返りから始めていきたいと思います。一部の議論の重複お許しください。 Interlude以前の投稿で、2014年のIlya Sutskever らによる「文の意味のベクトル表現の発見」が、意味の分散表現論の大きな転機となったことを紹介してきました。「文の意味のベクトル表現の発見」 https://maruyama097.blogspot.com/2025/12/blog-post_30.html そこでも述べましたが、特に重要な出来事は、この発見に刺激を受けてBengioのグループが、Attention メカニズムを提案したことです。（以前の資料では、Attentionメカニズムの提案は、2016年になっていますが、正確には、2014年です。詳しくは、このblogのAppendixをご覧ください。）今回のテーマのTransformerは、このAttention メカニズムの集大成です。そのことは、2017年のTransformerの論文タイトルの "Attention Is All You Need" https://arxiv.org/pdf/1706.03762 によく表れています。同時に、意味の分散表現論にとって、Transformerの登場は画期的なものでした。そのことは、翻訳モデルとして提起されたTransformer のアーキテクチャーが、大規模言語モデルの最も基本的なエンジンに姿を変えて、論文発表後9年たった今日も、生き続けていることを見ればわかると思います。翻訳システムの進化 Transformer論文の出る一年前の2016年、当時のAI技術の中心領域であった機械翻訳の分野で、画期的な成果が世に出ます。前回のポストで紹介した、「Googleニューラル機械翻訳 GNMT」です。それは、2014年の Ilya Sutskever の Sequence to Sequence の翻訳システムの進化系です、 Ilyaの翻訳システムでは、Enc...

Interlude 2 −− OpenAI の分裂が残したもの

1月 09, 2026

Interlude 2 −− OpenAI の分裂が残したもの 2022年11月30日のChatGPTの衝撃的な登場とその後の利用者の爆発的な拡大は、OpenAIの成功とAIの新時代の到来を多くの人に印象づけました。順風満帆に見えたOpenAIですが、その取締役会はCEOのサム・アルトマンを突然解任し、世界を驚かせました。ChatGPTの発表から一年後の2023年11月17日のことでした。そのわずか5日後の11月21日には、アルトマンがCEOに復帰します。結果的には、それまでOpenAIの主要メンバーだった、イリヤ・サツケヴァー、ヘレン・トナーらが取締役会を去ることになります。旧OpenAIは、激しい意見対立の末、分裂・解体したのです。突然問題が起きたように見え、また、非常に短期間で決着がついたこともあって、「そんな騒動もあったな」ぐらいの印象しか残っていないかもしれません。今では、AI BigTechたちの競争とその未来については多くのことが語られていても、この「事件」に遡った考察はほとんどないように見えます。それは残念なことです。今回の「Interlude 2 −− OpenAI の分裂が残したもの」は、あらためて、この問題を扱ったものです。予兆としての「GPT-4 System Card」の公開問題は、突然起きたわけではありません。分裂の予兆はすでにありました。そのことは、2023年3月に公開されたOpenAIの「GPT-4 System Card」という文書の内容とその公開のスタイルに象徴的に現れていると僕は考えています。正確にいうと、OpenAIが独立の文書としてこの「GPT-4 System Card」を公開したわけではありません。OpenAIが3月に公開したのは、「GPT-4 Technical Report」という文書で、そのAppendixとして「GPT-4 System Card」は世に出ることになります。奇妙なことに、論文本体の「GPT-4 Technical Report」は、“Introduction” から ”Conclusion”まで、12ページ程の短いものなのですが、先のpdf全体のボリュームは 100ページもあります。（今、確認したら、この論文の現在のバージョンは 2024年に改定さ...

Interlude 1 −− ChatGPTが生まれた日

1月 06, 2026

Interlude 1 −− ChatGPTが生まれた日今年もよろしくお願いします。今回は、順番から言うと、TransformerとBERTを扱うはずだったのですが、予定を変更しています。正月を挟んで少し間が空いたのでが、幕間 − Interlude として、少し寄り道をして二つのエピソードを紹介しようと思います。今回は、Interlude 1 として、ChatGPTの登場を、次回は、Interlude 2 として、その一年後の OpenAIの大分裂を取り上げます。今回のシリーズの問題意識は、どのような技術の発展が、機械に意味を理解させることを可能にしたのかを追いかけてみようというものです。その中核はembeddingです。ただ、技術だけを狭く追いかけていては、うまく捉えられない飛躍もあります。雑な言い方ですが、技術的には見れば、Google ニューラル機械翻訳とTransgormerとBERTには技術的な連続性があります。BERTとGPTの末尾の'T'はTransformerの先頭の'T'です。当時の僕は、ラベルも何もないWebから集めた膨大な文字列を、TransformerやBERTが、バリバリと食べてembeddingを生成し続けることに驚嘆していました。（繰り返しますが、それが今回のシリーズの主題です）もちろん、ChatGPTの示す意味理解能力が、そうした技術に裏打ちされているのは確かなのですが。ただ、ChatGPTを見た時の驚きは、それとは違う性格のものでした。確かに、そのアプローチは、意味の分散表現論の主流に位置付けられるものではないように思えます。 ChatGPTが生まれた日は、2022年11月30日 ChatGPTが、おおやけに姿を現したのは、2022年の11月30日のOpenAIの次のblog記事によってでした。 https://openai.com/blog/chatgpt/ 2022年の12月26日、僕は「なぜ？で考える ChatGPT の不思議」というタイトルのセミナーを開きました。 https://www.marulabo.net/docs/chatgpt/ 「ChatGPT 試してみましたか?　なかなか驚きです。今までのAI技術と一味違います。いろいろ不思議なことに気がつきます。 ...

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

12月 31, 2025

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来 #01 「機械が言語能力を獲得した」ということについて https://maruyama097.blogspot.com/2025/12/blog-post_25.html #02 ことばから文字へ https://maruyama097.blogspot.com/2025/12/blog-post_51.html #03 情報の共有と情報の集積 https://maruyama097.blogspot.com/2025/12/blog-post_37.html #04 文字からembeddingへ −− 大規模分散システムの成立 https://maruyama097.blogspot.com/2025/12/embedding.html #05 文字からembeddingへ −−意味の分散表現論の系譜 https://maruyama097.blogspot.com/2025/12/embedding_25.html #06 意味の分散表現論の登場 https://maruyama097.blogspot.com/2025/12/blog-post_27.html #07 文の意味のベクトル表現の発見 https://maruyama097.blogspot.com/2025/12/blog-post_30.html #08 Interlude 1 −− ChatGPTが生まれた日 https://maruyama097.blogspot.com/2026/01/interlude-1-chatgpt.html #09 Interlude 2 −− OpenAI の分裂が残したもの https://maruyama097.blogspot.com/2026/01/interlude-2-openai.html #10 Transformerの登場 https://maruyama097.blogspot.com/2026/01/transformer.html #11 1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い https://maruyama097.blogspot.com/2026/01/131...