大規模言語モデルへのアーキテクチャーの変化概要

1月 21, 2026

大規模言語モデルへのアーキテクチャーの変化概要

先に見たTransformerの登場と成功は、AI技術と意味の分散表現論の大きな飛躍でした。このPart 2では、AI技術と意味の分散表現論のさらに大きな飛躍、翻訳モデルから大規模言語モデルへの移行という現代のAI技術に直接つながる重要な変化を取り上げます。

非常にドラスティックな変化が進行します。ここでは、その流れの概略を見ておこうと思います。

TransformerからBERTとGPTへ

翻訳モデルから大規模言語モデルへの進化の過程において、Transformerの影響は決定的なものでした。大規模言語モデルへの進化において大きな役割を果たした、Post Transformer の代表的な二つのアーキテクチャー BERTとGPTの末尾の ‘T’ がTransfomerの ‘T’ であることは、その影響の大きさを表しています。

　　BERT : Bidirectional Encoder Representations from Transformers
　　GPT : Generative pre-trained transformer

TransfomerのEncoderとDecoderの分離とその継承

ただ、Transformerの達成した成果をどのように継承するのかという点で、BERTとGPTのとったアプローチは真逆と言っていい対照的なものでした。両者は、Transformerの二つの基本的な構成要素 EncoderとDecoderを分離し、その一方だけを継承したのです。

　　BERT : TransformerからEncoderのみを継承。Encoder−only アーキテクチャー
　　GPT : TransformerからDecoderのみを継承。Decoder−only アーキテクチャー

Encoder−only, Decoder−onlyのアーキテクチャーの特徴

Transformerは、翻訳システムとして実装されていたのですが、BERTもGPTも、もはやかつてのようなSequence to Sequenceの翻訳システムではありませんでした。AIから見れば「翻訳」というのは、AIが自然言語に対して行いうる可能な仕事の一つに過ぎません。翻訳モデルの解体とより一般的なAIのモデルの模索がはじまったのです。

それでは、Encoder−only, Decoder−onlyのアーキテクチャーは、どのような特徴を持っていたのでしょう？

　　BERT : Encoder−only アーキテクチャー : 言語の意味の深い理解能力
　　GPT : Decoder−only アーキテクチャー : 言語の自由な生成能力

Decoder−onlyアーキテクチャーの勝利としての大規模言語モデルの成立

重要なことは、Transformerから分岐した二つのAIアーキテクチャーのうち、Decoder−onlyアーキテクチャーの勝利として、大規模言語モデルが成立したということです。

なぜ、Decoder−onlyアーキテクチャーが勝利したかについては、この概要ではなく、別のセッションで解説したいと思います。そこでの議論は、現在の大規模言語モデルの特徴をよりよく理解するために重要な情報が含まれています。

補足情報

概要とはいえ少し情報が少ないので、次の二つの音声概要にアクセスしていただけますか？

このほかに、まだ、整理されていないのですが（ごめんなさい）、いろんな切り口で音声概要を作ってみました。、興味がありましたら、こちらもご利用ください。

「EncoderとDecoderの分離からDecoder OnlyのLLMへ」

−−−−−−−−---−−−−−−--−−-
セミナーの申込ページ
https://machine-competence.peatix.com/view

blog ページのURL
https://maruyama097.blogspot.com/2026/01/blog-post.html

このシリーズのblogのIndex ページ
https://maruyama097.blogspot.com/2025/12/embedding-blog.html

スライドのpdfのURL
https://drive.google.com/file/d/1RlIKTlsI5dysRI1Xd5ZPLwx4A0ZPf8E-/view?usp=sharing

ショートムービーのURL
https://youtu.be/H8CX0vsbUKY?list=PLQIrJ0f9gMcOZAuK3OhXu9mcZrX32ZS1j

このブログを検索

過去・現在・未来