大規模言語モデルへのアーキテクチャーの変化 概要

大規模言語モデルへのアーキテクチャーの変化 概要 

先に見たTransformerの登場と成功は、AI技術と意味の分散表現論の大きな飛躍でした。このPart 2では、AI技術と意味の分散表現論のさらに大きな飛躍、翻訳モデルから大規模言語モデルへの移行という現代のAI技術に直接つながる重要な変化を取り上げます。

非常にドラスティックな変化が進行します。ここでは、その流れの概略を見ておこうと思います。


TransformerからBERTとGPTへ 

翻訳モデルから大規模言語モデルへの進化の過程において、Transformerの影響は決定的なものでした。大規模言語モデルへの進化において大きな役割を果たした、Post Transformer の代表的な二つのアーキテクチャー BERTとGPTの末尾の ‘T’ がTransfomerの ‘T’ であることは、その影響の大きさを表しています。

  BERT : Bidirectional Encoder Representations from Transformers
  GPT   : Generative pre-trained transformer



TransfomerのEncoderとDecoderの分離とその継承 

ただ、Transformerの達成した成果をどのように継承するのかという点で、BERTとGPTのとったアプローチは真逆と言っていい対照的なものでした。両者は、Transformerの二つの基本的な構成要素 EncoderとDecoderを分離し、その一方だけを継承したのです。

  BERT : TransformerからEncoderのみを継承。Encoder−only アーキテクチャー
  GPT   : TransformerからDecoderのみを継承。Decoder−only アーキテクチャー

Encoder−only, Decoder−onlyのアーキテクチャーの特徴 

Transformerは、翻訳システムとして実装されていたのですが、BERTもGPTも、もはやかつてのようなSequence to Sequenceの翻訳システムではありませんでした。AIから見れば「翻訳」というのは、AIが自然言語に対して行いうる可能な仕事の一つに過ぎません。翻訳モデルの解体とより一般的なAIのモデルの模索がはじまったのです。

それでは、Encoder−only, Decoder−onlyのアーキテクチャーは、どのような特徴を持っていたのでしょう?

  BERT : Encoder−only アーキテクチャー : 言語の意味の深い理解能力
  GPT   : Decoder−only アーキテクチャー : 言語の自由な生成能力


Decoder−onlyアーキテクチャーの勝利としての大規模言語モデルの成立 

重要なことは、Transformerから分岐した二つのAIアーキテクチャーのうち、Decoder−onlyアーキテクチャーの勝利として、大規模言語モデルが成立したということです。

なぜ、Decoder−onlyアーキテクチャーが勝利したかについては、この概要ではなく、別のセッションで解説したいと思います。そこでの議論は、現在の大規模言語モデルの特徴をよりよく理解するために重要な情報が含まれています。


補足情報 

概要とはいえ少し情報が少ないので、次の二つの音声概要にアクセスしていただけますか?

このほかに、まだ、整理されていないのですが(ごめんなさい)、いろんな切り口で音声概要を作ってみました。、興味がありましたら、こちらもご利用ください。


コメント

このブログの人気の投稿

初めにことばありき

機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来

密度行列とは何か?