大規模言語モデルへのアーキテクチャーの変化 概要
大規模言語モデルへのアーキテクチャーの変化 概要 先に見たTransformerの登場と成功は、AI技術と意味の分散表現論の大きな飛躍でした。このPart 2では、AI技術と意味の分散表現論のさらに大きな飛躍、翻訳モデルから大規模言語モデルへの移行という現代のAI技術に直接つながる重要な変化を取り上げます。 非常にドラスティックな変化が進行します。ここでは、その流れの概略を見ておこうと思います。 TransformerからBERTとGPTへ 翻訳モデルから大規模言語モデルへの進化の過程において、Transformerの影響は決定的なものでした。大規模言語モデルへの進化において大きな役割を果たした、Post Transformer の代表的な二つのアーキテクチャー BERTとGPTの末尾の ‘T’ がTransfomerの ‘T’ であることは、その影響の大きさを表しています。 BERT : Bidirectional Encoder Representations from Transformers GPT : Generative pre-trained transformer TransfomerのEncoderとDecoderの分離とその継承 ただ、Transformerの達成した成果をどのように継承するのかという点で、BERTとGPTのとったアプローチは真逆と言っていい対照的なものでした。両者は、Transformerの二つの基本的な構成要素 EncoderとDecoderを分離し、その一方だけを継承したのです。 BERT : TransformerからEncoderのみを継承。 Encoder−only アーキテクチャー GPT : TransformerからDecoderのみを継承。 Decoder−only アーキテクチャー Encoder−only, Decoder−onlyのアーキテクチャーの特徴 Transformerは、翻訳システムとして実装されていたのですが、BERTもGPTも、もはやかつてのようなSequence to Sequenceの翻訳システムではありませんでした。AIから見れば「翻訳」とい...