LLM アーキテクチャー成功を支えたもの −- Next token Prediction
LLMアーキテクチャーの成功を支えたもの 振り返り -- LLM アーキテクチャーの成立 先のセッション「 大規模言語モデルへのアーキテクチャーの変化 概要」では、革命的なTransformerアーキテクチャーの登場を引き金として起きた大きな変化を見てきました。 Transformerのアーキテクチャーから何を継承・発展させるかで、「翻訳モデル」が中心だったAIのアーキテクチャーに大きな分岐が起きました。一方は、TransformerからEncoderを継承し、他方はTransformerからDecoderを継承しようとしました。 これら二つのAIアーキテクチャーは、"Encoder−only" あるいは "Decoder−only" と呼ばれていました。 結果的に 大きな成功を収めたのは、 "Decoder−only" と呼ばれた流れでした。これが、現在の「大規模言語モデル LLM」です。こうして、 AIのアーキテクチャーは、「 翻訳モデル」から「大規模言語モデル」へと大きくな転換したのです。 今日では、GPTファミリーはもとより、Gemini も Claude もLLamaもすべて、 Decoder−only のLLMアーキテクチ ャーを採用しています。 LLMアーキテクチャーの成功を支えたもの −- Next token Prediction このセッションでは、LLMアーキテクチャーの成功を支えた、技術的な優位性はなんだったのかを、まずは、次のような視点から見ていきたいと思います。 システムの目的設定のシンプルさ Next token prediction 大量のテキストから学習する能力 Self-Supervised Learning プロンプトを利用した柔軟なタスクの習得 In-Context Learning まだまだたくさんありますね。ある意味、いいことづくめにも見えます。切り口によって見えてくるものが変わります。 プロンプト導入によるLLMの成功のベースにあるのは、 LLMの基本的な性格に遡って考えれば、 LLMアーキテクチャーが持つ「実行可能なタスクの一般性 Universality」です。 同じように考えれば、 LLMの推論の効率性には、 「推論の因果性 Casuality...