LLM アーキテクチャーの成功を支えたもの 3 -- In-Context learningとRetrieval-Augmented Generation
LLM アーキテクチャーの成功を支えたもの 3 -- In-Context learningとRetrieval-Augmented Generation 大規模言語モデルの機能拡張 これまで見てきたのは、LLMの基本的な機能についてのものでしたが、LLMの急速な進化は、その機能を大きく拡張して来ました。このセッションでは、そうした機能拡張を見ていこうと思います。 モデルの機能を動的に拡張するための試みとして、現在、二つの対照的なアプローチが注目されています。 一つは、モデルの重みを更新することなく、プロンプト内の例示によってタスクに適応させる「インコンテキスト学習(In-Context Learning: ICL)」です。もう一つは外部データベースから関連情報を検索して生成を補強する「検索拡張生成(Retrieval-Augmented Generation: RAG)」です。 インコンテキスト学習(ICL)のメカニズム インコンテキスト学習(ICL)は、GPT-3の登場とともにその有効性が広く認識された手法です。 大規模な事前学習によって獲得されたモデルの潜在能力を、入力プロンプト内の「例示(Demonstrations)」によって特定のタスクへと誘導するプロセスです。 このアプローチの最大の特徴は、モデルのパラメータを一切更新しない「非パラメトリックな適応」にあります。 ICLの「学習」 ICLにおける「学習」とは、厳密には重みの更新を伴う「学習」ではなく、モデルの隠れ状態(Hidden States)が入力されたコンテキストに基づいて遷移し、特定の推論パターンを選択する現象を指します 。 モデルはプロンプトに含まれる少数の入出力ペア(Few-shot)から、タスクの形式、言語スタイル、論理的なステップを読み取ります。 例えば、コード生成タスクにおいては、変数名の命名規則やコメントの記述スタイルといった微細な特徴が、モデルの出力品質を左右することが判明しています 。 RAGのアーキテクチャ RAGは、LLMの生成能力と、情報検索(Information Retrieval)システムを融合させたシステム設計のアプローチです。 LLMを「知識の保管庫」としてではなく「情...