マルレク「機械の言語能力の獲得を考える」概要まとめ
この資料は、「機械の言語能力の獲得を考える」というセミナーの資料であり、現代のAI技術の到達点を「機械が言語能力を獲得した」と捉え、その中核を「意味を理解する」能力の獲得と見なして議論を展開しています。
主な内容の構成は以下の通りです。
- はじめに(Page 1-19)
- セミナーのテーマ設定:「機械の言語能力の獲得を考える」。
- Alan Turingの問い「機械は考えることができるか?」の引用と、将来的に機械が考えるという言葉が矛盾なく使われるようになるという見解の紹介。
- 今回のセミナーの問題意識として、「機械が言語能力を獲得した」という議論の展開と、その中核を「意味を理解する」能力の獲得とする点。
- 言語能力と「知性」を区別し、言語能力は知性の最も基本的な構成要素であるという見解。
- 中心問題は、機械はどのようにして「意味を理解する」ようになったのかという問いであり、これに対して「意味の分散表現論」の発展が一つの答えを与えると述べています。
- 意味の分散表現論の系譜 - 大規模言語モデルへ (Part 1)(Page 20-123, Page 109-122にも再掲)
- この四半世紀のAI技術の理論史は、「意味とは何か」を探求する「意味の分散表現論」の発展史であるとしています。
- 歴史的変遷の概略(年表形式): Bengioの「次元の呪い」と語の特徴の分散表現(2003年)に始まり、HintonのAuto Encoder(2006年)、Word2Vec(2013年)、Sequence to Sequence(2014年)、Attention Mechanism(2014年/2016年)、Transformer(2017年)、BERT(2019年)、GPT-3(2020年)、ChatGPT(2022年)といった主要な技術・モデルの系譜が示されています。
- 主要な概念の解説:
- Bengio (2003年): 「次元の呪い」と戦うために、語を実数値の値を持つ分散した特徴ベクトルに対応づけ、語の並びの結合確率関数をその特徴ベクトルで表現し、これらを同時に学習する方法を提案。
- HintonのAutoencoder/意味的ハッシング (2006年): Autoencoderが高次元のデータから元の情報のエッセンスを低次元のデータとして取り出す働きを「Semantic hashing(意味的ハッシング)」と呼んでいる。
- Word2Vec (2013年): Tomas Mikolovらが、語が埋め込まれたベクター空間が言語学的に面白い性質を持つことを発見。これにより、意味の近さを内積(cosine-similarity)で定義できるようになった。
- Sequence to Sequence (2014年): Ilya Sutskeverらが、入力シーケンスを固定次元のベクトル(文の意味ベクトル)にマップし、そこから目的のシーケンスをデコードするRNN(LSTM)を提案し、機械翻訳に応用。
- Attention Mechanism (2014年/2016年): Bahdanauらが、固定長ベクトルがボトルネックになっている問題を解決するため、翻訳時にソース文の一部分に(ソフト)検索を可能とするAttention Mechanismを提案。
- Transformer (2017年): Googleが「Attention is all you need」というタイトルで発表したアーキテクチャーで、RNNやCNNを完全に排除し、Attention機構のみに基づく。現代の大規模言語モデルの基礎となっている。
- BERT (2019年): TransformerのEncoderのみを継承したEncoder-onlyアーキテクチャーで、Bidirectional(双方向性)な言語理解を目指す。Pre-trainingで「双方向での語の意味の表現」と「二つの文の関連性の判断」を学習し、Fine-tuningで具体的なタスクを実行する。
- GPT (2018年/2020年): TransformerのDecoderのみを継承したDecoder-onlyアーキテクチャー。
- 翻訳モデルから大規模言語モデル LLM への進化 (Part 2)(Page 124-139)
- Transformerの影響が決定的なものとなり、BERT(Encoder-only)とGPT(Decoder-only)という二つの対照的なアーキテクチャーに分岐した。
- 結果的に、Decoder-onlyアーキテクチャーが勝利し、現在の「大規模言語モデル LLM」が成立したと述べています。
- 現在のGPT、Gemini、Claude、LLamaなどはすべてDecoder-onlyのLLMアーキテクチャーを採用している。
- 大規模言語モデル LLM の成功を支えたもの (Part 3)(Page 141-202)
- LLMの成功を支えた要因として、以下の3点が挙げられています。
- システムの目的設定のシンプルさ: Next token prediction
- LLMの複雑な振る舞いは、「ある文字列トークンの並びが与えられたとき、その次に来るトークンを予測して選ぶ」という極めてシンプルなメカニズムに還元される。
- LLMは次のトークンの「確率分布」を計算し、その分布の下でトークンをサンプリングする。
- LLMの内部では、文字列ではなくそのベクトル表現であるembeddingが処理されており、Softmax関数もベクトル表現を受け取っている。
- 大量のテキストから学習する能力: Self-Supervised Learning
- LLMは学習データの一部をラベルとして利用する「自己教師付き学習 (Self-Supervised Learning)」という学習スタイルを採用している。
- この手法により、インターネット上にあるラベル付けされていない大量のテキストデータから、語の意味ベクトル(embedding)を抽出することを可能にした。
- LLMの訓練(Pre-training)において、Next Token Predictionを実行する過程で、Embedding Layerのパラメーターを含むLLMのパラメーターがバック・プロパゲーションで修正され、意味を反映したembeddingが生成される。
- Embedding Layerは、トークンIDに対応する埋め込みベクトルを取得するルックアップ・テーブルとして機能し、実際のLLMでは巨大なコンポーネントである。
- プロンプトを利用した柔軟なタスクの習得: In-Context Learning (ICL) と Retrieval-Augmented Generation (RAG)
- モデルの機能を動的に拡張する試みとして、ICLとRAGが注目されている。
- ICL (In-Context Learning): プロンプト内の例示によってモデルの重みを更新することなくタスクに適応させる非パラメトリックな適応手法。
- RAG (Retrieval-Augmented Generation): 外部データベースから関連情報を検索し、その情報でLLMの生成を補強するシステム設計のアプローチ。ハルシネーションの抑制と情報の透明性に優れる。
- RAGは「インジェクション」「検索」「拡張」「生成」の4段階パイプラインで構成される。
- ロングコンテキストモデルの登場によりICLの可能性が議論されているが、最新の研究では「作業メモリ」の制約や「Lost in the Middle」という位置バイアスの問題が指摘されており、ロングコンテキストはRAGを「強化」するツールとしてハイブリッドな方向へ向かっているという見解が示されています。
- システムの目的設定のシンプルさ: Next token prediction
- LLMの成功を支えた要因として、以下の3点が挙げられています。
コメント
コメントを投稿