Capabilities -- Exams
【 "few-shot prompt" の威力 】
このセッションでは、"GPT-4 Technical Report" のCapabilitiesの章の前半部分を見ていきます。同じ章の後半の Multi-Modal の能力を扱った "Visual Input" の部分は、次回取り上げます。
このCapabilitiesの章の前半部分は、GPT4.0が、人間向けに作られた様々な「試験問題」を片っ端から解いてみせたという事例を紹介しています。
特に、司法試験の模擬試験(Uniform Bar Examination)で、受験者の上位10%に入るスコアで合格できたことが述べられています。また、LSAT(Law School Admission Test)や各種のAP(Advanced Placement 高校生むけの大学の単位認定)試験でもいい成績を収めました。
司法試験の模擬試験で、どのようなプロンプトが使われたかは残念なことに公開されてませんでしたが、美術史のAP試験のプロンプトのサンプルが、Appendix A.8 に公開されています。それは、いきなり答えを要求するのではなく、段階を追って答えに近づくという "few-shot prompt" というスタイルでした。
"few-shot prompt" の有効性は、すでにGPT-3の時に気づかれていたことで、その基本的論文は、“Language Models are Few-Shot Learners” https://arxiv.org/abs/2005.14165 です。ぜひ、お読みください。
僕は、"few-shot prompt" という手法と、Attentionメカニズムは、強く深く結びついていると考えています。
ある言語の一つの文を考えると、その文の中の語の並びは、その言語の文法性・構成性によって、強く関連づけられています。ですので、システムが文法性・構成性を陽に意識せずとも(大規模言語モデルでは、言語の文法性・構成性は意識されていません。その対象は、「構造化されていない」語の並びです)、Next Word Predictionは、比較的容易です。
ある言語のある文とそれに連接するもう一つの文の関係は、文の文法性・構成性とは違った原理が働きます。それは、ある場合には、「論理的含意 entailment」だったり、ある場合には「共通の感情の流れ」だったりします。いずれにしても、連接する二つの文の関連性は、文内部の語の関連性よりはるかに弱いものです。ですので、Next Sentence Predictionは、簡単ではありません。
Attentionというのは、基本的には、ある文のある箇所の意味を把握するのに、他の文(自分自身の場合もありえます)のある箇所の参照が必要になるのをサポートするメカニズムです。
語の集まりが文を構成するように、文の集まりが文書(document)を構成し、文書の集まりが文書の集まりが文書群を構成すると考えることができます。この時、Attentionの概念も拡大することが可能です。
例えば、ある文のある箇所の意味を把握するのに、他の文書中のある文のある箇所の参照が必要な場合、それをサポートするメカニズムをAttentionメカニズムの拡大と見なすことができます。ただ、そこには文の文法性・構成性のような強い原理は働きません。
あることを理解するのに、他のあることの理解が必要となるのは、一般的なことです。それをAttentionメカニズムの拡大と見做してもいいし、Attention(注意)の向く先を、何段階かのpromptで指定していると考えてもいいのです。
Transformer論文のタイトルが、"All You Need is Attention" だったのに倣えば、GPT-4では "All You Need is few-shot prompt" だと言っていいと思います。
それは、「裸のGPT-4が、ある能力を持つ」と単純に考えるのではなく、「あるpromptのもとで、GPT-4はある能力を発揮する」と考えることです。それは、コンピュータがある能力を発揮するのは、あるプログラムが与えられた場合であると考えるのと同じことです。
ただ、そうすると、GPT-4の能力をめぐって、微妙な問題が生まれてきます。
例えば、司法試験の模擬試験を突破するpromptは、GPT-4自身が自動生成したものだったのでしょうか? 多分、違います。その"few-shot prompt" は、多分、人間が書いたものです。GPT-4の見事な能力の発揮には、人間の「知恵」が介在しているのではないでしょうか?
司法試験の模擬試験を突破するprompt、みてみたいと思います。
コメント
コメントを投稿