規模を大きくすれば、どんどん賢くなるわけでもないということ

【 規模を大きくすれば、どんどん賢くなるわけでもないということ 】

今回から、新しいテーマに入ります。それは、ChatGPTのような技術が、なぜこの時期に登場したのかと言う技術的背景についてです。

これまで、人工知能の世界では、システムの規模の拡大が、その成功を支える揺るぎない「正義」だと考えられてきました。実際、システムの規模拡大は、大きな成功を収めてきました。

「どんどん人工知能のシステムの規模を拡大していけば、人工知能はどんどん賢くなる。そして、いつか人間を超えて「シンギュラリティ」が実現する!」

みなさんも、こう言うふうに感じていませんでしたか? 

問題は、こうした認識に、少なくともシステムの規模拡大の効果の認識については、「異変」が起きているということです。

去年(2022年)の4月に発表された、現在のChatGPTの登場を告げるOpenAIの論文は、次のようなショッキングな言葉で始まります。

「言語モデルを大きくしても、ユーザーの意図に沿うようになるとは限らない。」

「大きな言語モデルには、真実味のない、有害な、あるいはユーザーにとって役に立たない出力を生成する可能性がある。別の言葉で言えば、これらのモデルはユーザー にそっていないのである。」

「人間の評価では、パラメータが100倍少ないにもかかわらず、パラメータ13BのInstructGPTモデルの出力の方が、パラメータ175BのGPT-3の出力より高い評価を得た。」

こうして、彼らは、モデルの規模拡大の方向ではなく、「人間のフィードバック」重視の方向に大きく舵を切ります。

「本論文では、様々なタスクにおいて言語モデルをユーザーの意図に沿うようにする道は、人間のフィードバックを用いてモデルのfine-tuningを行うことにあることを示す。」

つい先ごろですが、去年(2022年)の10月、OpenAIとGoogle Researchは、ほとんど同時に、システムの規模が AIシステムに与える影響についての論文を発表しました。

OpenAIの論文には、システムの規模拡大で引き起こされやすくなる "Overoptimization" の例が紹介されています。こちらはスライドをご覧ください。

ここでは、Google Researchの論文の「概要」の一部を紹介しましょう。
この論文のLast Authorである Kristina Toutanova は、大規模言語モデルの先駆けとなったBERTの論文を書いた人ですね。

「多くのタスクで強力な性能を発揮するにもかかわらず、事前学習された言語モデルは、分布外の構成的一般化で苦労することが示されている。」

「モデルサイズを拡大することで、意味解析における構成的一般化も改善できるのだろうか?」

残念ながら、結論は、ネガティブなものでした。

「我々は、11Bパラメータまでのエンコーダ・デコーダモデルと540Bパラメータまでのデコーダのみのモデルを評価し、... モデルスケーリングカーブを比較した。」

OpenAIは、100倍もサイズが異なるモデルを比較していましたが、Google はそれ以上500倍もサイズが異なるモデルの比較を行なっています。

「我々は、意味解析評価の分布外構成的一般化において、fine-tuningは一般にフラットか負のスケーリングカーブを持つことを観察した。」

規模を拡大しても性能は変わらない(「フラット」)か、むしろ低下する(負のスケーリングカーブ)ことを確認したと言います。

二つの論文が共通に示したことは、大規模言語モデルの規模をどんどん大きくすれば、システムがどんどん賢くなるわけではないということです。

ただ、こうした共通の問題に対する両者の対応は異なるものです。

OpenAIは、この間のセッションで何度も確認したように、「人間のフィードバック」重視で、乗り越えようとしています。

Googleは、必ずしも解決の方向を示しているわけではないのですが、僕は、彼らが "Compositional Generalization in Semantic Parsing"に目を向け始めたことに注目しています。

大規模言語モデルの「意味の分散表現」論は、機械での意味の理解において大成功を収めたのですが、そのモデルには、意味の「構成性」は直接には反映されていないのです。

 --------------------------------

「ChatGPT成立の背景 -- モデルの規模の問題」 を公開しました。

https://youtu.be/tLGX5tCo4Lo?list=PLQIrJ0f9gMcOX9oSKXRR87BgMkql5dvrx

資料pdf
https://drive.google.com/file/d/1Vmm4ybT2M36g4Irz-Z5aqKYjU0MxpDQP/view?usp=sharing

blog:「規模を大きくすれば、どんどん賢くなるわけでもないということ 」https://maruyama097.blogspot.com/2023/01/blog-post.html

まとめページ
https://www.marulabo.net/docs/chatgpt/

1/14セミナー「なぜ?で考える ChatGPT の不思議」の申し込みページはこちらです。https://chatgpt.peatix.com/





コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について