Predictable Scaling

【大規模AIモデルの開発方法論】

このセッションでは、"GPT-4 Technical Report" のPredictable Scalingの章を見ていきます。

GPT-4のような巨大なシステムでは、モデルの訓練に非常に多くの計算が必要になります。その計算には膨大な電力を必要で、それには膨大なコストがかかります。

もし、巨大なシステムを立ち上げたままでしか、モデルのアルゴリズムやパラメータの変更・デバッグができないのなら、新しいモデルの開発には、膨大な費用がかかることになります。

そうだとすれば、それは、実機にデプロイする前に、自分のマシンで、コーディング、テスト、デバッグのサイクルを繰り返してシステムを開発することができる開発スタイルとは少し違ったものです。

開発環境と実際の実行環境の違いを意識することは、皆さん行っていることでしょうが、実機でしか開発・デバッグができないとか、その実機の利用料が目が飛び出るほど高いとかになると、開発はとてもやりにくいものになります。（もちろん、そうだとしても実機でのテストは必要ですね。）

この"Predictable Scaling"は、大規模AIモデル開発でのこうした問題に対する、OpenAIの新しいアプローチを提起し、その実際を公開したものです。

基本的なアイデアは、実際にデプロイされる巨大なモデルの振る舞いを、その1,000分の1とか10,000分の1の計算量で効率的にかつ正確に予測することができるなら、巨大モデルの開発・テスト・デバッグは、その小さな環境上で行うことができるのではないかというものです。

OpenAIは、 "Predictable Scaling" として次の二つの方法を提起しています。

　⚫️ Loss Prediction
　⚫️ Scaling of Capabilities on HumanEval

いずれのアプローチでも、システムのスケールを数千倍に拡大した場合でも、その振る舞いを正確に予測できることを、OpenAIは示しています。これは、巨大AIモデルの開発の方法論にとって、実践的には、とても重要な意味をもってぃます。

スライドの最後に、HumanEvalについて簡単な説明を加えておきました。

HumanEval についての基本的な論文は、次の論文です。

"Evaluating Large Language Models Trained on Code"

GitHubも公開されています。

僕は、GitHubが公開しているデータ上での GPT-4の利用に興味を持っているのですが、この論文は、システムの Predictable Scaling がテーマではなく、メイン・テーマは、GitHub Copilotに搭載されている GPT言語モデルCodexを紹介したものです。

HumanEval は、ドキュメントからプログラムを合成する際のCodexの機能の正しさを測定するために開発されたものです。

この論文も重要なものですね。いつか紹介したいと思います。

-------------------------------------

ショートムービー「 Predictable Scaling 」を公開しました。

https://youtu.be/W0alovlE2ss?list=PLQIrJ0f9gMcPPRFNzbnEKyPPybVFmaz0a

資料 pdf「Predictable Scaling」

https://drive.google.com/file/d/1U8ukq1hAiVJWcsknaAWT7DA-INP2Y0j4/view?usp=sharing

blog：「大規模AIモデルの開発方法論」

https://maruyama097.blogspot.com/2023/05/predictable-scaling.html

「GPT-4 Technical Report を読む」まとめページ

https://www.marulabo.net/docs/gpt-4-technical-report/

過去・現在・未来