キーワードは「人間のフィードバック」

【キーワードは「人間のフィードバック」】

今回のセッションでは、ChatGPTがどのように実装されているかを紹介したいと思います。

ChatGPTは、「人間のフィードバックからの強化学習」”Reinforcement Learning from Human Feedback (RLHF)” と呼ばれる手法に基づいて実装されています。

この「人間のフィードバックからの強化学習」は、三つのステップで構成されています。

　Step 1: デモ用のデータを収集して、管理ポリシーを訓練する
　Step 2: 比較データを収集して、報酬モデルを訓練する
　Step 3: 報酬モデルに対して、PPO強化学習アルゴリズムを使って、ポリシーを最適化する

興味深いことは、これらの中で、「人間」が重要な役割を担っていることです。

Step 1 では、実際に人間と人間との対話が行われて、その対話データが集められます。
Step 2 では、集められた対話の中から、好ましい回答のランクづけが、人間によって行われます。

こうした「人間の助けを借りた」助走期間を経て、ChatGPTは、Step 3 になってはじめて、「機械だけで」立ち上がります。

こうなれば、「人間」の姿は、見えなくなります。もっとも、ここで「人間」というのは、ChatGPTの立ち上がりのためにChatGPTに対話データと報酬ランクのデータを与えていた、ChatGPTの「中の人」だった「人間」のことなのですが。

ただ、ChatGPTの依拠する「人間のフィードバックからの強化学習」は、このStep 3 で完結するわけではないのです。ChatGPTの「公開」以降、「人間のフィードバックからの強化学習」のフェーズは変わります。

100万人以上の人がChatGPTを使い始めているようですが、僕を含めたそうした人間（もともとは、ChatGPTの「外の人」だったのですが）との対話が、ChatGPTの対話データセットに取り込まれ、その反応がランクづけされ、ChatGPTによって利用されます。

先行した「根源的蓄積」の時代は終わり、システムを準備した「中の人」とシステムを利用する「外の人」の区別はなくなります。みんなChatGPTに「人間のフィードバック」を返す「中の人」になります。

こうして、ChatGPTは、巨大な集団の「知」を取り込むシステムになります。もっとも、取り込まれるのは、その報酬モデルに合致した、平たく言えば「ウケのいい」答えだけなのかもしれませんが。

--------------------------------

「𝐶ℎ𝑎𝑡𝐺𝑃𝑇の方法-- 三つの訓練ステップ」を公開しました。

https://youtu.be/UFG15-tkrOM?list=PLQIrJ0f9gMcOX9oSKXRR87BgMkql5dvrx

資料pdf

https://drive.google.com/file/d/1V4OD_0Orov3C-qZstnfkOyTPw2pnIORg/view?usp=sharing

blog：「キーワードは「人間のフィードバック」」

https://maruyama097.blogspot.com/2022/12/blog-post_29.html

まとめページ

1/14セミナー「なぜ？で考える ChatGPT の不思議」の申し込みページはこちらです。
https://chatgpt.peatix.com/view

過去・現在・未来