キーワードは「人間のフィードバック」
【 キーワードは「人間のフィードバック」】
今回のセッションでは、ChatGPTがどのように実装されているかを紹介したいと思います。
ChatGPTは、「人間のフィードバックからの強化学習」”Reinforcement Learning from Human Feedback (RLHF)” と呼ばれる手法に基づいて実装されています。
この「人間のフィードバックからの強化学習」は、三つのステップで構成されています。
Step 1: デモ用のデータを収集して、管理ポリシーを訓練する
Step 2: 比較データを収集して、報酬モデルを訓練する
Step 3: 報酬モデルに対して、PPO強化学習アルゴリズムを使って、ポリシーを最適化する
興味深いことは、これらの中で、「人間」が重要な役割を担っていることです。
Step 1 では、実際に人間と人間との対話が行われて、その対話データが集められます。
Step 2 では、集められた対話の中から、好ましい回答のランクづけが、人間によって行われます。
こうした「人間の助けを借りた」助走期間を経て、ChatGPTは、Step 3 になってはじめて、「機械だけで」立ち上がります。
こうなれば、「人間」の姿は、見えなくなります。もっとも、ここで「人間」というのは、ChatGPTの立ち上がりのためにChatGPTに対話データと報酬ランクのデータを与えていた、ChatGPTの「中の人」だった「人間」のことなのですが。
ただ、ChatGPTの依拠する「人間のフィードバックからの強化学習」は、このStep 3 で完結するわけではないのです。ChatGPTの「公開」以降、「人間のフィードバックからの強化学習」のフェーズは変わります。
100万人以上の人がChatGPTを使い始めているようですが、僕を含めたそうした人間(もともとは、ChatGPTの「外の人」だったのですが)との対話が、ChatGPTの対話データセットに取り込まれ、その反応がランクづけされ、ChatGPTによって利用されます。
先行した「根源的蓄積」の時代は終わり、システムを準備した「中の人」とシステムを利用する「外の人」の区別はなくなります。みんなChatGPTに「人間のフィードバック」を返す「中の人」になります。
こうして、ChatGPTは、巨大な集団の「知」を取り込むシステムになります。もっとも、取り込まれるのは、その報酬モデルに合致した、平たく言えば「ウケのいい」答えだけなのかもしれませんが。
--------------------------------
https://chatgpt.peatix.com/view
コメント
コメントを投稿