正月なので少し寄り道 (3) -- ChatGPTの成長

【 正月なので少し寄り道 (3) -- ChatGPTの成長 】

ChatGPTのプロトタイプであるInstructGPTは、この間見てきたような新しい「教育」を受けて、彼らの共通の祖先であるGPTから、多くの点で成長をとげました。

今回のセッションでは、この間の「寄り道」で見てきた、ChatGPTの「人間のフィードバックからの強化学習」という方法とそれを支える新しい「教育環境」の中で、ChatGPTがどのような成長を遂げてきたかを、GPTとInstructGPTの比較を通じて見てみようと思います。

比較の方法はシンプルなものです。InstructGPTの教育に参加した先生たち自身に、GPTの出力とInstructGPTの出力をどちらがいいかを判断してもらっています。なんと、85%の先生たちが、InstructGPTのほうがいいと回答しています。もっとも、自分が育てた子の方が賢いと思うのも人情かもしれませんが。

ChatGPTが GPTからどのように「成長」したかについての詳しい情報は、論文 "Training language models to follow instructions with human feedback"  https://arxiv.org/pdf/2203.02155.pdf に、多くの比較の視点とともに豊富なサンプルが与えられています。ぜひ、ご覧ください。

今回のセッションで紹介したのは、その一部です。ぜひ、スライドを見てご自分でも判断ください。それは、初めてChatGPTに触れた時の驚きとつながるものだと思います。

明らかに、ChatGPTは、GPTより「成長」しているのです。

そこでの成長のポイントは、この間見てきた人間の教師たちによる「人間からのフィードバック」だと、僕は考えています。

 --------------------------------

「彼の成長 – GPT vs. InstructGPT 」 を公開しました。

https://youtu.be/mDrkp2Hi2FM?list=PLQIrJ0f9gMcOX9oSKXRR87BgMkql5dvrx

資料pdf
https://drive.google.com/file/d/1Vc7j_OhqQNG4MC2jxKXjbOGetHKoK-Rt/view?usp=sharing

blog:「正月なので少し寄り道 (3) -- ChatGPTの成長 」https://maruyama097.blogspot.com/2023/01/3-chatgpt.html

まとめページ
https://www.marulabo.net/docs/chatgpt/

1/14セミナー「なぜ?で考える ChatGPT の不思議」の申し込みページはこちらです。https://chatgpt.peatix.com/





コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について