【 GitHubがChatGPTを救う (2) 】
【 ChatGPTの実装の特徴 】
ChatGPTは、 「人間のフィードバックからの強化学習」”Reinforcement Learning from Human Feedback (RLHF)” と呼ばれる手法に基づいて、訓練されています。
それは、Turingの「機械の思考は可能か?」という問いに始まる、基本的には機械の自律的な思考を追求する、従来の「人工知能」へのアプローチとは、異なるものです。
この手法は、ChatGPTのプロトタイプであるInstructGPTで導入されたものです。
【 ChatGPTは成長する「子供時代」の彼は、何を学んだのか?】
なぜ、「人間のフィードバックからの強化学習」と呼ばれるのかは、ChatGPTがどのようなデータでどのような訓練を受けてきたのかを見ればわかります。
まず、「子供時代」のChatGPTが何を学んだのかを見ていきましょう。(「子供時代」という言い方が変に思われるかもしれませんが、ChatGPTも「成長」します。)
機械翻訳では、同じ意味をもつ二つの言語のペアのサンプルの集まり「パラレル・コーパス」が学習すべきデータでしたが、「会話」のスキルを学ぶべき彼(ChatGPT:Optimizing Language Models for Dialogue )に与えられたのは、「質問」と「答え」のペアからなる会話のサンプルです。
【 質問に、ことばで答えることを人間から学ぶ 】
OpenAIは、彼 ChatGPTの教育のために、「質問」と「答え」からなる沢山のペア・データPromptを、人を雇ってつくらせました。雇われた人間は、Labelerと言われています。
彼 ChatGPTにことばを教えた「母」は、このLabeler です。彼がことばを操るのは、「子供時代」に人間(Labeler)が書いたことばを学んだからです。機械は、真似するのは得意ですから。
もしも、質問と歌のペアで訓練されたら、きっと彼女 ChanteGPTは、質問に対して歌い出したはずです。
【 会話の評価は、人間が与える】
「子供時代」のChatGPTの受けた教育で最も重要なものは、会話の「評価」です。
その「評価」は「母」であるLabeler が与えます。人間が、評価を与えています。その評価は、彼 ChatGPTを教育するのに利用されます。Labelerが AI Trainer とも呼ばれるのはそのためです。
Labelerには、「評価」用の専用 Web インターフェースが与えられています。そのインターフェースには、会話の7段階評価とは独立に、「不適切さ」を排除するための8個のチェック項目が含まれています。
【 ChatGPTの次の成長 -- 会話とその評価を、人間をモデルに自分で学ぶ 】
ChatGPTの成長は、次の段階に進みます。「子供時代」から「少年時代」に入るのかな?
「子供時代」には、会話の評価を一つ一つ人間から直接に教えられて訓練されていたのですが、この段階では自分で評価づけを行いながら、強化学習の手法で、評価が高い会話を優先的に学びます。
ただ、ここでの強化学習をドライブする評価の基準は、あくまでも「子供時代」に人間の「母」から教え込まれたものです。 「人間のフィードバックからの強化学習」と言われる所以です。
【 ChatGPT 大人になる --「人間のフィードバックからの強化学習」は終わらない 】
ただ、ChatGPTの成長は、それで終わったわけではありません。大人になった彼は、社会の荒波に晒されることになります。Iterative deployment と呼ばれています。
人間の「母」が準備した質問と答えと、社内で用意された質問と答えで教育されてきた彼は、知らない人間(僕らのことです)の質問に晒されることになります。
でも、そうした対話を通じた「人間のフィードバック」が、彼の新しい学習の「糧」になります。こうして、彼の「知能」を構成しているデザイン、「人間のフィードバックからの強化学習」は、ずっと生き続けます。
【 ChatGPTの限界を OpenAIはどのように認識していたか 】
OpenAIは、ChatGPTの弱点をよく認識していました。彼らが、もっとも大きな問題だと考えたのは、次のことです。
● ChatGPTは、もっともらしく聞こえるが、不正確または無意味な答えを書き込むことがある。
しかも、こう付け加えます。
この問題を解決するのは、次のような点で困難である。
・RLのトレーニングでは、現在、真実のソースがない。
・より慎重になるようにモデルをトレーニングすると、正しく答えられる質問を拒否してしまう。
・教師ありトレーニングでは、理想的な答えは、人間が知っていることではなく、モデルが知っていることに依存するのでモデルをミスリードしてしまう。
【 「真実のソースがない」ことの意味 】
ここで言われている「真実のソースがない」ことが意味することは重要です。
これまでの「人工知能」技術の「画像認識」技術でも、大規模言語モデルに基づく「機械翻訳」技術でも、「人工知能」の出力が、正しいものであるか否かの判断は、誰にとっても容易でした。
ただ、「人間のフィードバックからの強化学習」に基づくChatGPTには、それが当てはまらないのです。「真実のソースがない」こと。それがChatGPTの最大の特徴の一つです。
【 「真実であること」をどう保証するか?】
OpenAIは、ChatGPTを教育する「母」たちに、ChatGPTの教育に際して、繰り返し、ChatGPTの出力が、「有用であり、真実であり、有害でないこと」を確認すべきことを強調しています。
あるところでは、「ほとんどのタスクでは、役に立つことよりも、真実であること、無害であることが重要です。」とまで述べています。
それは、「真実のソース」を持たない、ChatGPTの特質を、彼らがよく理解していたことを示しています。
【 「正しいことを教えれば正しい答を返すようになる」】
ChatGPTが、出鱈目を話すことがあることは、いまでは多くの人が知っています。
そうした中で生まれているのは、「一般のユーザーが、皆で正しいことを教えれば、ChatGPTは正しい答を学習して正しい答え返すようになる」という見方です。
僕は、そう思っていません。なぜなら、ChatGPT自身が関心を持っているのは、「正しさ」ではなく、「評価の良さ」、SNSでいえば「いいね」の数だけだからです。
「強化学習」のアルゴリズムは、そういうものです。
【 SNS とChatGPTとの比較】
理想のChatGPTの姿は、ある意味で理想のSNSに似ているかもしれません。ただ、21世紀のIT技術とITビジネスを牽引したSNSについては、我々は苦い経験を持っています。
ケンブリッジ・アナリティカ事件で、選挙での世論誘導の疑いを指摘され、議会に召喚されたFacebookのザッカーバーグは、チェックと検閲の強化を約束しました。
イーロン・マスクに買収されたTwitterでは、過去に彼らが行った「検閲」が、大きな議論を呼んでいます。
【 「人間の『正しい』フィードバック」の宝庫としてのGitHub 】
GitHubのユーザは、今年一億人を超えたといいます。それは、世界で最大規模の開発者の集まりです。
GitHubでの人間のフィードバックは、基本的には、プログラムの改善を目指すものです。そのフィードバックの意図は、客観的に評価しうるものです。そこには、ChatGPTのフィードバックに期待できなかった「真理のソース」を設定できるように思います。
僕は、GitHubをいわば、「人間の『正しい』フィードバック」の宝庫だと考えています。
【 Co-Pilot訴訟】
ただ、この「宝庫」をどのように利用するかについて、重要な論点が提起されています。
「2022年の11月には、GitHub Copilotの開発に携わったMicrosoft、GitHub、OpenAIの3社が、「オープンソースプログラマーの仕事から利益を得ている」として集団訴訟を提起されました。集団訴訟を提起したのはプログラマーであり弁護士でもあるマシュー・バターリック氏で、原告側は「GitHub Copilotは前例のない規模のソフトウェア違法コピーを行っている」と主張しています。AIを用いた生成ツールに関する訴訟はこれが初とされており、バターリック氏と弁護団側は同様の理由でさらに2件の集団訴訟を提起しています。」
訴状の詳細については、次のページをご覧ください。
OpenAIとMicrosoftは、今年の1月末に、裁判所にこの告訴を棄却するように申立てを行なっています。
この裁判については、別の機会に詳しく紹介できたらと考えています。
-------------------------------------
「 GitHubがChatGPTを救う (2)」を公開しました。
資料pdf
https://drive.google.com/file/d/1P97quZNodKEX4QYwHmWY7nIO1yfVQQ6c/view?usp=sharing
blog:「 GitHubがChatGPTを救う (2) 」
https://maruyama097.blogspot.com/2023/03/githubchatgpt-2.html
まとめページ
https://www.marulabo.net/docs/aimath/
コメント
コメントを投稿