どのように「限界」を超えるのか？

【どのように「限界」を超えるのか？】

このセッションでは引き続き、ChatGPTの公式blogの内容の紹介を続けようとおもいます。基本的なトピックスは、ChatGPTの「限界」と「Iterative deployment」という取り組みについてです。

この「限界」の認識と「Iterative deployment」という取り組みは結びついています。

重要なことは、ChatGPTの「方法」としての「人間のフィードバックからの強化学習」を、システム全体のレベルで繰り返し行う「Iterative deployment」によって、その「限界」を乗り越えるという展望が述べられていることです。

それらの一部については、すでに以前のセッションで触れているのですが、あらためて彼らの言葉で確認したいと思います。

ChatGPTが、自らの「限界」と認めている第一の問題は、「ChatGPTは、もっともらしく聞こえるが、不正確または無意味な答えを書き込むことがある」ということでした。このことは、多くの人が観察していることです。その最大の理由は、「強化学習の訓練に使う「真実のソース」がないこと」にあります。

　「このシステムを改善するために、ユーザーからのフィードバックに期待している。」

他にもいろいろ問題を挙げているし、先のような言葉は、ソフトウェア・ベンダーの常套句のように聞こえるかもしれません。ただ、それだけではないのです。

Iterative deploymentについて、彼らはこう説明しています。

「これには、人間のフィードバックからの強化学習（RLHF）の使用により、有害で真実でない出力を大幅に削減することが含まれている。」

「我々は、上記のように多くの制限が残っていることを知っており、そのような問題を改善するために定期的なモデルアップデートを行う予定である。」

「しかし、ChatGPTにアクセス可能なインターフェースを提供することで、私たちがまだ気づいていない問題について、ユーザーの貴重なフィードバックを得られることも期待している。」

「ユーザーは、UIを通じて問題のあるモデル出力や、同じくインターフェースの一部である外部コンテンツフィルタによる偽陽性/偽陰性についてフィードバックを提供することが推奨されている。」

「我々は、現実の世界で、非対立的な条件のもとでも ( non-adversarial conditions )、起こりうる有害な出力とみなされるものへのフィードバック、また、新しいリスクとその可能な軽減策を発見し理解するのに役立つフィードバックに特に関心がある。」

僕は、こうしたことが推奨されるChatGPTとそのユーザーの世界は、理念的には「正しい集合知」の形成を目指すある種のSNSに近いものになるだろうと感じています。

ただ、SNSについて言えば、僕らが当初ほのかに抱いていた理想主義的でナイーブなイメージを持ち続けることは、経験的にも（「ケンブリッジ・アナリティカ」）、現実的にも（「世界は分裂しています」）もはや難しいのです。

僕は、「検索・SNS・広告」の三つが、21世紀初頭のITの世界を牽引したドライビング・フォースだったと考えています。この三者との関係でChatGPTの登場を考えることは面白いことです。いつか話ができればと思います。

未来のIT技術を牽引するのはAI技術だと考える人も多いと思います。ただ、技術の現在を見る限りでは、AI技術は、検索とSNSを広告に結びつけるところで、もっとも大規模に、かつ、もっとも活発に利用されています。

次回は、もう少し技術よりの視点から、ChatGPT登場の「背景」を考えたいと思います。

GPTのようなシステムが、もっともっと巨大化すれば、人間の力を超えたAIが実現するだろうと考えていませんか？　ではなぜ、AI技術の現在のホープであるChatGPTは、機械の力ではなく、「人間のフィードバック」にフォーカスしようとしているのでしょうか？

--------------------------------

「ChatGPTの限界とIterative deployment」を公開しました。

https://youtu.be/9C1SUfaMb8w?list=PLQIrJ0f9gMcOX9oSKXRR87BgMkql5dvrx

資料pdf

https://drive.google.com/file/d/1VD-HLYn4EW5Q6ZOrxvXMBPckuKddlbP_/view?usp=sharing