AIの危険性の認識とModel Refusalという手法
【 Interlude -- AIと人間の関係を考える 】
これまで、ChatGPTの成功に至るまでの大規模言語モデルの成立とその発展を、主要には技術的な関心から振り返ってきました。それは過去の歴史の話です。
後半では「マルチモーダル化」と「カスタム化」という二つのトピックスにフォーカスして、ChatGPTがどのように変わっていくのかということを考えたいのですが、そこでも具体的には技術的な話が中心になります。それはAI技術の現在の話になるでしょう。
AIの未来を考えようとすると、それを単なる技術予測として語るのは適切なものではないと思います。AI技術が人間と社会の未来に大きな影響を与えるだろうと考えるならなおさらのことです。それは技術だけの問題ではないからです。
興味深いのは、技術の側から見ても「単なる技術」というくくりはAIの「技術的予測」にとっても狭いものかもしれないと思えることです。
もしも、ChatGPTの成功の要因のひとつが、「人間のフィードバックからの強化学習」という「技術」の採用にあるのなら、それは、現在のAI技術は人間の介在を必要としていると考えることもできるはずです。そして、それは正しい認識だと僕は考えています。
【 AIの安全性をめぐって -- OpenAI の隠れた優位性 】
AIの安全性をめぐる議論は、まさに、AIと人間の接点の問題です。
この問題は、AI技術が社会的に受け入れられ、AIビジネスが経済的に成功するためにも、今以上に重要な課題になっていくと思います。AI開発の競争の焦点は、言語モデルの規模の大きさから、AIシステムの安全性に移っていくと思います。
AIの安全性をめぐる議論は、AIの危険性をめぐる議論に他なりません。 AIを安全なものにするためには、その危険性を知らないといけないはずです。
OpenAIについて、我々はその技術的優位性に目が行きがちなのですが、これらのAIを安全なものにする取り組みで、OpenAIが、圧倒的に進んでいることは注目に値します。
【 OpenAIの安全性への取り組み 】
OpenAIは、訓練用データから性的コンテンツを人手で除去し、不適切な回答を人間がチェックする安全に関連するRLHFトレーニングプロンプトの見直しを進めています。
また、社外の多数の専門家とも連携して、危険性の徹底的な洗い出しを行なっています。"GPT-4 System Card" というドキュメントは、そうした検討の集大成です。
さらに、Red TeamというOpenAIのAIシステムを「攻撃」するチームを結成して、問題の洗い出しを不断に継続しています。
文字通り、「人間のフィードバック」によるAIシステムの改善に、人手と時間をかけて取り組んでいます。皮肉なことかもしれないですが、AIの危険性を誰よりも良く知っているのは、OpenAI自身です。
--------------------------------
https://drive.google.com/file/d/1azJ1m0YtCfiDUYK7baMYQXwPXoIXwF6Y/view?usp=sharing
コメント
コメントを投稿