AIの危険性の認識とModel Refusalという手法

【 Interlude -- AIと人間の関係を考える 】

これまで、ChatGPTの成功に至るまでの大規模言語モデルの成立とその発展を、主要には技術的な関心から振り返ってきました。それは過去の歴史の話です。

後半では「マルチモーダル化」と「カスタム化」という二つのトピックスにフォーカスして、ChatGPTがどのように変わっていくのかということを考えたいのですが、そこでも具体的には技術的な話が中心になります。それはAI技術の現在の話になるでしょう。

AIの未来を考えようとすると、それを単なる技術予測として語るのは適切なものではないと思います。AI技術が人間と社会の未来に大きな影響を与えるだろうと考えるならなおさらのことです。それは技術だけの問題ではないからです。

興味深いのは、技術の側から見ても「単なる技術」というくくりはAIの「技術的予測」にとっても狭いものかもしれないと思えることです。

もしも、ChatGPTの成功の要因のひとつが、「人間のフィードバックからの強化学習」という「技術」の採用にあるのなら、それは、現在のAI技術は人間の介在を必要としていると考えることもできるはずです。そして、それは正しい認識だと僕は考えています。


【 AIの安全性をめぐって -- OpenAI の隠れた優位性 】

AIの安全性をめぐる議論は、まさに、AIと人間の接点の問題です。

この問題は、AI技術が社会的に受け入れられ、AIビジネスが経済的に成功するためにも、今以上に重要な課題になっていくと思います。AI開発の競争の焦点は、言語モデルの規模の大きさから、AIシステムの安全性に移っていくと思います。

AIの安全性をめぐる議論は、AIの危険性をめぐる議論に他なりません。 AIを安全なものにするためには、その危険性を知らないといけないはずです。

OpenAIについて、我々はその技術的優位性に目が行きがちなのですが、これらのAIを安全なものにする取り組みで、OpenAIが、圧倒的に進んでいることは注目に値します。


【 OpenAIの安全性への取り組み 】

OpenAIは、訓練用データから性的コンテンツを人手で除去し、不適切な回答を人間がチェックする安全に関連するRLHFトレーニングプロンプトの見直しを進めています。

また、社外の多数の専門家とも連携して、危険性の徹底的な洗い出しを行なっています。"GPT-4 System Card" というドキュメントは、そうした検討の集大成です。

さらに、Red TeamというOpenAIのAIシステムを「攻撃」するチームを結成して、問題の洗い出しを不断に継続しています。

文字通り、「人間のフィードバック」によるAIシステムの改善に、人手と時間をかけて取り組んでいます。皮肉なことかもしれないですが、AIの危険性を誰よりも良く知っているのは、OpenAI自身です。



【 OpenAIの安全性確保の中心的手法 Model Refusal 】

OpenAIの安全性対策で特筆すべきは、こうした時間とコストがかかる人間による作業と並行して、よりきめ細かいレベルでモデルを適切な動作に導くために、モデル自身をツールとしてコンテンツのチェックの自動化を進めていることです。それを、 rule-based reward models (RBRMs) といいます。基本的には、有害なコンテンツの生成を拒否するのに利用されています。

正確にいうと、外からは、モデルが有害コンテンツの生成を止めたように見えるかもしれませんが、実際に行われているのは、モデルが生成した有害なコンテンツを、モデルと人間の中間にあるシステムが受け取りを拒否して、人間に渡さないようにするのです。いわば、モデルが有害なコンテンツを生み出すという問題には手をつけず、それが表には出てこないように蓋をするということです。これをModel Refusal と言います。OpenAIの安全性確保の中心的手法です。

あるいはこうした方法しかないのかもしれません。あるいは、それはAIの問題は機械的に解決するのが、経済的には一番合理的だという考えの現れかもしれません。

先に見たGPT-4 System Cardの「結論」部分は、こうしたアプローチに対する楽観的とも悲観的とも取れる「両儀的」なものに、僕は感じました。

「実際、これらのシステムをどのように統治するのが最善か、それらが生み出す利益をどのように公平に分配するか、アクセスをどのように公平に共有するか、に取り組むための先行予測研究がない限り、AIシステムがそうすることを期待すべきだろう。」

本当でしょうか?

こうした曖昧さは、このGPT-4 System Cardという重要な文書の公開の仕方自体にも表れていました。この文書は、なぜか独立の文書としては公開されなかったのです。

--------------------------------


ショートムービー「 AIの危険性の認識とModel Refusalという手法 」を公開しました。
https://youtu.be/xjeGFV31j4k?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm

「 AIの危険性の認識とModel Refusalという手法 」のpdf資料
https://drive.google.com/file/d/1azJ1m0YtCfiDUYK7baMYQXwPXoIXwF6Y/view?usp=sharing

blog 「 Interlude -- AIと人間の関係を考える 」
https://maruyama097.blogspot.com/2023/11/aimodel-refusal.html

ショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcNtKtfdBjlaXfsG8hWl3cQm

角川セミナー 「ChatGPTはどう変わろうとしているのか」まとめページ
https://www.marulabo.net/docs/kadokawa1124/

角川セミナー 「ChatGPTはどう変わろうとしているのか」申し込みページ


コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について