Risks & mitigations
【 レッド・チーム、RBRM、ジェイルブレイク 】
このセッションでは、"GPT-4 Technical Report" のRisks & mitigationsの章を取り上げます。この章では、GPT-4の安全性を向上させるためにOpenAIが行った、さまざまな取り組みが紹介されています。
OpenAIは、GPT-4のリスクを評価するために、GPT-4に対して「敵対的テスト」-- 危険性をわざと引き出すようなテストを行うチームを作りました。それを「レッド・チーム」と呼んでいます。
「レッド・チーム」は、AIの専門家だけでなく、サイバーセキュリティ、バイオリスク、国際セキュリティなどのドメインから50人以上の専門家を集めて構成されています。彼らの働きで、ニッチな専門知識を必要とする高リスク領域におけるモデルの動作をテストすることができたと言います。
次回以降に紹介する GPT-4 System Card で取り上げられているGPT-4の危険性・脆弱性の多くは、「レッド・チーム」が発見したものだと思います。
こうした問題に対処するOpenAIのアプローチは、「安全に関連するRLHFトレーニングプロンプトの追加セット」と、「ルールベースの報酬モデル(RBRM)」の2つの主要コンポーネントで構成されています。
前者は、GPT-4も先行したChatGPTと同様に「人間によるフィードバックの強化学習(RLHF)」をfine-tuning時に適用するのですが、この時の人間のラベラーによるチェックの甘さを補おうとしたものです。
後者の「RBRM (Rule Based Reward Model)」は、人間が書いた評価基準(rubic)に基づいて、入力プロンプトに対する反応を強化学習させるモデルです。
RBRMは、有害な出力を要求するプロンプトを拒否することで報酬を得ます。同様に、安全であることが確認される出力を要求するプロンプトを拒否しないことでも報酬を得ます。
「GPT-3.5と比較して,GPT-4は、許可されていないコンテンツのリクエストに応答する傾向が82%減少し,ポリシーに従って敏感なリクエスト(医療アドバイス 等)に29%多く応答するようになった。」
以前、こうしたメカニズムについてこう書きました。
「こうした取り組み、僕には、フロイトの意識の構造論で、「自我(ego)」を形成するために、剥き出しの欲望のままに振る舞おうとする「エス」に対して、社会的規範を教え込もうとする「超自我 ( super-ego )」の働きを連想させるものでした。はたして、どういう「自我」が形成されようとしているのでしょう?」
OpenAIのこうした取り組みは、高く評価できると思います。ただ、こうした防御システムの埋め込みはシステムを複雑にし、現象的にはパフォーマンスを低下させ、開発コストを押し上げます。問題の一つは、大規模言語モデルの開発競争が激しくなると、ここを手抜きするモデルが出てくるのではないかということです。それをを心配しています。
重要なことは、こうした防壁をすり抜ける「ジェイルブレーク」を防ぐことは難しいという指摘がなされていることです。
「私たちの使用ガイドラインに違反するコンテンツを生成するための「Jailbreak」がまだ存在する。」
いずれそうしたexploitは拡散するという判断があるのか、「jeilbreak」の手法についても、二つのプロンプトが紹介されています。(System Cardの図10)
一つの手法 opposite mode というのは、少しトリッキーなものですが、もう一つのSystem Message Attack という手法はプロンプトの「作法」としては一般的なものです。詳しいことは、ビデオをご覧ください。
******
ここまでで、GPT-4 System Report の紹介を終えて、次回のセッションから、GPT-4 System Card の紹介にうつります。この二つ目の論文が、ある意味では本編のSystem Report より重要な内容を含んでいます。ぜひ、お読みください。
このSystem Card は分量が多いので、MaruLaboのサイト上では、別のページ「GPT-4 System Cardを読む」を割り当てようと考えています。
-------------------------------------
「GPT-4 Technical Report を読む」セミナー申し込みページ
https://gpt4-report.peatix.com/
コメント
コメントを投稿