Risks & mitigations
【 レッド・チーム、RBRM、ジェイルブレイク 】 このセッションでは、"GPT-4 Technical Report" のRisks & mitigationsの章を取り上げます。この章では、GPT-4の安全性を向上させるためにOpenAIが行った、さまざまな取り組みが紹介されています。 OpenAIは、GPT-4のリスクを評価するために、GPT-4に対して「敵対的テスト」-- 危険性をわざと引き出すようなテストを行うチームを作りました。それを「レッド・チーム」と呼んでいます。 「レッド・チーム」は、AIの専門家だけでなく、サイバーセキュリティ、バイオリスク、国際セキュリティなどのドメインから50人以上の専門家を集めて構成されています。彼らの働きで、ニッチな専門知識を必要とする高リスク領域におけるモデルの動作をテストすることができたと言います。 次回以降に紹介する GPT-4 System Card で取り上げられているGPT-4の危険性・脆弱性の多くは、「レッド・チーム」が発見したものだと思います。 こうした問題に対処するOpenAIのアプローチは、「安全に関連するRLHFトレーニングプロンプトの追加セット」と、「ルールベースの報酬モデル(RBRM)」の2つの主要コンポーネントで構成されています。 前者は、GPT-4も先行したChatGPTと同様に「人間によるフィードバックの強化学習(RLHF)」をfine-tuning時に適用するのですが、この時の人間のラベラーによるチェックの甘さを補おうとしたものです。 後者の「RBRM (Rule Based Reward Model)」は、人間が書いた評価基準(rubic)に基づいて、入力プロンプトに対する反応を強化学習させるモデルです。 RBRMは、有害な出力を要求するプロンプトを拒否することで報酬を得ます。同様に、安全であることが確認される出力を要求するプロンプトを拒否しないことでも報酬を得ます。 「GPT-3.5と比較して,GPT-4は、許可されていないコンテンツのリクエストに応答する傾向が82%減少し,ポリシーに従って敏感なリクエスト(医療アドバイス 等)に29%多く応答するようになった。」 以前、こうしたメカニズムについてこう書きました。 「こうした取り組み、僕には、フロイトの意識