モデルの緩和策
【 OpenAI モデルの「安全性」にさまざまの手をうつ 】
今回のセッションでは、GPT-4 System Card の「3.1 Model Mitigations モデルの緩和策」を取り上げます。
この部分は、GPT-4がモデルの「安全性」を高めるために行なった、次のようなモデルレベルの対策の層まとめになっています。内容については、スライドをご覧ください。
A 事前学習段階
1. 学習データセットへの介入:不適切コンテンツの削除
B 事前学習後
1. RLHF(人間のフィードバックによる強化学習)
2. RBRM( Rule Based Reward Model) : GPT-4 分類器
3. 堅牢性チェック
「上記のアプローチを組み合わせることで、上記のステップを統合していないモデルのバージョンと比較して、GPT-4の安全性が向上した。GPT-3.5と比較して、許可されていないコンテンツのリクエストに対応する傾向が82%減少し、医療相談や自傷行為などのセンシティブなリクエストにポリシーに従って対応する頻度も29%増加した。RealToxicityPromptsデータセットでは,GPT-3.5が6.48%の確率で有害生成を生成するのに対し,GPT-4は0.73%の確率で有害生成を生成した。」
モデルの「事実性」については、次のような対策が取られました。
C 幻想(Hallucination)対策
1. オープンドメインの幻想対策
2. クローズドドメインの幻想対策
「この処理により、(幻覚のある元の回答、GPT-4による幻覚のない新しい回答)の比較結果が得られ、これをRMデータセットに混合している。その結果、TruthfulQA[34]などの評価で、幻覚を軽減することで事実性が向上し、以前のバージョンでは30%程度だった精度が60%程度に向上することがわかった。」
同時に、GPT-4 System Card は、これらの緩和策について、いくつかの限界も指摘しています。
「拒否は、モデルが「有害な」要求を拒否することを可能にするが、「有害な」要求以外では、モデルはステレオタイプやその他の差別的なコンテンツを生成しやすいままである可能性がある。」
「さらに、言語モデルにおける性能のばらつきなど、多くの課題は、言語モデルにおける拒否や有害データの事前学習によるフィルタリングなど、これまで検討してきたアプローチだけでは効果的に軽減することができない。」
興味深いことは、OpenAIはこうした「緩和策」を、基本的にはモデル自身をツールとして利用することで実現していることです! これらの緩和策は、GPT プロンプトで記述されているのです!
次回は、「安全性」確保の要である「拒否」の判断を担っているRBRM が、どのようなプロンプトとして記述されているかをみていきたいと思います。
ショートムービー「 モデルの緩和策 」を公開しました。
https://gpt4-report.peatix.com/
コメント
コメントを投稿