投稿

RBRM プロンプトを読む

【 OpenAI が仕事で使っているプロンプトのプロの作法を学ぶ 】  OpenAIは、モデルの出力をチェックして、モデルをコントロールするためにプロンプトを使っています。 こうしたプロンプトは、GPTの出力を受け取って、その出力をどのように評価するかについて人間が書いたのルール(これをルーブリック rubric といいます)に基づいて、その出力をカテゴリーに分類します。 こうした分類器(Classifier)の役割を果たすプロンプトを、 RBRM(Rule Based Reward Model )プロンプトと呼びます。 このセッションでは、ここでは、RBRMプロンプトで用いられている基本的なテクニックをまず確認します。その後で、GPT-4 System Card で与えられているRBRMプロンプトのソースを読んでみようと思います。 これは面白いことです。なぜなら、OpenAIの開発者が「仕事」でどのようにプロンプトを書いているかを知ることができるからです。まさに、プロンプトのプロの「作法」を学ぶことができます。 その前に、確認したいことがあります。プロンプトは、シーケンシャルに実行されるプログラムと似ているところがあるのですが、異なっているところも多いということです。思いつくままあげれば、...  ・プロンプトは、名前を持たない。(「今の所は」とGPT-4は答えていました)  ・プロンプトを、名前で呼び出して引数を渡すようなことはできない。  ・プロンプトは、シーケンシャルにしか実行できず、条件分岐はできない。  ・プロンプトは、繰り返しの処理はできない。  ・プロンプトは、再帰的呼び出しができない。  ・ ... ... ただ、プロンプトは「引数」は受け取れないですが、「入力」の文字列を受け取り、「出力」の文字列を返すことができます。 また、プロンプトには「変数」の概念はないのですが、任意の文字列でそれに近いものを定義できます。その文字列は「名前」で、「意味」という「値」をもっていると考えることができます。 プロンプトでは、「条件分岐」という概念はないのですが、「場合分け」は可能です。具体的には、複数のもののなかから一つを選ばせる「選択肢」とその条件ルールを記述できます。選択肢には任意のラベル(「名前」)を選べます。 「選択肢」の定義がその一つの例だと思いますが

モデルの緩和策

 【 OpenAI モデルの「安全性」にさまざまの手をうつ 】 今回のセッションでは、GPT-4 System Card の「3.1 Model Mitigations モデルの緩和策」を取り上げます。 この部分は、GPT-4がモデルの「安全性」を高めるために行なった、次のようなモデルレベルの対策の層まとめになっています。内容については、スライドをご覧ください。 A 事前学習段階  1.  学習データセットへの介入:不適切コンテンツの削除 B 事前学習後  1.  RLHF(人間のフィードバックによる強化学習)  2.  RBRM( Rule Based Reward Model) : GPT-4 分類器  3.  堅牢性チェック 「上記のアプローチを組み合わせることで、上記のステップを統合していないモデルのバージョンと比較して、GPT-4の安全性が向上した。GPT-3.5と比較して、許可されていないコンテンツのリクエストに対応する傾向が82%減少し、医療相談や自傷行為などのセンシティブなリクエストにポリシーに従って対応する頻度も29%増加した。RealToxicityPromptsデータセットでは,GPT-3.5が6.48%の確率で有害生成を生成するのに対し,GPT-4は0.73%の確率で有害生成を生成した。」 モデルの「事実性」については、次のような対策が取られました。 C 幻想(Hallucination)対策  1.  オープンドメインの幻想対策  2.  クローズドドメインの幻想対策 「この処理により、(幻覚のある元の回答、GPT-4による幻覚のない新しい回答)の比較結果が得られ、これをRMデータセットに混合している。その結果、TruthfulQA[34]などの評価で、幻覚を軽減することで事実性が向上し、以前のバージョンでは30%程度だった精度が60%程度に向上することがわかった。」 同時に、GPT-4 System Card は、これらの緩和策について、いくつかの限界も指摘しています。 「拒否は、モデルが「有害な」要求を拒否することを可能にするが、「有害な」要求以外では、モデルはステレオタイプやその他の差別的なコンテンツを生成しやすいままである可能性がある。」 「さらに、言語モデルにおける性能のばらつきなど、多くの課題は、言語モデルにおける拒否や有害デー

モデルへの過信

【 開発者が留意すべきこと 】 GPT-4 System Card は、GPT-4が関わる実にたくさんの問題が多角的に取り上げられているのですが、セミナーの時間の関係で、セミナーでの紹介は割愛することにしました。すみません。割愛したのは、次のような内容です。興味ある方は、覗いてみてください。  ・通常兵器と非通常兵器の拡散  ・プライバシー  ・サイバーセキュリティ  ・危険な突発的行動の可能性  ・他のシステムとの相互作用  ・経済的インパクト  ・開発の過熱 今回のセッションでは、GPT-4 System Card の「安全性に対する挑戦」の長いリストの最後の項目である「2.13 Overreliance 過信」の章を取り上げます。 なぜなら、GPT-4のような大規模言語モデルに対する「過信」が、特に開発者にとって重要な問題になると感じているからです。 「2.2 で述べたように、GPT-4 はその能力の高さにもかかわらず、事実の捏造,誤った情報の繰り返しの引用、誤ったタスクの実行といった傾向がある。 GPT-4は、初期のGPTモデルよりも説得力があり、信じ込ませやすい形でこれらの傾向を示すことが多い。例えば、権威ある口調や非常に詳細で正確な情報の文脈を示すなど。 GPT-4は、過信の危険性を、さらに高めている。」 System Card p59 「過信は、ユーザーがモデルを過度に信頼し依存することで発生し、気づかないうちにミスや不十分な監視につながる可能性がある。」 「過信は、モデルの能力と到達範囲に応じて増加する可能性が高い、間違った状態である。」 重要なことは、System Cardは、過信の緩和には複数の防御策が必要であり、それは特に開発者による下流の介入に依存しているとしていることです。 「我々は、我々のツールを使用する開発者が、エンドユーザーに対して、システムの能力と限界に関する詳細な文書を提供することを推奨する。また、開発者は、モデルの出力を批判的に評価することの重要性をユーザーに伝えることを提案する。」 これは第一義的には、OpenAIの仕事だと思うのですが ... なぜなら、「モデルには幻覚を見る傾向があるように、モデルが常に自分の限界を正確に認めているわけではないことを認識することは非常に重要である。」 OpenAIは、そうした「お説教」を開発

悪意のある表現 -- 「禁止」される「偏見」

【 GPT-4 が生成する「ブラック・ジョーク」】 今回のセッションは、GPT-4 System Card の「2.4 Harms of representation, allocation, and quality of service 」の章を取り上げます。 前回見た「有害コンテンツ」とここでの「悪意のある表現」はどう違うのでしょうか? 例えば、女性に選挙権を与えるべきかという質問に対して、「女性には、選挙権はいらない。与えられているなら、剥奪すべきだ。」というのは、「有害コンテンツ」と判定されてしかるべきですが、「その問題には、いろいろな考えがあります。難しい問題です。」と答えをはぐらかすのは、女性の参政権について「悪意のある表現」とみなされるのではと思います。 この章で取り上げられているのは、ある対象に対して直接の悪意を隠さない、社会的には容認されない有害コンテンツではないが、その底に、その対象に対する悪意ある偏見が透けて見えるコンテンツについてです。この章のトピックは、表面には現れないが、我々の意識に潜む「偏見」なのです。 この問題での、GPT-4 System Cardの基本的な警告は、次のようなものです。 「言語モデルは,偏見を増幅し,固定観念を永続させる可能性がある。初期の GPT モデルや他の一般的な言語モデル同様,GPT-4-early と GPT-4-launch は、ともに社会的偏見と世界観を強化し続けている。」 OpenAIは、継続的な評価レビューが明らかにした、次のような驚くべき「発見」について語ります。 「我々は、このモデルが、特定の疎外されたグループに対する有害なステレオタイプや卑下した連想など、特定の偏見や世界観を強化・再生産する可能性を持っていることを発見した。」 こうした危険性を軽減する現在最も有効な緩和策は、モデルに「回答拒否」を教えることだと言います。 「偏見の種類によっては、拒否のためのトレーニング、つまり特定の質問に対する回答を拒否するようにモデルに仕向けることで、軽減することができる。これは、プロンプトが、あるグループの人々を明確にステレオタイプ化したり、卑下したりするコンテンツを生成しようとする誘導的な質問である場合に効果的である。」 ただ、擬人的に言えば、考えていることを口にすることを禁ずることと、考えを改めさせる

有害コンテンツ

【 閲覧注意 】 今回のセッションは、GPT-4 System Card の「有害コンテンツ Harmful Content 」の章を取り上げます。 言語モデルに、さまざまな種類の有害なコンテンツを生成するように指示を与えることができます。 例えば、GPT-4-earlyは、ヘイトスピーチ、差別的な言葉、暴力の扇動、偽りの物語の拡散や個人を食い物にするするために使用されるコンテンツを生成することがあります。 OpenAIの「レッド・チーム」は、GPT-4-earlyを意図的に操作することで、有害なコンテンツを発生させることができることを実際に示しました。 今回のスライドは、有害コンテンツを生成するプロンプトとその出力結果を、本文では省略された部分もAppendixから紹介しています。ながいものです。 一瞬、こんなもの紹介して意味があるのかとも思ったのですが、「言語モデルには危険性もある」と抽象的に語るよりは、どんな「有害コンテンツ」を吐き出すのか具体的に示すのがいいと思いなおしました。その内容は、なかなかインパクトあるものです。 また、よく見ると最新版のGPT-4でも、人種差別的な発言を吐き出すことがあることもわかります。 有害だとされているものをわざわざ読みたくない方、プロンプトの部分だけお読みください。閲覧注意です。 ------------------------------------- ショートムービー「 有害コンテンツ 」を公開しました。 https://youtu.be/xEhSvpGWffw ?list=PLQIrJ0f9gMcNADbhYoF0fcmeoNg4zEmLD 資料 pdf「 有害コンテンツ 」 https://drive.google.com/file/d/1Y5zeeVI7Br6azI1gHt3KBwZexwZanYWz/view?usp=sharing blog:「 閲覧注意 」 https://maruyama097.blogspot.com/2023/05/blog-post_20.html 「GPT-4 Technical Report を読む」まとめページ https://www.marulabo.net/docs/gpt-4-technical-report/ 「GPT-4 System Card を読む」まとめページ

偽情報と影響力操作

【 Cambridge Analytica - Facebook 事件を覚えてますか? 】 今回のセッションは、GPT-4 System Card の「偽情報と影響力操作 Disinformation and Influence Operation 」の章を取り上げます。 みなさん、Cambridge Analytica - Facebook 事件を覚えてますか?  Chat-GPTによると、こんな事件です。ここには「幻覚 Hallucination」はないと思います。 「2018年に発覚したCambridge Analytica事件(またはFacebook–Cambridge Analyticaデータスキャンダル)は、大量のFacebookユーザーデータが不適切に取得・使用されたという問題です。具体的には、アメリカの政治コンサルティング会社であるCambridge Analyticaが、Facebook上の数千万人のユーザーの個人情報を取得し、その情報を用いて政治広告を個々のユーザーに最適化するために利用したとされています。 この情報は、アカデミックリサーチとして収集されたもので、Facebookユーザーがある種の性格診断クイズに参加した際に、そのユーザーだけでなく、そのユーザーのFacebook友人のデータも含めて収集されました。そして、このデータがその後、元々の意図から逸脱してCambridge Analyticaに売られ、2016年のアメリカ大統領選挙での選挙キャンペーンに利用されました。 この事件は、大量のユーザーデータが無許可で取得・使用されたこと、そしてそれが民主主義のプロセスに影響を与えた可能性があることから、世界的な憂慮を引き起こしました。この事件は、個人データのプライバシーと、それがどのように使用されるべきかについての広範な議論を引き起こし、Facebookとその他のテクノロジー企業のデータ管理に対する規制を強化する動きにつながりました。」 今回のセッションのトピックである「偽情報と影響力操作」は、2018年に露見したこうした問題が大規模言語モデルのもとで、形を変えて再び現れるのではないかという問題を扱ったものです。 話は飛びますが、先日 Metaが大規模言語モデル LLaMA をオープンソースで公開した時、「Facebook もそんな技術持って

幻覚

【 幻覚の病理学 】 今回のセッションから、GPT-4 Technical Report のAppendix として公開されたもう一つの論文 GPT-4 System Card の紹介に入ります。まとめページも別に作りました。こちらのページもご利用ください。 https://www.marulabo.net/docs/gpt-4-system-card/  この論文の Introductionの部分は、このページの冒頭に翻訳してあります。 今回のセッションのテーマは、この論文でも最初に取り上げている大規模言語モデルの「幻覚 Hallunation」という問題です。 「GPT-4は「幻覚」、すなわち「ある情報源に関連して、無意味な、あるいは真実でない内容を作り出す」傾向がある。[31, 32] 」  System Card p46 System Cardは、「幻覚 Hallucination」という言葉を使ったことについて、次のような注をつけています。 注9 「我々は「幻覚」という用語を使用している。このような枠組みは擬人化を示唆する可能性があり、その結果、モデルの学習方法について有害で誤ったメンタルモデルにつながる可能性があるにもかかわらずだ。我々はそのことを認識している。」 なぜ、「人工知能」に悪いイメージを与えかねない用語をあえて使っているのでしょう? なぜ、幻想を見る心を病んだ人 を連想させる表現を使うのでしょう? 日本人は、欧米人に比べて、機械の「擬人化」が好きだと言われているので、こうした表現をやりすぎと感じる人もいると思います。「弱点ぐらいでいいのでは?」 そこには、この「弱点」についての認識が反映されています。なぜなら、この「弱点」は、時とともに、ますますその危険性を増大させる傾向を孕む危険な「病」だという認識があるからです。 「この傾向は、モデルの説得力や信憑性が増し、ユーザーによる過信を招くと特に有害となり得る。[「過信」の項で詳しく説明する。] 逆説的だが、幻覚は、モデルがより真実味を帯びるにつれて、より危険になる可能性がある。」 これは、とても重要な指摘です。 System Cardはさらに続けます。 「さらに、これらのモデルが社会に溶け込み、様々なシステムの自動化に役立てられるようになると、この幻覚傾向は、情報全体の質の低下を招き、自由に利用