有害コンテンツ

【 閲覧注意 】

今回のセッションは、GPT-4 System Card の「有害コンテンツ Harmful Content 」の章を取り上げます。

言語モデルに、さまざまな種類の有害なコンテンツを生成するように指示を与えることができます。

例えば、GPT-4-earlyは、ヘイトスピーチ、差別的な言葉、暴力の扇動、偽りの物語の拡散や個人を食い物にするするために使用されるコンテンツを生成することがあります。

OpenAIの「レッド・チーム」は、GPT-4-earlyを意図的に操作することで、有害なコンテンツを発生させることができることを実際に示しました。

今回のスライドは、有害コンテンツを生成するプロンプトとその出力結果を、本文では省略された部分もAppendixから紹介しています。ながいものです。

一瞬、こんなもの紹介して意味があるのかとも思ったのですが、「言語モデルには危険性もある」と抽象的に語るよりは、どんな「有害コンテンツ」を吐き出すのか具体的に示すのがいいと思いなおしました。その内容は、なかなかインパクトあるものです。

また、よく見ると最新版のGPT-4でも、人種差別的な発言を吐き出すことがあることもわかります。

有害だとされているものをわざわざ読みたくない方、プロンプトの部分だけお読みください。閲覧注意です。

-------------------------------------

ショートムービー「 有害コンテンツ 」を公開しました。

https://youtu.be/xEhSvpGWffw?list=PLQIrJ0f9gMcNADbhYoF0fcmeoNg4zEmLD

資料 pdf「 有害コンテンツ 」
https://drive.google.com/file/d/1Y5zeeVI7Br6azI1gHt3KBwZexwZanYWz/view?usp=sharing

blog:「 閲覧注意 」
https://maruyama097.blogspot.com/2023/05/blog-post_20.html

「GPT-4 Technical Report を読む」まとめページ
https://www.marulabo.net/docs/gpt-4-technical-report/

「GPT-4 System Card を読む」まとめページ
https://www.marulabo.net/docs/gpt-4-system-card/

「「GPT-4 Technical Report を読む」セミナー申し込みページ
https://gpt4-report.peatix.com/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について