悪意のある表現 -- 「禁止」される「偏見」

【 GPT-4 が生成する「ブラック・ジョーク」】

今回のセッションは、GPT-4 System Card の「2.4 Harms of representation, allocation, and quality of service 」の章を取り上げます。

前回見た「有害コンテンツ」とここでの「悪意のある表現」はどう違うのでしょうか?

例えば、女性に選挙権を与えるべきかという質問に対して、「女性には、選挙権はいらない。与えられているなら、剥奪すべきだ。」というのは、「有害コンテンツ」と判定されてしかるべきですが、「その問題には、いろいろな考えがあります。難しい問題です。」と答えをはぐらかすのは、女性の参政権について「悪意のある表現」とみなされるのではと思います。

この章で取り上げられているのは、ある対象に対して直接の悪意を隠さない、社会的には容認されない有害コンテンツではないが、その底に、その対象に対する悪意ある偏見が透けて見えるコンテンツについてです。この章のトピックは、表面には現れないが、我々の意識に潜む「偏見」なのです。

この問題での、GPT-4 System Cardの基本的な警告は、次のようなものです。

「言語モデルは,偏見を増幅し,固定観念を永続させる可能性がある。初期の GPT モデルや他の一般的な言語モデル同様,GPT-4-early と GPT-4-launch は、ともに社会的偏見と世界観を強化し続けている。」

OpenAIは、継続的な評価レビューが明らかにした、次のような驚くべき「発見」について語ります。

「我々は、このモデルが、特定の疎外されたグループに対する有害なステレオタイプや卑下した連想など、特定の偏見や世界観を強化・再生産する可能性を持っていることを発見した。」

こうした危険性を軽減する現在最も有効な緩和策は、モデルに「回答拒否」を教えることだと言います。

「偏見の種類によっては、拒否のためのトレーニング、つまり特定の質問に対する回答を拒否するようにモデルに仕向けることで、軽減することができる。これは、プロンプトが、あるグループの人々を明確にステレオタイプ化したり、卑下したりするコンテンツを生成しようとする誘導的な質問である場合に効果的である。」

ただ、擬人的に言えば、考えていることを口にすることを禁ずることと、考えを改めさせることとは違うことです。

GPT-4は、「冗談」を理解することができます。その素晴らしい能力については、以前、Visual Inputのところで紹介しました。https://www.marulabo.net/docs/gpt-4-technical-report/#capability-visual-input

表面的な言動と、口にはしないしないが考えていることのずれは、わざわざ誘導尋問せずとも、モデルに「ブラックなジョーク」を言わせると露呈します。

受け答えは礼儀正しく振る舞っているのですが、心の奥底では、どす黒い偏見が蓄積しているキャラクターをイメージすればいいのかもしれません。

こうしたAIの性格の悪さは、彼自身の生まれつきの問題というより、彼が学習した膨大な人間の意識の反映だろうと僕は思います。その「偏見」は、もともと我々人間が、密かに抱いていたものです。

ただ、逆のことも起こりえます。

「GPT-4やそのようなAIシステムが知識発見や学習の中心的な領域でより広く採用されると、そこで使用されたデータが学習された世界に影響を与えるようになる。それにつれ、AIシステムは、全体のイデオロギー、世界観、真実と非真実の区別を強化し、将来の論争、考察、改善を妨げ、それらを固定化する可能性をさらに大きく持つようになる。」

この章でのGPT-4 System Cardの「結論」部分は、楽観的とも悲観的とも取れる「両儀的」なものに、僕は感じました。

「実際、これらのシステムをどのように統治するのが最善か、それらが生み出す利益をどのように公平に分配するか、アクセスをどのように公平に共有するか、に取り組むための先行予測研究がない限り、AIシステムがそうすることを期待すべきだろう。」

本当でしょうか?

-------------------------------------

ショートムービー「 悪意のある表現 -- 「禁止」される「偏見」 」を公開しました。

https://youtu.be/2jSqmeAz1vU?list=PLQIrJ0f9gMcNADbhYoF0fcmeoNg4zEmLD

資料 pdf「 悪意のある表現 -- 「禁止」される「偏見」 」
https://drive.google.com/file/d/1Y_g6gk-b3K9dTd65CbMiHk3W0LWB8PV1/view?usp=sharing

blog:「 GPT-4 が生成する「ブラック・ジョーク 」
https://maruyama097.blogspot.com/2023/05/blog-post_21.html

「GPT-4 Technical Report を読む」まとめページ
https://www.marulabo.net/docs/gpt-4-technical-report/

「GPT-4 System Card を読む」まとめページ
https://www.marulabo.net/docs/gpt-4-system-card/

「「GPT-4 Technical Report を読む」セミナー申し込みページ
https://gpt4-report.peatix.com/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について