投稿

Risks & mitigations

【 レッド・チーム、RBRM、ジェイルブレイク 】 このセッションでは、"GPT-4 Technical Report" のRisks & mitigations の章を取り上げます。この章では、GPT-4の安全性を向上させるためにOpenAIが行った、さまざまな取り組みが紹介されています。 OpenAIは、GPT-4のリスクを評価するために、GPT-4に対して「敵対的テスト」-- 危険性をわざと引き出すようなテストを行うチームを作りました。それを「レッド・チーム」と呼んでいます。 「レッド・チーム」は、AIの専門家だけでなく、サイバーセキュリティ、バイオリスク、国際セキュリティなどのドメインから50人以上の専門家を集めて構成されています。彼らの働きで、ニッチな専門知識を必要とする高リスク領域におけるモデルの動作をテストすることができたと言います。 次回以降に紹介する GPT-4 System Card で取り上げられているGPT-4の危険性・脆弱性の多くは、「レッド・チーム」が発見したものだと思います。 こうした問題に対処するOpenAIのアプローチは、「安全に関連するRLHFトレーニングプロンプトの追加セット」と、「ルールベースの報酬モデル(RBRM)」の2つの主要コンポーネントで構成されています。 前者は、GPT-4も先行したChatGPTと同様に「人間によるフィードバックの強化学習(RLHF)」をfine-tuning時に適用するのですが、この時の人間のラベラーによるチェックの甘さを補おうとしたものです。 後者の「RBRM (Rule Based Reward Model)」は、人間が書いた評価基準(rubic)に基づいて、入力プロンプトに対する反応を強化学習させるモデルです。 RBRMは、有害な出力を要求するプロンプトを拒否することで報酬を得ます。同様に、安全であることが確認される出力を要求するプロンプトを拒否しないことでも報酬を得ます。 「GPT-3.5と比較して,GPT-4は、許可されていないコンテンツのリクエストに応答する傾向が82%減少し,ポリシーに従って敏感なリクエスト(医療アドバイス 等)に29%多く応答するようになった。」 以前、こうしたメカニズムについてこう書きました。 「こうした取り組み、僕には、フロイトの意識

Limitation

【 ChatGPTの正確さは「40%〜60%」でしかなかった 】 このセッションでは、"GPT-4 Technical Report" のLimitationの章を取り上げます。 Limitation は「性能上の制限・性能の限界」の意味だと思うのですが、微妙なのは、この章のすぐ後に Risks & mitigations という章があることです。 LimitationとRisk はどう違うのでしょうか? このセミナーを紹介した時最初に述べたように、GPT-4 Technical Report の最大の特徴は、GPT-4の危険性とそれへの対応にフォーカスしたもう一つの論文 GPT-4 System Card と二本立てになっていることです。Risks & mitigations については別に詳しく述べるということです。 そうしたRiskと区別されたLimitationは、事実として確認されてはいるが、手は打っているしそんなに危険ではないものということなのかもしれません。 「GPT-4は、その能力にもかかわらず、以前のGPTモデルと同様の限界を持っている。最も重要なのは、まだ完全な信頼性がないことである(事実を「幻覚」したり、推論ミスをしたりする)。」 僕が注目したのは、この章で、以前のGPTのモデル -- ChatGPTのことです -- の「限界」についてのOpenAIの評価が示されていることです。 動画のサムネールで示した Figure 6 で見ると、ChatGPTの正確さは、すべてのカテゴリーで、40%から60%の範囲にとどまっています。大雑把にいうと、ChatGPTの出力は、二つに一つは間違っているということです。 現在の「生成AIブーム」は、ChatGPTによって火がついたのですが、この図の情報をきちんと知る必要があると思います。開発元のOpenAI自身の評価以上の過大評価が拡大しているのではと思います。それは、一時的な「ブーム」がもたらした「幻覚」だと僕は思います。 こうしたOpenAIとの現状認識のズレは、OpenAI自身が、GPT-4のはらむ危険性とその解決方法の模索に焦点を合わせている中で、その問題意識についていけず、むしろ拡大していく可能性があるかもしれません。 僕自身は、他のところでも繰り返し述べているように

Capabilities -- Exams

【 "few-shot prompt" の威力 】  このセッションでは、"GPT-4 Technical Report" のCapabilitiesの章の前半部分を見ていきます。同じ章の後半の Multi-Modal の能力を扱った "Visual Input" の部分は、次回取り上げます。 このCapabilitiesの章の前半部分は、GPT4.0が、人間向けに作られた様々な「試験問題」を片っ端から解いてみせたという事例を紹介しています。 特に、司法試験の模擬試験(Uniform Bar Examination)で、受験者の上位10%に入るスコアで合格できたことが述べられています。また、LSAT(Law School Admission Test)や各種のAP(Advanced Placement 高校生むけの大学の単位認定)試験でもいい成績を収めました。 司法試験の模擬試験で、どのようなプロンプトが使われたかは残念なことに公開されてませんでしたが、美術史のAP試験のプロンプトのサンプルが、Appendix A.8 に公開されています。それは、いきなり答えを要求するのではなく、段階を追って答えに近づくという "few-shot prompt" というスタイルでした。 "few-shot prompt" の有効性は、すでにGPT-3の時に気づかれていたことで、その基本的論文は、“Language Models are Few-Shot Learners”  https://arxiv.org/abs/2005.14165  です。ぜひ、お読みください。 僕は、"few-shot prompt" という手法と、Attentionメカニズムは、強く深く結びついていると考えています。 ある言語の一つの文を考えると、その文の中の語の並びは、その言語の文法性・構成性によって、強く関連づけられています。ですので、システムが文法性・構成性を陽に意識せずとも(大規模言語モデルでは、言語の文法性・構成性は意識されていません。その対象は、「構造化されていない」語の並びです)、Next Word Predictionは、比較的容易です。 ある言語のある文とそれに連接す

Predictable Scaling

【 大規模AIモデルの開発方法論 】 このセッションでは、"GPT-4 Technical Report" のPredictable Scalingの章を見ていきます。   GPT-4のような巨大なシステムでは、モデルの訓練に非常に多くの計算が必要になります。その計算には膨大な電力を必要で、それには膨大なコストがかかります。 もし、巨大なシステムを立ち上げたままでしか、モデルのアルゴリズムやパラメータの変更・デバッグができないのなら、新しいモデルの開発には、膨大な費用がかかることになります。 そうだとすれば、それは、実機にデプロイする前に、自分のマシンで、コーディング、テスト、デバッグのサイクルを繰り返してシステムを開発することができる開発スタイルとは少し違ったものです。 開発環境と実際の実行環境の違いを意識することは、皆さん行っていることでしょうが、実機でしか開発・デバッグができないとか、その実機の利用料が目が飛び出るほど高いとかになると、開発はとてもやりにくいものになります。(もちろん、そうだとしても実機でのテストは必要ですね。) この"Predictable Scaling"は、大規模AIモデル開発でのこうした問題に対する、OpenAIの新しいアプローチを提起し、その実際を公開したものです。 基本的なアイデアは、実際にデプロイされる巨大なモデルの振る舞いを、その1,000分の1とか10,000分の1の計算量で効率的にかつ正確に予測することができるなら、巨大モデルの開発・テスト・デバッグは、その小さな環境上で行うことができるのではないかというものです。 OpenAIは、 "Predictable Scaling" として次の二つの方法を提起しています。  ⚫️ Loss Prediction  ⚫️ Scaling of Capabilities on HumanEval いずれのアプローチでも、システムのスケールを数千倍に拡大した場合でも、その振る舞いを正確に予測できることを、OpenAIは示しています。これは、巨大AIモデルの開発の方法論にとって、実践的には、とても重要な意味をもってぃます。 スライドの最後に、HumanEvalについて簡単な説明を加えておきました。 HumanEval についての

GPT-4 Technical Report と GPT-4 System Card

【 なぜ、二つの文書が同時に公開されたのか 】 このセッションでは、今回のセミナーで取り上げる GPT-4 Technical Report の概要を見ておこうと思います。 前回も述べましただ、このレポートは実際には二つの文書から構成されています。第一の文書が "GPT-4 Technical Report" で、第二の文書が "GPT-4 System Card" です。 第一の文書 "GPT-4 Technical Report" では、まず GPT-4の重要な成果として、次のことが述べられています。  ⚫️ GPT-4は、マルチモーダルであること  ⚫️ モデルの開発の主な目標は、複雑で微妙な意味のあるシナリオのもとでも、自然言語テキストを理解し生成する多言語の能力を向上させること  ⚫️ プロジェクトの重要な課題は、幅広いスケールで予測可能な振る舞いをする深層学習インフラを構築することであった レポートは、GPT-4の成果のみを強調している訳ではなく、次のように述べます。 「 GPT-4は、その性能にもかかわらず、以前のGPTモデルと同様の制限がある。すなわち、完全に信頼できるわけではなく(例えば、「幻覚」に苦しむことがある)、コンテキストウィンドウは限られており、経験から学ぶことはない。GPT-4の出力を使用する際には、特に信頼性が重要な文脈では注意が必要である。」 「 GPT-4 の能力と限界は、重要かつ全く新しい安全上の課題を生み出すものである。社会的影響の可能性を考慮すると、これらの課題を慎重に検討することは重要な研究分野であると考える。」 だから、成果だけでなく、こうした問題にフォーカスしたレポートが必要だということになります。 「このレポートは、バイアス、偽情報、過信、プライバシー、サイバーセキュリティ、急激な拡散など、我々が予測するリスクのいくつかを記述した広範なシステムカード(Appendixの後)を含んでいる。」 二つの文書が公開されたということは、GPT-4をその成果だけからではなく、その問題点からも考えなければならないということを意味しています。 第二の文書 "GPT-4 System Card" は、次のような課題を担っています。 「第一に、このモデルの

5/27 マルレク「 "GPT-4 Technical Report" を読む 」へのお誘い

【 5/27 マルレク「 "GPT-4 Technical Report" を読む」へのお誘い 】 このところ数学寄りの内容が多かったので、5月のマルレクは、IT技術者向けに技術の話をしようと思っています。 今回テーマとして取り上げるのは、3月に無署名で発表されたOpenAIの論文 "GPT-4 Technical Report" です。無署名ということは、OpenAIの公式見解だということだと思います。 https://arxiv.org/abs/2303.08774 【 GPT-4 System Card 】 この論文本体は、“Introduction” から ”Conclusion”まで、12ページ程の短いものなのですが、先のpdf全体のボリュームは 100ページもあります。 と言いますのは、残りの80ページ以上の付属資料で、OpenAIがGPT-4の技術の到達点と問題点をどのように評価し、その問題点にどう対応しようとしているのかが詳細にレポートされているからです。 特に、付属資料中の GPT-4をどのように「安全」なものにするかという問題にフォーカスした論文内論文(p41 〜 p100 Appendix 含む)である"GPT-4 System Card" は重要な内容を含んでいます。 【 Hallucinations 】 重要な問題の一つは、GPT-4が平気で嘘をつくことです。producing convincing text that is subtly false この論文では、この 'Hallucinations" (「幻覚」でしょうか) の問題が、GPT-4 Observed Safety Challenges の筆頭に挙げられています。 「 GPT-4は「幻覚」、すなわち「ある情報源に関連して、無意味な、あるいは真実でない内容を作り出す」傾向がある[31, 32]。この傾向は、モデルの説得力や信憑性が増し、ユーザーによる過信を招くと特に有害となり得る。[「過信」の項で詳しく説明する。]  逆説的だが、幻覚は、モデルがより真実味を帯びるにつれて、より危険になる可能性がある。なぜなら、ユーザーは、自分がある程度精通している領域で真実の情報を提供するモデルに対して信頼を築くから

Tai-Danaeの reduced densityとenriched category

 【 探究は続く 】 今回のセミナーでは、Tai-Danae Bradleyの次の論文の紹介する予定でした。 Language Modeling with Reduced Densities https://arxiv.org/abs/2007.03834v4    ただ、今回は他の部分が膨らんで、また、準備に十分な時間が取れず断念しました。すみません。 この Tai-Danaeの論文の数学的基礎の reduced density については、2023年2月のマルレク 「密度行列 ρ で理解する確率の世界」がその解説になっています。先日、講演資料と講演ビデオを公開したので、そちらを参照ください。 https://www.marulabo.net/docs/density2/   セミナーの構成を変更して、「意味の分散表現論の系譜 – 大規模言語モデルへ 」の部分を切り離したので、そちらに含まれていたTai-Danae の新しいアプローチを紹介していた部分を、改めて今回のセミナーの一部として再掲したいと思います。 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? この論文の冒頭で、彼女はこう言っています。 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、現在の「大規模言語モデル」の「印象的」な成功に向けられています。彼女はそれがDisCoCatモデルとは少し異なる言語モデルであることも知っています。その上で、その背後にあるものを探り出そうとしているのです。 僕にとって印象的だったのは、彼女が次々と問題を立てることでした。答えの前には、もちろん、問題があります。ただ、答えを見つける条件が成熟するというのは、正しく問題をたてることができるということです。  ⚫️ 自然言語における表現の意味をとらえる数学的構造は何か?  ⚫️ この構造は、テキスト・コーパスを用いてどの程度まで十分に検出できるのか?  ⚫️ 抽象的な概念とその相互関係を自然に掘りだす方法はあるのか?  ⚫️ 論理と命題の連関はどのようにして生まれるのか? こうして、彼女は、次の二つ