Limitation
【 ChatGPTの正確さは「40%〜60%」でしかなかった 】
このセッションでは、"GPT-4 Technical Report" のLimitationの章を取り上げます。
Limitation は「性能上の制限・性能の限界」の意味だと思うのですが、微妙なのは、この章のすぐ後に Risks & mitigations という章があることです。 LimitationとRisk はどう違うのでしょうか?
このセミナーを紹介した時最初に述べたように、GPT-4 Technical Report の最大の特徴は、GPT-4の危険性とそれへの対応にフォーカスしたもう一つの論文 GPT-4 System Card と二本立てになっていることです。Risks & mitigations については別に詳しく述べるということです。
そうしたRiskと区別されたLimitationは、事実として確認されてはいるが、手は打っているしそんなに危険ではないものということなのかもしれません。
「GPT-4は、その能力にもかかわらず、以前のGPTモデルと同様の限界を持っている。最も重要なのは、まだ完全な信頼性がないことである(事実を「幻覚」したり、推論ミスをしたりする)。」
僕が注目したのは、この章で、以前のGPTのモデル -- ChatGPTのことです -- の「限界」についてのOpenAIの評価が示されていることです。
動画のサムネールで示した Figure 6 で見ると、ChatGPTの正確さは、すべてのカテゴリーで、40%から60%の範囲にとどまっています。大雑把にいうと、ChatGPTの出力は、二つに一つは間違っているということです。
現在の「生成AIブーム」は、ChatGPTによって火がついたのですが、この図の情報をきちんと知る必要があると思います。開発元のOpenAI自身の評価以上の過大評価が拡大しているのではと思います。それは、一時的な「ブーム」がもたらした「幻覚」だと僕は思います。
こうしたOpenAIとの現状認識のズレは、OpenAI自身が、GPT-4のはらむ危険性とその解決方法の模索に焦点を合わせている中で、その問題意識についていけず、むしろ拡大していく可能性があるかもしれません。
-------------------------------------
「GPT-4 Technical Report を読む」セミナー申し込みページ
https://gpt4-report.peatix.com/
コメント
コメントを投稿