Limitation

【 ChatGPTの正確さは「40%〜60%」でしかなかった 】

このセッションでは、"GPT-4 Technical Report" のLimitationの章を取り上げます。

Limitation は「性能上の制限・性能の限界」の意味だと思うのですが、微妙なのは、この章のすぐ後に Risks & mitigations という章があることです。 LimitationとRisk はどう違うのでしょうか?

このセミナーを紹介した時最初に述べたように、GPT-4 Technical Report の最大の特徴は、GPT-4の危険性とそれへの対応にフォーカスしたもう一つの論文 GPT-4 System Card と二本立てになっていることです。Risks & mitigations については別に詳しく述べるということです。

そうしたRiskと区別されたLimitationは、事実として確認されてはいるが、手は打っているしそんなに危険ではないものということなのかもしれません。

「GPT-4は、その能力にもかかわらず、以前のGPTモデルと同様の限界を持っている。最も重要なのは、まだ完全な信頼性がないことである(事実を「幻覚」したり、推論ミスをしたりする)。」

僕が注目したのは、この章で、以前のGPTのモデル -- ChatGPTのことです -- の「限界」についてのOpenAIの評価が示されていることです。

動画のサムネールで示した Figure 6 で見ると、ChatGPTの正確さは、すべてのカテゴリーで、40%から60%の範囲にとどまっています。大雑把にいうと、ChatGPTの出力は、二つに一つは間違っているということです。

現在の「生成AIブーム」は、ChatGPTによって火がついたのですが、この図の情報をきちんと知る必要があると思います。開発元のOpenAI自身の評価以上の過大評価が拡大しているのではと思います。それは、一時的な「ブーム」がもたらした「幻覚」だと僕は思います。

こうしたOpenAIとの現状認識のズレは、OpenAI自身が、GPT-4のはらむ危険性とその解決方法の模索に焦点を合わせている中で、その問題意識についていけず、むしろ拡大していく可能性があるかもしれません。

僕自身は、他のところでも繰り返し述べているように、大規模言語モデルに基づく「人工知能」の基本的「限界」は、その数学的能力の欠如にあると考えています。それは、人間が獲得した知能の最も重要な構成要素を欠いた知能のモデルです。

こうしたモデルは、「人工知能」というより、「便利で賢い検索エンジン」(ただし、重大な危険性をもたらす可能性をはらむもの)だということに、現在のブームが去れば、いずれ、皆が気づくと思います。

この章で、面白い表現を見つけました。

GPT-4の限界:
「ユーザーからの明らかな虚偽の発言に過度に騙されたりすることもある。」

これって、こう言ってもいいのでは?

人間の限界:
「AIからの明らかな虚偽の発言に過度に騙されたりすることもある。」

お互い様です。

-------------------------------------

ショートムービー「 Limitation 」を公開しました。
https://youtu.be/iLb7HUfFl9o?list=PLQIrJ0f9gMcPPRFNzbnEKyPPybVFmaz0a

資料 pdf「 Limitation 」
https://drive.google.com/file/d/1VJjtJ6VyqCqVB9gMrzE0xpNP58H1DR5c/view?usp=sharing

blog:「 ChatGPTの正確さは「40%〜60%」でしかなかった 」
https://maruyama097.blogspot.com/2023/05/limitation.html

「GPT-4 Technical Report を読む」まとめページ
https://www.marulabo.net/docs/gpt-4-technical-report/

「GPT-4 Technical Report を読む」セミナー申し込みページ
https://gpt4-report.peatix.com/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について