GPT-4は、まだ、日本語が苦手かもしれない

6月 07, 2023

【 GPT-4は、まだ、日本語が苦手かもしれない】

今回のセッションは、「意味のない文と曖昧な文」をGPT-4がどう扱っているかがテーマです。

もともとは、GPT-4の「連想する力」に興味があって、その力の背景をプロンプトを通じて探ろうと思っているのですが、今回はたまたま連想の始点に、"colorless green ideas sleep furiously" という「意味のない文」をおきました。

面白かったのは、最初のregenerate でGPT-4は目ざとく、次のことに気づきます。

「"colorless green ideas sleep furiously"は、言語学者のノーム・チョムスキーが統語論を説明するために作った有名な文です。文法的には正しいですが、意味的には一見矛盾しているように見えます。それを踏まえて、次のように連想の鎖を作ります：」

ただ、生成された連想の鎖をチェックしたのですが、「それを踏まえて」いるわけじゃないことに気付きます。意味のない「有名な」文から連想を始めたのですが、連想されたのはみな意味のある文でした。それも当然かもしれません。連想は、意味があって初めて機能するものですから。

というわけで、今度は、連想ではなく GPT-4に「文法的には正しいが意味のない文」を直接に生成させてみました。結果は少し、微妙なものでした。GPT-4には、「意味的に矛盾していること」を「実際には存在しないこと」と同義に捉える傾向があるようです。

"colorless green"や"sleep furiously"はことばの上の意味的矛盾ですが、生成された"Silent thunder" や "Transparent stones" の無意味さはことばの世界に閉じた問題ではなく、現実の認識が関わっています。確かに、"green idea" はどちらなのかと考えれば、両者の区別には微妙なところがあります。

「意味がない」ことをきちんと考える必要があるようです。大規模言語モデルに意味のない文を作れというのは、愚問だったかもしれません。でも、またプロンプトで挑戦しますね。

こんどは、文の文法的構造から、曖昧な意味を持つ文の生成をやってみました。

英語では、その説明も含めて、完璧に答えているのが印象的でした。素晴らしい。

「 "I saw a man with a telescope."という文は確かに2つの異なる解釈が可能です。

私が望遠鏡を使って男性を見た（つまり、私が望遠鏡を持っていて、その望遠鏡を使って男性を観察した）。

私が望遠鏡を持つ男性を見た（つまり、男性が望遠鏡を持っていて、私はその男性を見た）。

これは英語の文法的な曖昧性の一例で、具体的には「前置詞句の付帯」に関連しています。"with a telescope"は、私が望遠鏡を使って何かをするという行動を修飾することもあれば、男性という名詞を修飾することもあります。どちらの解釈が適切かは、文の文脈に大きく依存します。」

ただ、日本語での曖昧な文の生成は失敗します。

GPT-4があげた日本語の曖昧な文の一つは、「彼は鏡を持っている男性を見た。」でした。その理由は、「これは、「彼が鏡を持って男性を見た」または「彼が鏡を持っている男性を見た」を意味します。」というものでした。ただ、この日本語は、「彼が鏡を持って男性を見た」という意味を持ちません。この文は、曖昧な文ではありません。

GPT-4が答えた20個の回答の全てが、曖昧さを含まない文でした。その説明も出鱈目でした。GPT-4、まだ、日本語苦手なようです。

この失敗の理由は、明らかだと思います。GPT-4は、英語で意味の曖昧な文を日本語に翻訳すると、その日本語の文も曖昧な文になると考えているのです。まず、英語で考えているんですね。GTP-4の母語は英語なのかもしれません。

-------------------------------------

ショートムービー「意味のない文と曖昧な文」を公開しました。
https://youtu.be/GmtIs5Zso44?list=PLQIrJ0f9gMcMZkwx9VXm46JJ57pNpix1b

資料 pdf「意味のない文と曖昧な文」https://drive.google.com/file/d/1c81P41dAeRLckoDKAb9rA_vvm5HCb_8b/view?usp=sharing

blog：「 GPT-4は、まだ、日本語が苦手かもしれない」　

https://maruyama097.blogspot.com/2023/06/gpt-4_01033561853.html

「プロンプトで遊ぶ -- GPT-4 との対話」まとめページ

https://www.marulabo.net/docs/prompt/

このブログを検索

過去・現在・未来

GPT-4は、まだ、日本語が苦手かもしれない

コメント

コメントを投稿

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について