フレーズ・文の構成とその意味

【 大規模言語モデルには「文法」や「品詞」の概念はないらしいこと 】

前回のセッションでは、「語の意味」を取り上げました。今回のセッションでは、語から構成されるフレーズや文の意味を取り上げます。

前回、与えられた語の「辞書項目」を作成するプロンプトを作ってみて、GPT-4が「語の意味」について、いかに膨大な情報を保持しているのか、その一端を見ることができたと思います。ただ、それは学習したGPT-4がシステム全体として発揮する能力です。

大規模言語モデルの「語の意味表現」の基本は、語の分散表現 – エンべディングと呼ばれるベクトル表現です。ここでは、まず、基本的な語またはフレーズの意味の分散表現について、GPT-4に色々聞いてみました。

例えば、「日本語の「犬」と英語の「dog」は同じ意味ですが、その分散表現は同じものになりますか?」とか「語だけじゃなく、フレーズや文も分散表現を持ちますか?」とか「語と文の分散表現のベクトルの次元は同じですか?」とか「「黒い犬」と「black dog」というフレーズの分散表現は同じものになりますか?」等々。GPT-4は、対話に丁寧に答えてくれました。

今回のセッションには、もう一つのテーマがあります。それは、文法の問題です。

例えば、二つの語をつなげて一つのフレーズを構成する場合、二つの語の繋ぎ方にはそれぞれの言語に固有な文法的なルールがあります。文法のルールは、個別の語ごとに決まっているわけではなく、語を品詞に分類して、その抽象の上で、品詞と品詞の繋ぎ方のルールとして現れます。

例えば、日本語だと名詞句を作るには「黒い犬」のように「形容詞+名詞」の並びになるのですが、フランス語だと "chien noir"のように「名詞+形容詞」の並びになります。品詞の考えなしに文法を語るのは難しいのです。

このルールに外れていると、その言語の話者は「おかしい」とすぐに気付きます。「文」と「非- 文」の区別は、人間の言語能力の最も基本的な能力の一つです。

今回紹介したいくつかのサンプルは、確かにGPT-4が与えられたフレーズを品詞に分解して、文法的に正しいのかそうでないのか、ちゃんと判断する能力があるように見えます。

ただ、つっこんでGPT-4に聞くと、GPT-4は「品詞」や「文法」について、我々とは違う見方をしていることがわかります。

大規模言語モデルは、「特定の単語が名詞や動詞などどの品詞であるかといった情報を明示的に把握することはできません。」GPTは、単語の品詞を識別するタスクは可能ですが、「モデルが内部的に品詞について「理解」しているわけではなく、訓練データ中のパターンを利用して行っているだけ」とします。

「GPTは単語の並びが文法的に正しいかどうか、一般的な文の構造に従っているかどうかという情報を推定することが可能です。」ただ、「GPTは自然言語の確率的なモデルであるため、文の構造や文法に対する「理解」は統計的なものであり、人間が持つような深い文法的理解や言語の意味に対する理解とは異なります。」

もっとも、我々日本人の日本語文法理解も同じようなものかもしれませんが。

先日のプロンプトでは、GPTが品詞を識別する能力を持っていることを前提としているのですが、AIの領域では「AIは〜ができるように見える」ことと「AIは、実際に〜ができる」こととは違うことがあります。無害な「錯覚」もありうるのですが、この「錯覚」が、Aiの能力評価の上でどういう意味を持つか考えてみたいと思います。

-------------------------------------

ショートムービー「 フレーズ・文の構成とその意味 」を公開しました。
https://youtu.be/bF82ggFrdTw?list=PLQIrJ0f9gMcMZkwx9VXm46JJ57pNpix1b

資料 pdf「 フレーズ・文の構成とその意味 」https://drive.google.com/file/d/1d0PHJy0C_NulzIqpEXNJ0_Z4lYjZOtFf/view?usp=sharing

blog:「 大規模言語モデルには「文法」や「品詞」の概念はないらしいこと 」 
https://maruyama097.blogspot.com/2023/06/gpt-4_0832493384.html

「プロンプトで遊ぶ -- GPT-4 との対話 」まとめページ
https://www.marulabo.net/docs/prompt/

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

宇宙の終わりと黒色矮星