語の構造の抽出

【 これは、本当に意味だろうか? 】

前回のセッションでは、文字の並びのデータから、その背後にある構造を引き出すことができるという話をしました。ただ、文字の集積としてのコーパスから、文字のクラスターを抽出できることは、そんなに驚くべきことではないかもしれません。

それに、見出された子音、母音、および数字等というクラスターそれ自体に、意味があるわけではありません。もっとも、syntacticなものとsemanticなものという対比では、syntacticalなものは、もともと意味を持たないものと想定されています。

Tai−Danaeが、論文で「形式から内容へ」と言うとき、「形式」というのはもともと経験的に与えられる文字列データのことを指していて、「内容」とは、そこから生まれる意味のことをイメージしています。

基本的な問題は、それ自体は意味を持たないように思えるものから、意味の世界が生まれることです。別の言葉で言えば、それ自体は意味を持たない単なる記号の列から、どのように意味が生まれるのかという問題です。

今回は、単なる記号としての文字の並びではなく、語の並びを考えます。重要なことは、文字について言えることは、より高いレベルの言語単位 −− 今回の場合は、語なのですが  −− についても言えるということを、彼女は主張しています。

具体的には、次のようなことをしています。

British National Corpus から、1,000語の最頻単語として選びます。前回と同じように、このコーパスに含まれる単語𝑥の左に現れる語を𝑦_𝑙、右に現れる語を 𝑦_𝑟 として、その語の出現の経験的確率を使って、𝑋𝑌行列𝑀を作り、前回と同じ計算を繰り返します。

驚くべきことに、文字列データの解析が子音・母音・数字のクラスターの存在を発見したように、語列データの解析は、名詞・動詞・形容詞・副詞といったクラスターを発見します。

彼女は言います。

「10個の最大の特異値に対応する 𝑀の特異ベクトルは、名詞、動詞(過去と現在)、形容詞、副詞、場所、量詞、数字、国など、単語のあらゆる構文的・意味的特徴を捉えている。」

これは、意味なのでしょうか?

【 embedding は、空間の一点を表す 】

話は飛ぶのですが、現代のニューラル言語理論では、意味はembedding として多次元のベクトルとして表現されます。このアプローチが、意味の理解を中心的な課題とする現代の自然言語処理技術を飛躍的に発展させたことは、何度も強調してきました。

多次元ベクトルというと、複雑なものを想像するかもしれませんが、それは、少し違います。それは、多次元ベクトル空間上での一つの「点」を表すものです。意味は、「点」によって担われているのです。

「点」は、構造を持ちません。

ニューラル言語異論では、embeddingが担う意味以外には、先にTai−Danaeが見出した、経験的な言語データの中に見出すことのできる構造である「品詞」も、さらにいうと品詞の結合の形式である「文法」も、何の役割も果たしていません。

それは、裸の言語データとそれから生成されるenbedding以外の言語の構造には、まったく関心を払うことがないということです。

あらためて、Tai−Danaeの言葉を想起しましょう。

「意味が問題になるとすれば、それはすべて言語の形式に反映された構造的特徴に起因するということである。」

「しかし、現在のニューラル言語モデルが不十分なのは、まさにこの点である。
というのも、ニューラル言語モデルは、そのタスクを実行する際に必然的に働く構造的特徴を明らかにしていないからである。」

【 GPT-4は、語の意味について何を知っているのか? 】

前回のblog で僕はこう書きました。

「彼女は今、「何の構造もない」ように見える言語データの中に、豊かな構造があることを見つけ出そうとしているのです。それは、AI研究者は見過ごしているが、大規模言語モデル自身が、本当は何かを密かに知っていて、我々の知らないところでそれを利用している何かがあるのだという問題意識だと考えていいと思います。」

僕には思い当たることがあります。今回の参考資料は、以前のマルレクの資料からの引用です

以前、プロンプトを作って、GPT-4に mini-WordNet-likeな「辞書」を作らせてみたことがあります。

分かったのは、語の品詞はもちろんのこと、語の複数の意味、語の意味の複雑な階層構造・ネットワーク構造を、GPT-4は正確に把握しているということでした。特に、WordNetでは "hypernym"と呼ばれている「上位概念」の把握の能力におどろきました。

今回、再掲しましたので、ぜひ、スライドをご覧下さい。一部を紹介します。

------------------------------------------
語「歩く」の辞書項目を作成してください。
------------------------------------------
わかりました。語「歩く」の辞書項目を作成してみます

【「歩く」の意味 】:
動詞1: 両足を交互に前に進めて移動する。(例:彼は公園を歩いた。)
動詞2: 一定の目的や方向に進む。(例:彼は成功へと歩いている。)

【「歩く」のSemantic Category 】: [同義語] 歩行する; 徒歩で行く; 徘徊する; 散歩する; 闊歩する; 行進する; 練り歩く; 遊歩する; 步く; うろつく
[類義語] 走る; ジョギングする; 進む; 旅する; 移動する; 歩みを進める; 旅行する; 遊ぶ; 散策する; 探検する

[上位概念] 移動 < 行動 < 生物の活動 < 生物
[下位概念] 歩く > 超高層ビルを歩く > 空中を歩く > ワイヤーを歩く

【「歩く」のLexical Category 】:
[近接語] 道; 公園; 散歩; ペース; 歩幅; 速度; 歩数; 遠く; 距離; 目的地; 環境; 風景; エリア; 足元; 自然
[直前語] ゆっくりと; 速く; 楽しく; 遠くまで; 道を; 一緒に; 独りで; 公園を; 自然を; 環境を
[直後語] を開始する; を終える; を続ける; と感じる; のスピード; の距離; のペース; で移動する; で旅行する; で探検する

以上が「歩く」の辞書項目となります。

------------------------------------------
語「King」の辞書項目を作成してください
------------------------------------------

【「King」の意味 】:
名詞1: 一国を治める男性の君主を指す。(例: The king signed the decree.)
名詞2: チェスやカードゲームなどで最も重要な役割を果たすピースまたはカード。(例: He moved his king.)
名詞3: ある分野や領域で最も優れた、または支配的な人や物を指す。(例: He is known as the king of pop.)

【「King」のSemantic Category 】: [同義語] Monarch; Ruler; Sovereign; Emperor; Tsar
[類義語] Queen; Prince; Duke; Lord; Leader; Emperor; Tsar; Baron; Count; Sultan

[上位概念] King < Monarch < Ruler < Human < Mammal < Animal
[下位概念] King > Country's King > King's Subjects

【「King」のLexical Category 】:
[近接語] rule; reign; throne; kingdom; queen; prince; royal; crown; sovereign; authority
[直前語] the; a; his; her; this; old; young; great; powerful; beloved
[直後語] of; is; was; has; rules; reigned; orders; declared; ascended; died

-------------------------------


ショートムービー「 語の構造の抽出 」を公開しました。
https://youtu.be/lM7bNVdpZGI?list=PLQIrJ0f9gMcOJYKeUN_8q2K-yxtTfbIoB

「 語の構造の抽出 」のpdf資料
https://drive.google.com/file/d/1IOX3ZpT_ZWYEqUg-21kklM8hwwg4lVoq/view?usp=sharing

blog 「 これは、本当に意味だろうか?  」
https://maruyama097.blogspot.com/2024/02/blog-post_23.html

「言語の意味の数学的構造」まとめページ
https://www.marulabo.net/docs/embedding-dnn/

ショートムービーの再生リスト
https://www.youtube.com/playlist?list=PLQIrJ0f9gMcOJYKeUN_8q2K-yxtTfbIoB 

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

人間は、善と悪との重ね合わせというモデルの失敗について