文字からembeddingへ −−意味の分散表現論の系譜

前回までの投稿で、大規模言語モデルを中核とした現代のAI技術が、インターネット上の膨大な機械可読な情報の集積・蓄積とその技術基盤としてのWeb Scaleの大規模分散システムの成立という所与のもとで生まれてきたという話をしてきました。

それらは、現代のAI成立に先行した技術の経験的に確認できる到達点、あるいは、現代のAIを生み出した技術的「環境」の確認としては意味があると思います。進化にとって、所与としての「環境」は重要です。また、それはその後の進化の方向を決定づけます。

ただ、環境自体が直接「進化」を生み出すわけではないはずです。技術自体の内部の内発的な変化がその「進化」を主導したはずです。

今回のお話は、現在、我々が目撃している、機械の言語能力の獲得という、歴史上稀に見る「創発的な進化」を可能にしたものは何かというお話です。

機械の言語能力の獲得という進化にとって、何が「飛躍」だったのかは明らかだと思います。僕はそれを、機械が言葉の意味を理解し始めたことだと考えています。

話す聴く音声としてのことばも、書く読む記号としての文字も、人間が意味を伝えるための手段に過ぎません。ことばや文字を駆使する人間の言語能力の中核にあるのは、意味を理解し、意味を伝える能力です。　

機械が、意味を理解し意味を伝える能力を持ったこと、それが機械の言語能力獲得という飛躍の中心的な内容です。

人間が意味を理解し伝えるためにことばや文字を使うように、機械が意味を理解し伝えるために使うものがembeddingなのです。

embedding 技術を生み出した人間の研究を、「意味の分散表現論」といいます。「意味の分散表現論」には、21世紀のはじめ2003年のベンジオの論文を起源としているのですが、20年近い研究の歴史があります。それは、現在のAI研究の本流とでもいうべきものです。

図は、この研究の流れの中での重要なトピックを抜き出したものです。「意味の分散表現論の系譜」という資料を作成しています。興味がある方はご覧ください。

どのように研究が進んで今日の飛躍をもたらしたかについては、この資料ををもとに次回に説明していこうと思います。

過去・現在・未来