1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い
1/31 マルレク「機械の言語能力の獲得を考える」へのお誘い
1月31日 マルレク「機械の言語能力の獲得を考える」を開催します。
セミナーのお申し込みは、次のページからお願いします。
https://machine-competence.peatix.com/view
当初、「機械の言語能力の獲得から考える embeddingの共有・蓄積・検索の未来」というテーマでセミナーを開催することを考えていたのですが、長くなりそうなので、セミナーを次の二つに分けることにしました。
- 「機械の言語能力の獲得を考える」
- 「embeddingの共有・蓄積・検索の未来」
このWebページやYouTubeと並行して、次のblogリストからも関連コンテンツにアクセスできます。 https://maruyama097.blogspot.com/2025/12/embedding-blog.html
今回のセミナーのアプローチ
今回のセミナー「機械の言語能力の獲得を考える」は、現代のAI技術の到達点を「機械が言語能力を獲得した」と捉える議論を展開したものです。
機械が新しく獲得した言語能力の中核は、「意味を理解する」能力だと僕は考えています。
今回のセミナーでは、機械の言語能力の獲得の中核を、機械の意味を理解する能力の獲得とする議論を行います。
中心問題は、機械は、どのようにして「意味を理解する」ようになったのか? という問題です。この問題については、21世紀初めからの「意味の分散表現論」の発展が一つの答えを与えてくれると思っています。
セミナーでは、意味のベクトル表現の発見に始まり、翻訳モデルから大規模言語モデルへの発展へと結実する理論の歴史を振り返ろうと思います。
こうしたアプローチの意味と課題
「言語能力の獲得」→「意味の理解能力の獲得」→「意味の分散表現論の発展」というスキームや、AI技術の発展を分散表現論の歴史で説明するアプローチには、多くのものを捨象しているという問題もあります。
AGI論の功罪
アルトマンは、2035年までに、あらゆる個人が「2025年時点の全人類に匹敵する知的能力」を手に入れることができると予測しています。
https://www.marketingaiinstitute.com/blog/the-ai-show-episode-135
一方、イリヤ・サツケヴァーは、アルトマンとは対照的に、AIがもたらす「実在的なリスク(Existential Risk)」に対して恐怖の念を抱いています。彼は、AIが単なるプログラムではなく、いつか人間を凌駕し、制御不能になる可能性を技術的必然として捉えています。
https://www.ibm.com/think/topics/superalignment
昔、ある人がAIに次のような皮肉な定義を与えたことがあります。「AIとは、まだできていないこと全てである」"Al is whatever hasn't been done vet." ( "Gödel, Escher, Bach" D. R. Hofstadter ) AGI (artificial general intelligence)の議論は、それに似ています。
楽観的なAGI論も悲観的なAGI論もあるのですが、AGI論は、AI技術の到達点の評価ではなくまだできていないこと、まだ起きていないことを含んだ未来の予想です。その予想には、傾聴すべき議論も含まれていることもあるのですが、ある場合には、AIにさらなる投資を呼び込むための誇大宣伝に使われています。
言語能力と「知性」
僕は、人間の知性(あるいは、知能)と人間の言語能力を区別しています。人間の知能は複雑な構造を持ち、その最も基本的な構成要素、最も重要な基礎が言語能力なのだと。
親と子も恋人同士の二人も老人ホームの老人もことばを使います。SNSで罵倒し合うのにも、戦争を呼びかけるのにも戦争に反対するのにもことばが必要です。捏造された論文もノーベル賞の対象となる論文も、ことばで書かれています。これらすべては、人間がひとしく言語能力を持ってコミュニケーションできるから可能になっていることです。
言語能力をもつ人間がそうであるように、機械が人間並の言語能力を獲得したとしても、それだけで優れた「知性」を発揮するかはわかりません。機械の言語能力の獲得は、機械が正しいことを言うことを意味するものではありません。ただ、言語能力なしには、優れた知性に成長することはできないと考えています。
その意味では、機械の言語能力の獲得をAI技術の重要な到達点と考えることは、大きな意味を持っていると考えています。
理論の歴史が示すもの −− embedding概念の発見とその意味
人工知能の技術にも、短いながら歴史があります。その技術の歴史を貫いて、理論の歴史があります。今回のセミナーでは、AI技術の理論の歴史を振り返ってみたいと思います。
重要なことは、この4半世紀のAI技術の理論史は、「意味とは何か」を中心的なテーマとして、それを探究する理論の旅に他ならなかったということです。それが、今回のセミナーで展開する「意味の分散表現論」の発展史です。
機械が意味を理解させるためには、人間が意味とは何かを知らなくてはなりません。また、それを実装として機械に伝えなくてはなりません。いろんな試行錯誤があったのですが、意味を多次元のベクトル、embedding として表現するという方法に辿り着き、その応用に磨きをかけていきますます。
意味を表現するembeddingという概念の発見は、この4半世紀のAI研究の白眉だと思います。我々は、embedding という人間と機械の共通言語を獲得し、それを通じて機械と意味を通じ合うことができるようになったのです。
人間にとって、embedding は、話す聞くことばとしての音声と、書く読むことばとしての文字に次ぐ、ことばの第三の形態だと僕は考えています。
次回のセミナーで扱うこと
残念ながら、今回のセミナーでは、このembeddingの獲得が、情報の世界でどのようなインパクトを持つかは十分に語ることができません。
それについては、冒頭に述べたように、次回のセミナーは「embeddingの共有・蓄積・検索の未来」として展開したいと思っています。
画像クリックで関連blogのリストへ移動できます
スライドのpdfのURL
https://drive.google.com/file/d/1InLxC0SVzZ6oPtHHwBY8aUa7eiqUY8my/view?usp=sharing
ショートムービーのURL
https://youtu.be/9wWxODp8guo?list=PLQIrJ0f9gMcOZAuK3OhXu9mcZrX32ZS1j




コメント
コメントを投稿