投稿

4月, 2023の投稿を表示しています

Tai-Danaeの reduced densityとenriched category

 【 探究は続く 】 今回のセミナーでは、Tai-Danae Bradleyの次の論文の紹介する予定でした。 Language Modeling with Reduced Densities https://arxiv.org/abs/2007.03834v4    ただ、今回は他の部分が膨らんで、また、準備に十分な時間が取れず断念しました。すみません。 この Tai-Danaeの論文の数学的基礎の reduced density については、2023年2月のマルレク 「密度行列 ρ で理解する確率の世界」がその解説になっています。先日、講演資料と講演ビデオを公開したので、そちらを参照ください。 https://www.marulabo.net/docs/density2/   セミナーの構成を変更して、「意味の分散表現論の系譜 – 大規模言語モデルへ 」の部分を切り離したので、そちらに含まれていたTai-Danae の新しいアプローチを紹介していた部分を、改めて今回のセミナーの一部として再掲したいと思います。 なぜ、DisCoCatの流れの中で、Tai-Danae の議論に注目するのでしょうか? この論文の冒頭で、彼女はこう言っています。 「この研究は、今日の最先端の統計的言語モデルが、その性能において印象的であるだけでなく、より本質的に重要なことは、それが構造化されていないテキストデータの相関関係から完全に構築されているという観察から生まれたものです。」 彼女の関心は、現在の「大規模言語モデル」の「印象的」な成功に向けられています。彼女はそれがDisCoCatモデルとは少し異なる言語モデルであることも知っています。その上で、その背後にあるものを探り出そうとしているのです。 僕にとって印象的だったのは、彼女が次々と問題を立てることでした。答えの前には、もちろん、問題があります。ただ、答えを見つける条件が成熟するというのは、正しく問題をたてることができるということです。  ⚫️ 自然言語における表現の意味をとらえる数学的構造は何か?  ⚫️ この構造は、テキスト・コーパスを用いてどの程度まで十分に検出できるのか?  ⚫️ 抽象的な概念とその相互関係を自然に掘りだす方法はあるのか?  ⚫️ 論理と命題の連関はどのようにして生まれるのか? こうして、彼女は、次の二つ

ことばと意味の数学的構造 -- はじめに

【 ことばと意味の数学的構造 -- はじめに 】 人間とことばで対話することができるChatGPTの登場は、「ことばと意味」についての私たちの関心を改めて高めました。 ChatGPTを産み出した「大規模言語モデル」の成功は、意味を多次元のベクトルで表現する「意味の分散表現」技術の採用に多くをおっています。 AI技術の分野で、 「意味の分散表現論」がどのように生まれ、どのように発展してきたかを、理論と実装の二つの面から、振り返ってみた考察を、「意味の分散表現論の系譜 – 大規模言語モデルへ」にまとめました。ぜひ、ご利用ください。 小論は、 同時に公開したこの「意味の分散表現論の系譜 – 大規模言語モデルへ」とは異なる視点から、「ことばと意味」について、その背後に存在する数学的構造を探究しようとする研究を紹介したものです。 なぜなら、この 「ことばと意味」の形式的・数学的理論の分野でも、近年、目覚ましい研究の進展が見られるからです。 ここでもその関心は、「意味の分散表現」に置かれています。「意味の分散表現」の担い手を多次元ベクトルから密度行列に置き換えるという研究の中で、「ことばと意味」の理論の量子論との一致が発見されています。これは驚くべきことです。また、自然言語処理を量子コンピュータ上で行おうという実験が始まっています。 残念ながら、今回のセミナーでは、こうした新しい研究の進展(Part 4) については詳しく述べることはできませんでした。改めて別のセミナーで紹介したいと考えています。 今回のセミナーの中心は、AIの分野での「意味の分散表現論」とは異なる、いわば「もう一つの意味の表現論」の出発点となった、Bob Coecke, Tai-Danae Bradley らの、「カテゴリー論的構成的分散意味論」 DisCoCat 理論です。 「カテゴリー論的構成的分散意味論」を扱ったPart 3 では、オリジナルのCoeckeの展開と、それを紹介したTai-Danaeの議論の二つを紹介しました。内容は重複しますが、二人のアプローチを知ることは、DiCoCatの理解に役立つと思います。 ことばと意味への関心は、なにも最新の大規模言語モデルによってはじめて生まれたわけではありません。 意味の数学的理論の基礎には、LawvereのFunctorial Semantics があり(

「密度行列 ρ で理解する確率の世界」講演資料・講演ビデオ公開

   【 ことばと意味をめぐる驚くべきビジョン 】 「古典論・量子論・確率論」という三つのお題を並べると、「古典論と量子論を確率論が結びつける」という話だろうと思われる方が多いと思います。 こうした見方は、古典論から見ても量子論から見ても、一つの「確率論」が両者を結びつけると考えることになります。 ただ、我々が一つの確率論だと思っていた確率論の背後に、もう一つ別のより基本的な確率論があるのなら、「古典論と量子論を確率論が結びつける」という聞き慣れた古いストーリーはどう変わるのでしょう? この古いストーリーは、また、決定論が支配するマクロな古典論の世界と、確率論が支配するミクロな量子論の世界を、わかりやすくはっきりと区別する考え方でもあります。 もしも、確率論が一つの顔しかもたないのではなく、古典論的確率論と量子論的確率論という二つの顔を持ち、かつ量子論的確率論が基本的なものであるなら、古典論の世界と量子論的世界の関係は、どう変わるのでしょう? こうした確率概念の変化は、数学的な定義の変更で、もともと確率的な世界と考えられていた量子の世界には、それほど大きなインパクトを与えるものではないかもしれません。ましてや、我々が住む日常の世界にとっては、確率概念の量子論的見直しなどは、なんの影響もないと思われるかもしれません。 ただ、どうやらそうではなさそうなのです。 我々人間にとって最も基本的で日常的な活動である言語活動は、ことばが意味を持ち、我々が自由に意味を持つことばを生み出すことができるという能力に支えられています。 ことばの生成は決定論的で代数的な文法のルールに従います。ただ、ことばの意味は、量子論的確率論に従っているらしいのです。ことばの意味は、量子状態と見なすことができるというのです。 こうしたビジョンは驚くべきものです。ミクロな量子の世界とは遠く隔たっているように見える日常の世界のど真ん中に、目に見える形で量子論が活躍する世界が存在しているというのですから。 ただ、見方を少し変えると、そうした認識に近いところに、我々が立っていることに気づくことができます。 現在の「大規模言語モデル」の成功は、その多くを、ことばの意味を多次元の実数ベクトルで表現する「意味の分散表現論」におっています。それは、ことばの意味を、二次元の複素数ベクトル(qubit)なり、密度行列で表現

DisCoCatの展開 −- CoeckeのQNLP

【 意味はエンタングルする 】 このセッションでは、DisCoCatの創始者である Bob Coecke が、現在どのような研究をおこなっているのかを紹介しようと思います。 彼はDiCoCatの枠組みを、ことばの意味を量子状態として捉える方向で発展させ、QNLP : Quantum Natural Processing 量子論的自然言語処理の理論を展開しています。 最近では、実際の量子コンピュータの上でQNLPの実証実験がはじまっています。 「ことばの意味を量子状態として捉える」というのはどういうことなのかを説明してみようと思います。 セミナーの前半で見たように、現代の大規模言語モデルの成功は、主要に、語や文の意味を多次元のベクトルで表現する「意味の分散表現」の採用によってもたらされたものです。 CoeckeのQNLPでは、例えば、一つの名詞の意味は一つのqubitの状態で表現されます。 一見すると、大規模言語モデルでのように、語の意味を多数の実数の組、多次元ベクトルで表現する方が強力なように思えるかもしれませんが、そうではありません。一つのqubitは、たとえ一つでも、無限に多くの状態を表現することができるからです。 名詞だけではなく、形容詞の意味の表現を考えてみましょう。 「黒い帽子」という表現で、「黒い」という形容詞は、「帽子」という名詞の意味を表す 1-qubit の状態に働きかけて、「黒い帽子」という意味を表す 1-qubit の状態を作り出すものと考えることができます。 「黒い」という形容詞の働きは、別の解釈もあります。それは「名詞句」を作るものとして形容詞を考える解釈です。「黒い」という形容詞は、名詞とつながる腕と、文法的には名詞として振る舞う名詞句を返す腕、都合二本の腕を持っているものと考えます。二本の腕(脚といってもいいのですが)を持つものは、二つのqubitのテンソル積として表現されます。 形容詞は、みかけは異なる二つの解釈を持つのですが、この二つは、同じものであるはずです。そして、この二つが同じものであることを説明するうまい方法があるのです。 それは、とても奇妙な説明に思えるかもしれないのですが、語と語をつなげて別のフレーズを作るという操作は、語の意味同士をエンタングルさせることだと考えることなのです! Coeckeは、「黒い帽子」というフレー

浅海ゼミ 第22回の講演ビデオと講演資料公開しました

【 浅海ゼミ 第22回の講演ビデオと講演資料公開しました 】  浅海ゼミ「クラウドアプリケーションのためのオブジェクト指向分析設計講座」第22回の講演ビデオと、講演資料を公開しました。https://www.marulabo.net/docs/asami22/ 今回のテーマは、「設計/コンポーネント設計(3)」です。 作業分野「設計」についてアーキテクチャ設計、コンポーネント設計、ドメイン設計、 UX/UI 設計の順に取り上げています。 今回はコンポーネント設計の締めとしてコンポーネント実現設計について説明しました。 UML で記述するコンポーネントの仕様モデルとプログラミング言語 (Scala) の対応関係を整理し、 仕様部分の具体的な実装例を説明しました。 また UML モデルとプログラミング言語の使用バランスについても取り上げています。 講演ビデオ https://youtu.be/LAuCUqyWHSc の構成  00:00:00 開始  00:01:17 コンポーネント実現設計  00:16:46 インタフェース  00:41:02 レセプション  00:45:41 生成  00:51:56 拡張点 (extension point)  00:54:35 変化点 (variation point)  00:56:36 メトリクス  00:58:01 テスト・ケース  00:59:47 コンポーネントフレームワーク  01:01:07 物理モデル  01:03:22 テスト・ケース  01:04:42 ドキュメント  01:08:21 まとめ [ MaruLabo ] クラウドアプリケーションのためのオブジェクト指向分析設計講座 (22) 2023/3/16 第 22 回 「設計 / コンポーネント設計 (3) 」 https://www.marulabo.net/docs/asami22/ [ SlideShare ] https://www.slideshare.net/asami224/3-22-257398800

カテゴリー論の応用 -- Monoidal Category

【 みんな大好き String Diagram 】 このセッションでは、DisCoCatが利用しているカテゴリー論の基礎を振り返ります。 DisCoCatのもっとも重要なアイデアは、「文の意味は、個々の語の意味と、語から文を構成する文法規則によって構成的に決定される」という「文の意味の構成性」を、文法のカテゴリーから意味のカテゴリーへのFunctorとして捉えることができるという着想です。 Functorが、文のSyntaxを文のSemantics に変えてくれるということです。素晴らしい! ただ、ここには一つ大事な条件があります。それは、Functorがそうした働きをするためには、SyntaxのカテゴリーとSemanticsのカテゴリーが、同じカテゴリーに属さないといけないという条件です。 ちょっと考えると、文の文法の世界と文の意味の世界は、違う世界のように思えます。確かにそうです。でも、それでいいんです。最初は別々の二つのカテゴリーを、あらためて抽象度を上げて捉え返すのです。 「猫の世界」と「人間の世界」は、違ったものです。でも、「哺乳類の世界」で考えれば、共通の構造が見えてきます。Monoidai カテゴリーは、「文法=Syntax」のカテゴリーと「文の意味=Semantics」のカテゴリーとは異なる第三のカテゴリーです。ただ、このカテゴリーが、両者の共通の構造を捉えるものになるのです。 両者が、この第三のカテゴリーであるMonoidai カテゴリーに属することが明らかになれば、晴れて、意味の把握にFunctorを利用することができるようになります。 実際にDisCoCatで利用されているカテゴリーは、Monoidal カテゴリーの下位のカテゴリーで、Compact Closed カテゴリーと呼ばれるものです。それは、全てのオブジェクトに、その「双対=dual」が存在するようなMonoidal カテゴリーです。 有限ベクトル空間 FVectは、その要素 | v>に対して、双対 <v |を持つので(ケットとブラです)、compact closedカテゴリーです。直感的に言えば、compact closed カテゴリーは、テンソル積と内積が定義されたベクトル空間の一般化と考えていいと思います。 Monoidalカテゴリーには、もう一つ、面白い特徴があります。それは

カテゴリー論的構成的分散意味論 -- DisCoCat

 【 本当は、深い問題 】 このセッションでは、Bob Coecke らの「 カテゴリー論的構成的分散意味論 」を取り上げます。  この通称DisCoCat理論は、直接には、「文の意味は、個々の語の意味と、語から文を構成する文法規則によって構成的に決定される」という構成性の原理を文の意味論においても適用することを目標にしています。 「我々は、ベクトル空間モデルによる分散意味論と、Lambekによって導入されたPregroup代数に依拠した文法的型の構成的理論を統合する数学的枠組みを提案する。」 「この数学的枠組みにより、適切に型付けされた文の意味を、その構成要素の語の意味から計算することができる。」 この理論は、現在の大規模言語モデルベースの人工知能ブームの元では、「人工知能」の「意味の理論」の一変種と受け止められるかもしれません。ただ、そうではありません。彼らの理論の登場は、実は、もっと深い意味を持っていると僕は考えています。 そのことを彼は明確に意識しているように思います。 「意味の記号論と分散意味論は、ある意味直交する競合する理論である。それぞれに長所と短所がある、前者は構成的だが定性的で、後者は非構成的だが定量的である。認知科学の文脈でも、こころのコネクショニスト的モデルと記号論的モデルの間に類似の問題が存在する。」 人工知能論だけではなく、認知科学全体で、コネクショニズム的アプローチと計算主義的アプローチは、「直交する競合する」理論的立場です。 僕は、基本的には、計算主義の立場で数学論を考えているのですが、それで満足している訳ではありません。ただ、それ以上に、現在の大量のデータとDeep Learning の手法がもたらす認識のリーチには、懐疑的です。 彼らの論文は、直接には、言語の意味表現について語っているのですが、彼らがしめしたことは、前述の二つの「直交する競合する」理論の「統合」が可能だということです。しかも、それが、我々にとっては極めて身近な存在である「ことばとその意味」の世界に、二つの理論の統合の可能性が見つけられるという展開は、とても刺激的です。 物理学では、「決定論」と「確率論」の関係については、さまざまな議論がありました。通常は、量子の状態は、ボルンのルールに従って確率振幅があたえられます。ただ、観測がなければ、量子の系の状態は、ユニタリー

ことばの構成性 – Pregroup Grammar

【 知っているけど、知らないこと 】 今回のセッションは、Chomskyの「生成文法」論を出発点とする現代の文法理論を、LambekのPregroup文法を一つの到達点として紹介しようというものです。 ことばは、より基本的な要素からあるルールに従って構成されています。これをことばの「構成性」と言います。少し単純化して、この基本的な要素を「語」、そのルールを「文法」と呼ぶことにしましょう。 意味もまた、より基本的なものから、何らかのルールに従って構成されていると考えることができます。意味もまた「構成性」を持つのです。 ここでは、まず、ことばと意味の「構成性」についての、基本的な観察をまとめてみましょう。  ⚫️ 文は文法に従って語から構成される   ⚫️ 文の意味は、語の意味に依存し、語の意味から構成される  ⚫️ 文の意味は、文の文法的構成に依存する こうした観察は、現代の言語学が初めて行った訳ではありません。 少なくとも、ことばの構成性としての文法については、驚くべきことに、紀元前4世紀に、インドのパーニニは、精緻なサンスクリット文法の記述を成し遂げていたと言います。インド人恐るべしです。 パーニニは、「生成文法の祖」と言われることもあるのですが、残念ながら、サンスクリット語を知らない僕には、彼が説明しようとしたこと、彼の文法理論をうまく説明することはできそうもありません。 僕らが、ある言語の「文法」を語ることができるのは、僕らが「よく知っている」言語についてだけです。それでは、逆に、僕らは、「よく知っている」言語について、その「文法」を「よく知っている」と言えるでしょうか? 僕は日本語は普通に読み書きできます。それは、文法的に正しい日本語を話すことができ、文法的におかしい日本語はそれと気づくことができるということですので、日本語の文法を知っているということはできるかもしれません。ただ、僕は、日本語の文法を、きちんとは知りません。 ある言語を自由に使えるということと、その言語の文法を知っているということは、イコールではありません。日本語の文法など知らなくても、僕らは、日本語を使えます。でも、僕らの「どこか」では、日本語の文法を正確に理解しているのです。 誰もが暗黙のうちには自明のこととしてそれを知っているのに、誰も明確な形ではそれを意識しないという、「文法」の奇妙

意味の形式的理論 -- Functorial Semantics

【 「意味の世界」の広がりについて 】 このところ「意味」の話をよくしているのですが、そこでの「意味」は、ほとんどの場合、「ことばの意味」のことです。 耳で聞くはなし言葉と、目で見る文字で書かれた文では、意味理解の仕方は異なるものですが、あまりその違いを意識することは少ないかもしれません。 それは、両者とも「ことば」としてくくることができて、両者とも同じ意味を伝えることができることを、よく知っているからです。 ただ、「意味」の世界は、ことばの世界にだけ広がっているわけではありません。 「ことば」を持つのは人間だけですが、ことばを持たない動物も、世界を「意味の連関」として捉えているのは確かなように、僕は考えています。 「意識」なしでは「意味」の認識は不可能だと思われるので、それは、「意識」が、生物の進化の歴史の中でいつの段階で生まれたのかという問題にもつながっていきます。コロナ・ウィルスに「意識」を見出すのは難しいと思いますが、我々、人間だって、我々を構成する数兆の細胞の一つ一つに、「意識」があると主張できる訳ではありません。 こうした方向で下降していくと、生物と無生物の境界にたどり着くのですが、そこまでいくのなら、「意識」ではなく「情報」のあり方として問題を捉える方が、スマートにリーチが広がるように思っています。 確かなことは、「ことばの意味」の世界は、我々の「意識」の進化の一つの到達点だということです。その意味では、我々皆の前に広がっている「ことばの意味」の世界は、「意味」を考える上で、とても重要な対象だと、あらためて思います。 ただ、この到達点は、中間的なものだと僕は考えています。 基本的には、ことばを自在に操る言語能力の上に、数学的な能力が構成されていきます。歴史的には、我々は、現在の言語能力を10万年近く前に獲得しています。ただし、文字の歴史は、たかだか数千年のものです。そして、文字の発明と数学の誕生は、ほぼ同時期です。 今回のセッションから始まるセミナー第二部の「もう一つの意味の分散表現論」は、数学的なことばと意味の理論の基礎を紹介しようとしたものです。 ------------------------------------- 「 意味の形式的理論 -- Functorial Semantics 」を公開しました。 https://youtu.be/k3

BERT

【 文と文の関係へ 】 BERTは、2019年に Google が発表した「言語表現モデル」です。 ここでは、「言語表現モデル」という言い方をしていることに注意したらいいと思います。それは、直接には、Google 機械翻訳のように自然言語処理の何らかの具体的な処理を担うモデルではありません。それ自体は、言語のコンピュータ上の「表現」の構成にもっぱら関わるモデルなのです。 BERTは、Bidirectional Encoder Representations from Transformers のイニシャルをとったものです。そのアーキテクチャーは、前回見たTransformerの前段部のEncoder だけを独立させたようなものです。内部に、Multi headのSelf-Attention Mechanismを抱えています。そのAttention Mechanismから「表現」を「構成」することが、BERTの「言語表現モデル」としての第一の仕事になります。 Transformerから出力を担当するDecoderを切り取って、もっぱらEncoder内に「言語表現」を溜め込んで、どうするのでしょう?  BERTでは、膨大な計算時間をかけて、Encoder内部に「言語表現モデル」を構成するまでの、この段階をPre-training と言います。 BERTで外部に対して何かの仕事をしようとするときには、Pre-training で構成された「言語表現」をそのまま使って、具体的なタスクを実行する出力層を一枚かぶせます。これを Fine-tuningと言います。 「働くBERT」は、Pre-training + Fine-tuning の形をしています。ただ、タスクが変わるたびに、長い計算が必要なPre-trainingの段階を繰り返し実行する必要はありません。「事前に訓練済み」のPre-trained された「言語表現」は、何度も何度も、タスクが変わっても「使い回す」ことができるからです。 BERTの特徴である Bidirectional 「双方向性」を簡単に説明しておきましょう。 言語の分散表現の基本は、まず、「語」に「ベクトル」を対応させることです。 この計算を実行した、Mikalov-Jeff Deanの「Word2Vec」では、ある語の周辺(前後に関わりなく)にどのよ

MacOS Ventura 13.3 とGoogle Drive の同期問題 2

【 MacOS Ventura 13.3 とGoogle Drive の同期問題 2 】 Ventura 13.3 で、Google Drive の同期がうまくいかないという問題ですが、Google Driveのフォルダー名を「マイドライブ」から「MyDrive」に変更したら、うまくいきました。 その原因ですが、こんな記事を見つけました。 「macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。」 https://applech2.com/archives/20230402-nfd-and-nfc-issues-in-macos-13-3-ventura.html こんなことのようです。 「UnicodeやUTF-8の正規化形式は度々問題となっており、例えば「が」という文字はNFCでは「が(U+304C)」となるのに対し、NFDでは「か(U+304B)&濁点(U+3099)」となり、ファイル名にNFCの「が」とNFDの「が」をつけると、見かけ上は同じものの、ファイル名としては異なるため、上記iOS 10.3のようにシステムがファイルを参照(開けない)できなくなる場合があります。」 「現地時間2023年03月27日にリリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名にNFC形式の文字が含まれるファイルをダブルクリックしてもファイルが参照できない(見つからない)、または、ファイルに関連付けしてあるアプリだけが起動し、ダブルクリックしたファイルが表示されない不具合が確認されています。」 この問題で、GiTHubもたっていました。 [BUG] Unable to extract file including NFC character from Finder after Ventura 13.3 Update #1233 https://github.com/aonez/Keka/issues/1233 「マイドライブ」、濁点がふたつもある。「MyDrive」じゃなく「マイトライフ」でも良かったんだ。 「NFC/NFD問題が再発」だというけど、ひどいぞ、Apple。 アクセント記号もダメだというから、ドイツ人も、フランス人も、

Transformer

【 Attention こそすべて 】 Transformer は、2017年にGoogleが発表したアーキテクチャーです。 それは、GoogleのBERTやOpenAIのGPTといった現代の大規模言語モデルほとんど全ての基礎になっています。BERTの最後の文字 'T' も、GPTの'T'も"Transformer" アーキテクチャーを採用していることを表しています。 Googleの論文のタイトルは、"Attention is all you need" というものでした。「Attentionこそすべて」ということで、Attention Mechanism さえあれば、RNNもCNNもいらないと思い切ったことをいっています。これは、大規模言語モデル成立への大きな飛躍だったと思います。 このセッションでは、Google BrainのAshish Vaswani らの"Attention is all you need" 論文の紹介をしたいと思います。 まず最初に確認したいのは、見かけはずいぶん違って見えますが、Transformer アーキテクチャーは、大きな成功を収めた2016年のGoogle ニューラル機械翻訳のアーキテクチャーから多くを学んでいるということです。 ポイントをあげれば、Encode-Decoder アーキテクチャーの採用、EncoderとDecoderの分離、両者をつなぐAttention Mechanismの採用、等々。 こうした、Google ニューラル機械翻訳のアーキテクチャーの特徴は、そのまま、Transformerのアーキテクチャーに引き継がれています。それらの中で、Attentionこそが一番重要なのだというのが、Vaswani らの分析なのだと思います。 Attention Mechanismに注目すると、そこには特にパフォーマンスの面で課題があることも浮かび上がってきます。それは、シーケンシャルに実行され並列化されていません。また、Attentionが注目する二つの点の距離が離れると離れるほど計算量が増大します。 "Attention is all you need" 論文は、Attention Mechanismのパフォ

Google ニューラル機械翻訳

【 意味の共通表現「インター・リンガ」の発見 】 今回取り上げる「Googleニューラル機械翻訳」には、論文が二つあります。一つは、システムのアーキテクチャーを述べたもので、もう一つは、このアーキテクチャーを「多言語」に拡張したシステムの機能の紹介です。 まず、第一論文のアーキテクチャーの方から見ていきましょう。  【 Attention Mechanism 】 実は、「Googleニューラル機械翻訳」のアーキテクチャーに大きな影響を与える考え方が、同じ頃生まれます。それを Attention Mechanism といいます。 先に見た、Ilya Sutskever らの翻訳システムでは、翻訳さるべき文は、Encoderで、一旦、ある決まった大きさの次元(例えば8000次元)を持つベクトルに出力されます。このベクトルを入力としてDecoderが翻訳文を生成します。 Attention Mechanism を提唱した Bahdanau らは、入力された文が長いものであっても短いものであっても同じ大きさの固定長ベクトルに変換されることや、Decoderでの翻訳が、すべて、encoderの最終出力に圧縮された情報一つに依存することに疑問を呈します。 彼らは、EncoderとDecorderを直結することをやめ、かつ、後段のDecorderでの翻訳の各ステップに、前段のEncorderの情報を生かすアーキテクチャーを提案します。それがAttention Mechanismです。 Decoderでの作業中に、「そこを訳すのなら、ちょっとEncoderのこの部分の情報に注意(Attention)を払って」と注意を喚起する仕掛けです。 「Googleニューラル機械翻訳」のアーキテクチャーは、全面的に、このAttention Mechanismを取り入れたものです。 「Googleニューラル機械翻訳」だけではありません。その後の大規模言語モデルへの発展は、アーキテクチャー的には、このAttention Mechanismの発展と考えることができます。次回取り上げる "Trandforner" アーキテクチャーは、Attention Mechanismの最終進化系と言えるものです。それが、現在の「大規模言語モデル」の技術的基礎になりました。  【 第二論文が面白い

Bengioの「次元の呪い」から Sentence to Sentenceまで

 【 区切りをどこに置くか 】 昨日は、セミナーの 第1部「意味の分散表現論の系譜」の最初の章を、「Bengioの「次元の呪い」から BERT Transformer まで」と考えていたのですが、実際にスライドをまとめてみると、とても長いものになってしまいました。それで、二つに分けることにしました。 「意味の分散表現論」は、21世紀に入ってから生まれ、短い期間に飛躍的に発展しました。今回取り上げようと思ったのは、つぎのような出来事です。  ○ 2003年 Bengio:「次元の呪い」-- 語の特徴の分散表現  ○ 2006年 Hinton:Auto Encoder -- 意味的ハッシング  ○ 2011年 Ilya: RNN -- RNNによる文の生成  ○ 2013年 Mikalov: Word2Vec -- 語の意味ベクトル  ○ 2014年 Ilya : Sequence Sequence -- 文の意味ベクトル  ○ 2015年 Karpathy : Unreasonable Effectiveness of RNN  ○ 2016年 Bengio : Attention Mechanism  ○ 2016年 Yonghui Wu : Google 機械翻訳  ○ 2016年 Johnson : Google 多言語翻訳  ○ 2019年 Toutanova : BERT 確かに、少し多いですね。といっても、すべて取り上げたわけではないのですが。 少し考えたのですが、2015年以前と2016年以降に分けることにしました。 2015年以前の発展は、「意味の分散表現論」の基礎が、さまざまな取り組みを通じて、固まった時期に当たっていると思います。中でも、「語の意味ベクトル」の発見と「文の意味ベクトル」の発見は、大きな意味を持っていたと思います。 2016年以降の発展は、こうした基礎レベル・理論レベルでの認識が、大々的に実践的な応用に取り入れられたことによってもたらされたように、僕は感じています。 「意味の分散表現論」は、今、新しい段階に入ろうとしているのだというのが、今回のセミナーで伝えたかったことなのですが、そうした新しい時代の「区切り」が、どのような先行した時代の中から生まれるのかに、関心を持つことは意味のあることだと思います。 今回のコンテンツは、以前に行っ

第1部 「意味の分散表現論の系譜」の概要

【 研究では、問題の立て方が重要であること 】 今回のセミナー「ことばと意味の数学的構造」の第1部「意味の分散表現論の系譜」では、「意味の分散表現論」がどのように生まれ、どのように発展してきたかを、実装と理論の二つの面から、振り返ってみたいと思います。 第1部「意味の分散表現論の系譜」は、次のような構成を考えています。  1. Bengioの「次元の呪い」からSentence to Sentence まで  2. Google機械翻訳からBERT Transformer まで  3. DisCoCat の登場 – ことばと意味の「構成性」  4. DisCoCat の変化 – Coecke と Tai-Danae 1-1章と1-2章は、「意味の分散表現」にフォーカスして、大規模言語モデルにいたる実装レベルでの興味深い取り組みを、コンパクトに紹介したものです。 この章の内容は、2023年1月に行ったマルレク「AIは意味をどのように扱っているのか? -- ChatGPT の不思議」を短くまとめたものです。 https://www.marulabo.net/docs/meaning/ 1-3章の「DisCoCat の登場 – ことばと意味の「構成性」」は、実践的な第1章とは少し違った切り口、理論的な面から「意味の分散表現」論にアプローチしたものです。 ここで取り上げたDisCoCatの最大の貢献は、ことばと意味の「構成性」の問題に、あらためて焦点をあて、さらにカテゴリー論的アプローチを言語理解に取り入れたことにあります。 この章の内容は、2022年12月のマルレク「ことばと意味の「構成性」について」を短くまとめたものです。 https://www.marulabo.net/docs/discocat/   1-4章の「DisCoCat の変化 – Coecke と Tai-Danae」は、2010年の論文発表以来の、「カテゴリー論的構成的分散意味論」 Distributional Compositional Categorical Semantics の変化を、量子論的アプローチをとるBob Coecke と数学的アプローチを取るTai-Danae Bradley の立場の違いにフォーカスしてまとめたものです。 この章は、今回のセミナー全体、第2部、第3部への導入にな

4月のマルゼミ 「ことばと意味の数学的構造」へのお誘い

【 4月のマルゼミ 「ことばと意味の数学的構造」へのお誘い 】  【 ChatGPTの訴求力はどこから来るのか? 】 ChatGPTが、多くの人に強い印象を与えるのには理由があります。 それは、ChatGPTが、機械が自在にことばを操る能力を獲得したように見えるからです。これまでは、ことばを操る能力はもっぱら人間だけのものだと考えられていましたから。 そして、機械が人間並の言語能力を獲得し始めたという認識は、正しいものだと僕は考えています。  【 大規模言語モデルと意味を表現する技術 】 それでは、こうした「機械の言語能力」の大きな飛躍は、どのような技術によって可能になったのでしょう? それは、ChatGPTを生み出した「大規模言語モデル」が、機械の上でことばとその意味を表現する技術を発展させてきたからです。 機械が、機械の上でことばとその意味を表現する技術の中核技術は、「意味の分散表現」技術と言われるものです。  【 「意味の分散表現」技術の現在 】 今回のセミナー「ことばと意味の数学的構造」は、この「意味の分散表現」技術にフォーカスして、この技術をめぐる理論的動向を紹介するものです。 多くの技術は、理論的な基礎を持ちます。その理論は数学的形式を取ります。ただ、全ての技術が理論に導かれて発展してきたわけではありません。原爆を作れたのは、物理学の理論によるものでしたが、熱力学や統計力学が蒸気機関を生み出したわけではありません。 21世紀の「人工知能」技術は、18世紀の蒸気機関に似ています。この技術の背後にある理論 -- それはまだ多くの謎に満ちています – を研究するフェーズが生まれているのです。  【 ChatGPTの言語能力と人間の言語能力 】 ただ、ChatGPTの言語能力と人間の言語能力には、大きな違いがあります。 ChatGPTは「対話のために最適化された」チャット・ボットで、その言語能力は、人間の言語能力のように人間の広く深い認識能力と統合されたものではありません。 ChatGPTは、我々の「外部」に存在する現実の「世界」とも、それらをすべて包み込む「自然」とも、直接の接点を持ちません。彼が直接に「認識」しているのは、ネット上に人間が撒き散らした膨大な「言語情報」だけです。 「自然」を知らない大規模言語モデルベースの「人工知能」は、物理学者にはなれません