1/8 マルレク「意味の形式的理論」資料公開
----------------
「はじめに」
----------------
「はじめに」
----------------
人工知能技術にとって、自然言語の意味の理解は、重要な課題である。小論は、自然言語の意味を形式的に把握しようという試みを概観したものである。
第一部では、まず、現在の主要な三つの自然言語処理技術の現状を紹介し、あわせて、言語の意味理解にフォーカスして、様々な取り組みを取り上げた。
こうした技術を評価する上で、筆者の取っている基本的な視点は、次のようなものである。
文と意味の「構成性(compositionality)」
意味の「同一性」 / 意味の共通表現の存在
意味の「同一性」 / 意味の共通表現の存在
残念ながら、文が語から文法に基づいて構成されることは、現在主流の自然言語処理技術では、ほとんど考慮されていない。文法性の認識がないのでは、文の意味の構成性の認識を持つことは難しい。
ただ、文の意味の構成性の認識なしにでも、意味については考えることができる。一つには文を構成する「語の意味」、もう一つには「意味の同一性」に基づく「意味の共通表現」の模索である。第一部の後半では、これらの取り組みを取り上げた。
「語の意味」の表現では、その客観性・共通性を「実在」の関係に基礎をもつOntology、語の利用の頻度の統計的分析に帰着させるWord2Vec的「分散表現」、辞書項目に諸特徴を枚挙するスタイル、 conceptual spacesを構成するアプローチ等多様な試みが行われている。
「文の意味」の表現については、論理式(あるいは、ラムダ式)による表現と多次元ベクトルによる分散表現の二つがある。後者は、実装者にはそういうものとしては、あまり自覚されていないようにみえるのだが。
機械翻訳技術の成功は、二つの言語の意味の「共通表現」を多次元ベクトルによる分散表現として抽出しているところにあると筆者は考えている。もっとも、語の意味も、文の文法性も、このアプローチでは、直接には考慮されていない。
筆者は、論理式による表現が「好み」なのだが、文から論理式への還元は、文法に応じて様々の流儀がある。この点で最もスマートなのは、CCG (Combinatory Categorial Grammars)のやり方である。このアプローチは、決して最新の技術ではないのだが、第三部で取り上げることにする。
筆者の基本的な問題意識は、文の文法に基づく構成性と文の意味の構成性とを結びつけることである。
第三部で紹介するCCG (Combinatory Categorial Grammars)と、DisCoCat(DIStributional COmpositional CATegorical)は、こうした要請に応える言語理論だと、筆者は考えている。
文と意味の構成性(Compositionality)は、言語理論の形式性の基礎である。それは、数学的には、文法と意味はカテゴリーとして記述できるということに、ほぼ等しいのだ。
第二部は、第三部の準備として、LambekのPregroup Grammarの紹介とLawvereのFunctor Semantic の初等的な解説にあてた。
コメント
コメントを投稿