投稿

意味を考える 6 -- 鏡

我々は、他人の顔は見れるのだが、自分の顔を直接見ることはできない。写真やビデオがこんなに普及する以前、自分の顔を見る手段は、鏡しかなかったと思う。

自分の顔を鏡で見る時、「見る人」と「見られる人」は、同じ人だ。ただ、この同じ人が、鏡によって「見る人」と「見られる人」の二人に分離される時、普段は見ることのできない自分の顔を見ることができる。

以前に、「私はあなたを愛しています」という文の「意味」を考えるより、「 "I love you." の「意味」は、「私はあなたを愛しています」だ」と考える方が簡単だと書いたのだが、このことも、「翻訳」はある言語を他の言語にうつす鏡のようなものだと考えれば、いいのだと思う。

確かに、鏡に映る自分の顔は、他人のみんながいつも見ている顔であることに変わりはないし、「私はあなたを愛しています」を "I love you." と言い換えたところで、「愛」についての認識が深まるわけではない。

ただ、ある二つのものの関係の中で、あるものを考えるのは、あるものだけをじっと見ているより、普段は気づくことのないものへの気づきが生まれると僕は考えている。

「意味」についてもそうだ。意味についてのアプローチは、様々あるのだけれど、ソシュールのシニフィアン(signifiant:意味するもの)とシニフィエ(signifié:意味されるもの)にしても、オグデン=リチャードの「意味の三角形」の「シンボル」と「指示するもの」「指示されるもの」にしても、こうした「二項関係」が基本になっている。(三角なのに二項なのかにというツッコミは、あとでこたえる)

こうした二項関係は、もっと深いところでは、「主体」と「客体」、「認識するもの」と「認識されるもの」という認識の構造そのものに基礎を持っている。

図は、ペンローズから。彼は、ビデオで鏡に映るビデオを撮影しても、ビデオは何も認識していないという。確かにそうだ。ただ、彼は、機械は、それだけでは意識を持ち得ないという立場を取っている。コンピュータのプログラムに意味など理解できるはずはないというのだ。

意味を考える 5 -- 辞書

言葉の意味を調べようとするとき、我々に一番身近な行為は、「辞書」を引くことである。ただし、辞書が与えるのは、語の意味である。

翻訳が文を対象にするのに対して、辞書は語を対象にする。文は語からできているので、辞書が与える語の意味の情報は、その語を含む文の意味を考えるもっとも基本的な情報を与える。

辞書で 、I = 私、love = 愛する、you = あなた という情報が得られたとしよう。この情報だけから、"I love you"という文を翻訳すると、「私 愛する あなた」になるのだが、これはどうも日本語としてはうまくない。

その理由ははっきりしている。

語から文が構成されているのは明らかなのだが、語から文を構成するときに、日本語でも英語でも、ある構成規則に従う。それを「文法」という。文法は、ある言語での語の出現順序に強い制限を与える。「私 愛する あなた」は、日本語の語の出現順序にそぐわないのだ。

辞書だけに頼る翻訳がうまくない理由は、もう一つある。辞書が与えるのは、名詞でも動詞でもその基本形だけだからである。名詞は「格」によって変化し(日本語だと、「私は」「私に」「私を」 ... というように、名詞の部分は変化しないように見えるのだが)、動詞は「活用」する。こうした語の「屈折」形は、その語のその言語の文法上の情報を与えるのだが、辞書はその屈折形を網羅しない。それは、文法規則として基本的には辞書の外部でカバーされることになる。

先に、簡単に「文は語からできている」といった。それはそれで間違いではない。もう少し正確に言えば、「文は、文法という構成規則に従って、語から構成される」ということになる。

「異なる語から異なる構成規則で構成された文が「同じ意味」を持ちうるのはなぜか?」というのは、言語の意味についての最も重要な問題なのだが、その問題に入る前に、ここでは、辞書上の語彙項目と実際に発せられる文と文法の関係について、基本的な事実を確認しようと思う。

全ての言語において、基本的な語彙の数は、有限である。例えば、26文字のアルファベットで15文字以内で構成される語の数は、高々、26^15である。ところが、10万語の語彙を持つ言語で、10語の語からなる文の数は、100000^10で、約10^50になる。10語文というのは、そんなに長い文章ではない。が、…

意味を考える 4 -- 接触

イメージ
翻訳は、基本的には、外国語を母語に変換する。外国語に接する必要がなかったら、翻訳ツールのお世話になることはない。僕のひいおじいさんやひいおばあさんの世代は、おそらく、翻訳の必要はほとんど感じなかったようにも思う。僕の世代の場合は、おじいさんやおばあさんの世代に「敗戦」と「進駐軍」を体験する。外国語事情は、大きく変わる。

ただ、歴史的には、近年の「グローバル化」が始まる遥か以前から、異なる言語を用いる共同体の接触は、珍しいことではなかったと思う。
世界中は同じ言葉を使って、同じように話していた。  ... 主は降って来て、人の子らが建てた、塔のあるこの町を見て、言われた。「彼らは一つの民で、皆一つの言葉を話しているから、このようなことをし始めたのだ。これでは、彼らが何を企てても、妨げることはできない。 我々は降って行って、直ちに彼らの言葉を混乱させ、互いの言葉が聞き分けられぬようにしてしまおう。」 (創世記11章) なんて意地悪な神だと思うのだが。人間だって「互いの言葉が聞き分けられぬ」ままでいたわけはない。異なる言語が接触した場合、直ちに、翻訳の必要性は生まれたはずだ。

そこで一番大事なことは、言語が異なっても、それが伝えようとすることが「同じ意味」を持ちうることを双方が確信することだと、僕は思う。それは、自明のことのように思えるが、とても大事なことだ。

相手が宇宙人であって同じだと、我々人間は考える。

太陽系外に飛び出すパイオニアにもボイジャーにも、宇宙人に向けたメッセージが積まれていた。それが知性を持つ宇宙人に発見される可能性は、我々が異星人からのメッセージを受け取る可能性と同じくらいに低いのだが。

図1は、パイオニアにつまれたプレート。水素の構造、男女の姿、探査機の外形、銀河系中心と14個のパルサーに対する太陽の相対位置、太陽系が描かれている。

図2は、ボエジャーにつまれたゴールデン・レコード。地球上の様々な音や音楽、55種類の言語による挨拶や様々な科学情報などを紹介する写真、イラストなどが収録されている。「ボエジャーのゴールデンレコード」https://goo.gl/5NZ8Wn

これらでは、画像・音・科学的な知識が、「共通言語」として想定されているのは興味ふかい。科学的な知識をメッセージに使うというアイデアは、電波を用いた「アレシボ・メッセージ」では、も…

第五回マルレク 「人工知能と意味の形式的理論」

イメージ
来年早々になりますが、1月8日に、マルレク第五回を、富士ソフトさんのアキバプラザで開催します。テーマは、「人工知能と意味の形式的理論」です。

告知ページ・募集要項は、近日中に公開します。
募集期間が、年末・年始の時期に重なっているため、いつもより募集時期を若干早めたいと考えています。ご注意ください。

【講演概要】

人工知能研究の大きな課題の一つに、意味の理解をどのように機械上で実現するかという問題があります。

講演では、まず、この分野で、現時点で一定の成功を収めている三つのアプローチを紹介します。

第一は、Amazon Alexa, Google Home 等のボイスアシスタント・システムで多く利用されている、ヒューリスティックなアプローチです。そこでは、チューリング・テストをパスすることを意識した、意味のプラグマティックで「操作主義的」理解が中心にあります。

第二は、Google等の大規模な検索エンジンやDiffbot等が利用している。Knowledge Graph的なアプオーチです。グラフの規模の大小はあるのですが、そこで中心的な役割を果たしているのは、「エンティティ・モデル」です。

第三は、Googleニューラル機械翻訳の成功に刺激を受けた、「機械翻訳技術」の発展と普及を背景としたアプローチです。そこでは、大規模なパラレル・コーパスを大規模なハードウェアを利用して「学習」が行われます。

講演の後半は、現在の実装技術の紹介を目的とした前半と切り口が異なります。「意味の理解」は、「意味」についても「理解」についても、新しい枠組みが必要だというように、丸山は考えています。また、そうした理論は形式的なシステムで記述できるとも考えています。

次のような話をします。

・文法の構造と意味の構造の対応、あるいは二つの構造の「二重化」の必要について。
・理論とモデル。数学での意味の扱いに学ぶ。
・ローヴェールのFunctor Semantics
・新しい「型の理論」



意味を考える 3 -- ジャンボジェット

イメージ
先の投稿、億単位のパラレル・コーパスを「学習」する機械学習技術にケチをつけるみたいな終わり方をしたので、若干、釈明を。

同じことが人間にできず(人間がこういうスタイルで、言語の「意味」を「学習」しているわけではないのは明らかだと思うのだが)、機械にそれができるのなら、それはそれでもいいのではとは思う。

空を飛ぶのに、生物の進化は昆虫や翼竜や鳥類を生み出したが、人間が発明したのは飛行機だった。同じ目的を達成するのに、生物と人間が発明した機械とが、違うアプローチをとってもいいのだ。

我々が、蝶々や鳥のように空を飛べないのは残念なことだが、空を飛ぶことについては、機械の勝ちかもしれない。翼竜のプテラノドンよりジャンボジェットの方が巨大だし、それに、ロケットなら宇宙にも行ける! (と言っても、「となり」の火星程度までなのだが)

もしも我々が妖精のように自由に空を飛べていたら、「空を飛ぶ機械」の進歩の歴史は、今とは少し違っていたとは思う。(妖精は、自力では火星に行けないもんね。多分。)

機械翻訳に要するデータの巨大さだけに驚いてはいけない。それに必要なハードと計算時間も巨大である。先の論文によれば、Googleニューラル機械翻訳では、GPU100個を使って、フルトレーニングには最大1,000万ステップ、収束までには3週間かかることがあるという。

ただ、巨大さと複雑さで言えば、人間の脳だって負けてはいない。脳には、この銀河系の星の数より多い、860億個のニューロンが存在する。大脳新皮質には100億のニューロンがある。もっとすごいのは、その星の数ほど多いニューロンがお互いに結びついてネットワークを構成していることである。そのグラフなど書けっこない。

(人間の脳の構造と発達については、最近読んだ次の本がとても面白かった。「我々自身を発明する:ティーンエイジャーの脳の秘密の生活」"Inventing Ourselves: The Secret Life of the Teenage Brain" https://goo.gl/RBLn3H いつか紹介したい。)

今はどうなったかわからないが、ついこの間まで、人間が生物のニューロンの正確な接続のグラフを書けたのは、302個のニューロンと8,000のシナプを持つ C-Elegance だけだった。名前は優雅だが、線…

意味を考える 2 -- パラレル・コーパス

イメージ
「私はあなたを愛しています。」

この文の「意味」は、何かと言われると、なかなか答えるのが難しい。(日本語では、まずこういう言い方はしないと思うのだが、そのことはおいておく。) ただ、"I love you." の「意味」はと聞かれれば、「私はあなたを愛しています。」だと答えるのは易しい。

「それは、意味の意味が違う。」 確かに、そうかもしれない。

それでは、「二つの言語で、同じ意味が表現されている」と考えるのは、どうなのだろうか? この文章で使われている「意味」は、先に「なかなか答えるのが難しい」と考えた「意味」そのものではないだろうか?

とりあえず、二つのことを、この後の議論のために、作業仮説として確認しておこう。

 1.  二つの言語を比較すると、意味は取り出しやすく(感じる)。
 2.  意味は、言語によって表現されるが、言語によらないものを指し示す。

実は、現代の自動翻訳技術は、二つの言語で、同じ意味を持つ文を大量に集め、それを学習させるのが基本技術だ。「私はあなたを愛しています。」= "I love you."  という文例をたくさん集めておく。「私はあなたを愛しています。」の「意味」を考えて、頭を抱えることはない。

ただ、そのデータ(「パラレル・コーパス」「パラレル・データ」と言ったりする)の規模は、多分多くの人の想像を超えていると思う。

機械翻訳についての基本的なカンファレンスは WMT "Workshop on Machine Translation" である。(2018年のページは、こちら。http://www.statmt.org/wmt18/ もっとも、僕は、二年近く最近の動向をフォローしていない) 

WMTは、機械翻訳の研究のために、基本的なパラレル・コーパスを研究者に提供している。WMT 14  https://goo.gl/9d4cyi

WMT‘14の英語(En)<-> フランス語(Fr)データセットには、 3,600万の文のペアが含まれている。
WMT‘14の英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアが含まれている。

かなりの規模だ。

ところがである。僕が、Google ニューラル機械翻訳の論文 https://goo…

Q2Bカンファレンス

イメージ
来週から、Q2Bカンファレンスが、マウンテンビューのコンピュータ歴史博物館で始まる。去年に続いて二回目の開催。https://q2b2018.qcware.com/

第一回でのプレスキルの基調講演は、とても勉強になった。僕は、その全文を日本語に訳した。「NISQ時代とそれ以降の量子コンピューティングについて」 https://goo.gl/6qh1oE これは、量子コンピュータの動向について知る上の必読文献と言っていい。

今年は、僕が大好きなスコット・アーロンソンが、プレスキルと並んで基調講演に登壇する。二人の基調講演にとても期待している。

プレスキルの基調講演のタイトルは、「短期的・長期的に見た量子テクノロジー:応用の探求」、アーロンソンの基調講演のタイトルは、「量子優越性とその応用」だ。

プレスキルもアーロンソンも、量子コンピュータの世界を代表する研究者なのだが、Q2Bカンファレンスの特徴は、量子テクノロジーの「ビジネスへの応用」にフォーカスしようとしていること。

「Q2Bにようこそ」という呼びかけは、こう述べている。「Q2Bのミッションは、近未来の量子コンピュータのリソースを使った、最適化・シミュレーション・機械学習・暗号等のアプリケーションの開発を刺激することです。」「量子コンピュータを実世界の問題に応用する方法を開拓するために、研究者と産業界の実践者のコラボレーションを進めます。」

日本では、「量子コンピュータの応用は、まだまだ先のこと」と考えている人が多いのだが、アメリカでは実践的な応用への関心は、年を追うごとに大きく拡大している。

Q2Bカンファレンスの紹介のセミナー、日本でもやりたいなと思う。