投稿

8/27 マルレク「自然言語とコンピュータ概論」講演資料

イメージ
本日のマルレクの様子です。終わる頃には、激しい雷雨が一段落してよかったです。 更新された講演資料は、こちらです。ご利用ください。 https://goo.gl/B87wxk

文法を計算する(3)

イメージ
日本語についても、Lambekにつらなるカテゴリー文法のアプローチを取る言語学者は存在する。戸次大介先生の「日本語文法の形式理論」は、そうした立派な仕事だと思う。 https://goo.gl/DLgmxK   僕は二年前にこの本を見つけて喜んだのだけれども、冒頭の第一章「はじめに」の「文科系言語学と理科系言語学の乖離」は、気が滅入る内容だった。 この2-30年にわたって、日本の言語学会には、「埋めがたい」「溝」があるという。 そのきっかけは、「1990年代にさしかかると、自然言語処理のコミュニティにおいて、文科系言語学、ひいては記号論的アプローチそのものに対する失望感が蔓延するようになり、その後、統計的アプローチが成功を収めてからは、コミュニティ間の溝は埋めがたいものとなってしまった。」 ただ、それは20世紀の話だ。20世紀の統計的アプローチは、そんなに成功したのかと、ふと思う。 20世紀の終わりには、ChomskyのMinimalist Programが現れ、21世紀の初頭(2004年)には、Benjioが、それまでの機械翻訳の主流であった「統計的機械翻訳モデル」に代わる、「ニューラル機械翻訳モデル」を提案する。“A Neural Probabilistic Language Model”  http://goo.gl/977AQp ただ、こうした機械翻訳へのディープラーニングの手法の応用が「成功」するのは、2016年のGoogleの「ニューラル機械翻訳」を待たねばならなかった。 もちろん、それも、単純に「成功」と喜んではいられないのだ。Alexa等のボイス・アシスタント・システムの一般消費者への普及は、自然言語処理の難しさを、今では、誰もが理解できる問題にしていると、僕は考えている。 「自然言語処理のコミュニティ」に、成功者は、いまだ存在しないのだ。

「紙と鉛筆で学ぶ量子情報理論基礎演習」のリピート開催について

9月から「紙と鉛筆で学ぶ量子情報理論基礎演習 I」を、次の日程で三会場で開催します。参加費は無料です。   9月15日  13:00~19:00 会場 IBM    9月22日  13:00~21:00 会場 Google   10月6日  13:00~19:00 会場 Microsoft (Google会場では、同社のフレームワークcirqの解説が入るので。8時間コースになっています。) 休日の午後半日を使うコースなので、都合に合わせて三会場から一つをお選びください。来週から募集を開始します。 必要な数学は、高校程度のものです。(もっと言えば、掛け算と足し算でいいのです)量子コンピュータの基礎を学ぶ、いいきっかけになると思います。多くの皆様の参加をお待ちしています。 会場を提供してくれた、IBMさん、Googleさん、Microsoftさんに感謝します。 「紙と鉛筆で学ぶ」シリーズですが、次のステップ「量子情報理論基礎演習 II -- エンタングルメント」の準備も進めていますので、ご期待ください。 (別件ですが、「楽しい数学」の50人規模の会場を探しています。丸山に、お声がけください。)

文法を計算する(2)

イメージ
1958年の論文の後、Lambekは数学の世界で研究を続けることになる。ところが、それから50年経った2008年、Lambekは興味ふかい言語学の論文 "From Word to Senrence" を発表する。 http://www.math.mcgill.ca/ba…/lambek/pdffiles/2008lambek.pdf なぜ彼は50年経って、また言語学に興味を覚えたのか?  その理由は、明らかだと思う。かつての僚友 Chomskyが、1998年に発表し、現在の言語学の大きな潮流となった "Minimalist Program"とその"Merge"という基本コンセプトに大きな刺激を受けたからだと僕は考えている。 基本的なアイデアは、1958年の論文と同じだ。ただ、ノテーションが異なっている。 かつての二つの基本的な計算ルール    (x/y)y --> x    y(y\x) --> x は、次のように表現される。    Xl・X --> 1    X・Xr --> 1 本当は、XlのlもXrのrも、Xの右肩上に添字として乗っかっているのだが。(Facebookじゃ表現できないのでお許しを。) lはleftのl、rはrightのrである。 lを右肩上の添字に持つXの後ろにXが現れれば、それは、消えてしまうし(積として1をかけるということは、なにもしないことだから)、同様に、Xの後ろに、rを右肩上の添字にもつXrが続けば、それは消えてしまうということ。 同じことだが、Xに「左から」Xlを作用させると打ち消し合い、Xに「右から」Xrを作用させると打ち消しあうということ。 文字で説明すると面倒だが、慣れると、スラッシュとバックスラッシュを使った58年の論文の記法より、わかりやすくなる。 Lambekが言いたいことは、二つのものから一つのものを作るChomskyのMergeの本質は、こうした数学的操作の導入で、もっとわかりやすくなるということだと思う。 それだけではない。 58年の論文では、基本的な型として、nとsだけを使っていたのだが、2008年の論文では、もっとたくさんの基本的な型を導入している。

文法を計算する(1)

イメージ
我々は、他人が話す、いままで一度も聞いたことがない文でも、それが文法的に正しいものであれば、ただちにそれを理解する。また、話したいことがあれば、自分がいままでしゃべったこともない文を、正しい文法で即座に話すことができる。 我々が持っているのは、日本語・英語の同じ意味を持つ二つの文章のペアを、気が遠くなるほど大量に集めて、高性能のGPUを使って何日もかけて「学習」するディープラーニングの機械翻訳技術とは、違う言語能力である。 「正しい文法で」と書いたが、我々は、母語の文法を、あとで習得する外国語の文法のように明示的に「知っている」わけではない。ただ、我々のからだは、なにが文法的に正しく、何が文法的に正しくないかを、正確に知っているのは確かである。 複雑性の理論では、計算可能なもっとも簡単なクラスを「多項式時間で計算可能 P」と呼ぶのだが、我々の言語能力は、明らかにクラスPに属するはずだ。だって、「多項式時間」どころではなく、リアルタイムに相手の話す言葉が文法にかなっているかを判断して聞き取り、リアルタイムに文法的に正しい文を生成してしゃべることができるのだから。 言語能力を計算能力として捉えようとするときに、その中心的な課題は、文法的に正しい文を生成する計算規則を見つけることだ。それは、文法の計算ルールを見つけることだと言って良い。 60年ほど前に、Lambekは、驚くべき発見をする。 文法の計算ルールは、次のたった二つの式で表されるというのだ。    (x/y)y --> x    y(y\x) --> x (x/y)y --> xは、x/yという型を持つ語の後ろに、型yを持つ語が続けば、それは、型xを持つものに変換され、 y(x\y) --> xは、型yを持つ語の後ろに、x\yという型を持つ語が続けば、それは、型xを持つものに変換されることを意味する。 Lambekは、名詞を表す型nと、文を表す型sというたった二つの型を用いて、語の並びから、先の二つの計算ルールで文を導く計算をしてみせる。( 計算部分、青字でおぎなっておいた。) そのためには、伝統的な品詞分類を離れて、次のような新しい品詞分類を導入すればいいという。(図2)  自動詞   n\s  形容詞   n/n  副詞

第三回マルレク「自然言語とコンピュータ概論 -- 計算主義的言語理論入門」

来週 8月27日、富士通さんで開催の第三回マルレク「自然言語とコンピュータ概論 -- 計算主義的言語理論入門」の一般申し込み受付中です。 https://language1.peatix.com/ 自然言語をコンピュータに理解させることは、人工知能技術の大きな課題です。ただ、その取り組みは、まだ道半ばです。 今回の講演では、コンピュータによる自然言語理解をめぐる主要な三つのアプローチを取り上げ、その現状を概観します。特に、人工知能技術の文脈では、あまり取り上げられてこなかった、「計算主義的」な言語へのアプローチを紹介しようと思います。 次のような構成を考えています。ご期待ください。 ------------------------- 第一部 ディープラーニングからの 自然言語へのアプローチ -------------------------  ● ニューラル確率言語モデル -- Bengioの「次元の呪い」  ● Encoder / Decoder -- HintonのAutoencoder  ● Word2Vec -- Mikolov 語の「意味ベクトル」  ● Sequence to Sequence -- Ilya Sutskever  ● Attention Mechanism -- Bahdanau  ● Google ニューラル機械翻訳 -- Yonghui Wu    ○ WordPiece  ● Google 多言語ニューラル機械翻訳 -- Melvin Johnson  ● Differentiable Neural Computer -- Alex Graves    ○ bAbI task ------------------------- 第二部 ボイス・アシスタント・システム      Entity Modelと知識検索 -------------------------  ● ボイス・アシスタント・システムのプロダクトを見る  ● ディープラーニングを用いた音声認識技術 – Hinton  ● Google 音声検索 / Google NowとGoogle Assistant  ● Google Home    ○ Dial
「心の貧しい人々は幸いである。」 多くの人は、「豊かな心」を持つことが、幸福に生きるためには、大事だと考えていると思う。それはそれで、いいことなのかもしれない。 以前に紹介したGoogleのラリー・ページの「幸福論」も、人々に「心豊かに」生きることを説いているように見える。  https://goo.gl/qfgV7K ところで、イエスの最も有名な説教である「山上の垂訓」は、 「心の貧しい人々は幸いである。」という言葉で始まる。なかなかショッキングな語り出しである。 イエスが呼びかけている対象は明確であるように思う。それは、生を「苦」と感じ、老いや病いに苦しみ、心が折れかけている人への呼びかけ、「絶望」している人々への呼びかけなのだと思う。「豊かな心」の「リア充」の人に語りかけているのではない。けっして、ネットで散見する「誤訳」なのではないと思う。 それは、法然・親鸞らの「善人なおもて往生をとぐ。いわんや悪人をや。」という教えと、通底する。 イエスが「心の貧しい人々」と対比しているのは、どのような人たちなのだろう? それは、次のような祈りを捧げるファリサイ人に対する、イエスの非難を見ればわかるような気がする。 『神様、わたしはほかの人たちのように、奪い取る者、不正な者、姦通を犯す者でなく、また、この徴税人のような者でもないことを感謝します。 わたしは週に二度断食し、全収入の十分の一を献げています。』(ルカ18) 「徴税人」は、当時は、もっとも下賎な職業とみなされていたらしい。( 財務省次官や国税庁長長官のような現代のエリートとは違うのだ。 )イエスが非難しているのは、 「自分は正しい人間だとうぬぼれて、他人を見下している人々」のことだ。「豊かな心」を持とうとする人が、そうならないことを願う。