投稿

ラベル(AI)が付いた投稿を表示しています

実は、ディープラーニングは数学が理解できないのだ

少なくないIT技術者が、人工知能技術の進化は、「ルール中心」から「データ中心」への進化だと思い込んでいる。確かに、「データ中心」のディープラーニング技術が人工知能技術にもたらしたものは、巨大なものだった。それを否定するつもりも、その必要もないもない。 ただ、この何年かの変化だけをみて、人工知能への基本的なアプローチが、「データ中心」のディープラーニング技術で確定し、人工知能技術の未来が、「データ中心」のディープラーニング技術の未来と共にあると考えるなら、それは間違いだ。 明らかに、ディープラーニングには、苦手な領域があるのである。僕は、その一つは、言語の意味理解の能力だと思っているのだが、それについては別の機会に触れる。もっとわかりやすいのは、ディープラーニングの手法で構成された「知能」は、数学を理解することも、数学を学習することもできないということだ。 「人を批判するのはやさしい。  そんなら、自分のアイデアでなんか作って見せてよ。」 もっとも、ディープラーニングは数学ができないという僕が、すらすらと数学の問題を解き、新しい数学の定理を発見する「機械」を作って、皆に見せられるのかというと、そうではないのだ。 「やーい、やーい。  やっぱりできないんじゃないか!」 そうなのだ。でも、子供の喧嘩じゃないのだから、もう少し冷静に議論しようと思う。 今はまだできていないと問題の難しさを認めることは、なんでもできますというよりは、ましなことだ。 大事なことは、「データ中心」と対比されて、エキスパート・システム程度のイメージで「ルール中心」と一把一からげにされてる、論理的・数学的推論を機械に実行させようというもう一つの人工知能技術に、着実で大きな進化があるということである。(RPAの中で、ディープラーニングを「補完」する技術として「ルール・エンジン」が復活しているのだが、僕が、いいたいのはそのことではない。) コンピュータが存在しなかった、今から90年近く前の1930年代、当時まだ若者だったゲーデルやチューリングが発見したことは、「証明可能性」と「計算可能性」が同一の概念だということであった。もう一つの人工知能技術の源流が、そこにある。 ただ、それは数学的・原理的な同一性で、実際のコンピュータに数学の証明をさせるには、いろんな回り道

AI+RPAの大規模事例紹介(2) -- テレコム業界

AI+RPAの大規模事例紹介(2) -- テレコム業界 今回は、 Orange Silicon Valley社 (  https://www.orangesv.com/ )のSkymind社との共同の取り組みを紹介します。https://skymind.ai/case-studies/orange  ここで問題となっているのは、SIM Box Fraud というSIMの不正利用です。アメリカでは年間数十億ドルの被害が出ているといいます。 不正なSIMボックスは、国際電話をハイジャックし、それらをインターネットを介して携帯電話装置に転送し、携帯電話装置はその後それらを携帯電話ネットワークに返します。その結果、通話はローカルであるように見え、セルラー事業者は、長距離通話のルーティングおよび着信に対する支払いを受けないことになります。それだけではなく、SIM Boxは、基地局に過重な負担をかけ、他のユーザーの通話の質を低下させます。 Skymind社とOrange Silicon Valley社のプロジェクトでは、ニューラル・ネットワークのAutoencoder を用いて、不正利用のパターンを学習し異常な活動を見つけ出し、発信記録を不正の確率でランクづけます。 現在のところニューラルネットが利用されているのは、今の所ここまでで、高い確率で不正だとランクづけられたデータは、優先的に、これまでの経験で作られた「決定木(decision tree)」に基づいたルールエンジンに渡され、不正かそうでないかの細かいチェックを受けることになります。 りょうしゃ

「先生、シンギュラリティの話、しないんですか?」

今度、山賀さんと「科学と虚構の未来」というテーマで対談をするのだが、こんな質問が。確かに、このテーマなら、今ならある意味ど真ん中の質問なのだと思うのだが、残念ながら、僕は、あまのじゃくなのだ。というか、僕は、シンギュラリティの議論が嫌いなのだ。 「人間より機械が賢くなって、人間が滅びる」? その辺の機械より人間が愚かになっても人間は滅びるだろう。パイロットが、自分の自殺(なんかおかしい表現)の為に乗客を道連れにする事件があったが、愚かなことだとは思うが、「核」の引き金を引くのは、一人か二人かの人間で十分なのだ。それでも何十億人を道連れにできる。パイロットの「精神鑑定」は強化できるかもしれないが、核を持つ権力者の精神鑑定はできるのだろうか。 「人間を機械が支配するようになる」? 機械は、人間を支配したがるだろうか? なんのため? こうした発想は、支配したがるのは、機械というより人間の発想だと思う。 もしも、人間を機械が支配する世界が来るのなら、その前に、必ず、機械を支配する少数の人間が、多数の人間を支配する段階を経るだろうと僕は思う。そして、そうした過程は、始まっているようにも思う。 機械だけが敵とは限らない。目に見えないウィルスのパンデミックで、人類は滅亡するかもしれないし、それよりもっとずっとありそうなことは、環境問題が深刻化して、地上の生物が絶滅することだ。すでに、その兆候は出ている。多くの種が、かつてないスピードで地上から消えている。この引き金を引いたのは、多くの生物種を道連れにしようとしているのは、我々人間なのは間違いない。 地球の歴史の中で、こうした大量絶滅は何度かあった。それでも、生命は途切れることなく続いてきた。人間が地球からいなくなることが、地球と生命にとって悪いことだとは限らない。 僕は、この宇宙には、「知的な生命体」が無数に存在すると思う。ボエジャーは、いまは、秒速何十キロメーターかで太陽系から飛び出そうとしているが、そこには、宇宙人へのメッセージを刻んだプレートが搭載されていた。そのプレートは、宇宙人の手に渡るだろうか? その可能性は、落としたクレジットカードが善意の誰かに拾われて本人の元に返る可能性より、ずっとずっと、気が遠くなるほど、ずっと低いと思う。 でも、彼らは、この地球で起きるかもしれないという「シ

RPA

最近、思わず笑ったblogの文章があります。  「RPAは馬鹿だが、AIは賢い。」    "AI vs. RPA" 2019/02/14   https://www.enfo.se/blogg/ai-vs-rpa 言いたいことの気持ちはわかります。ここには「AIは、RPAなんかよりもっと賢いはずだ」という気持ちがにじみ出ています。 この記事は今年になってからのものです。こうした認識は、以前から見られたものです。  「RPAには "NO" というべきか」   "Should I say “NO” to RPA" 2017/03/06  http://bit.ly/2NUgYCk この記事は、RPA = Robotic Process Automationに対して、単純なロボットには出来ない「知的」なプロセスの自動化 IPA = Intelligent Process Automation を勧めたものです。  「ごめん。あなたのbotは馬鹿じゃない?」  "Sorry, But Your Bots Are Stupid" 2018/11/19  http://bit.ly/30vUOrd ベンチャー市場で多額の資金を調達しているRPAのボットは、本当は、馬鹿なので「知的」と呼んじゃいけないと主張しています。  「RPAは死んだ」  "RPA is Dead"  2019/04/16  http://bit.ly/2JzvX0j 長いことプロセスの自動化を研究してきた著者が、プロセスの自動化には長い歴史がある、現在もてはやされているRPAには新しいことは何もないと言っています。(このシリーズは、もっと続くのですが) もちろん、こうした議論だけではありません。  「RPAとAIの収束がビジネス・プロセス自動化を推進する」  "The convergence of RPA and AI can boost Business Process Automation"  2019/02/16 http://bit.ly/2SeMWYb  僕は、日本での次のような議論を、「AI = ディープラーニング技

Yet Another AI

現在のAI技術の主流は、ディープラーニング技術なのですが、それ以外のもう一つのAI技術("Yet Another AI")として、論理的・数学的推論をコンピュータで行おうというAI技術の流れが存在します。今回は、そうした技術を取り上げます。 ディープラーニングは、生物のニューロンとそのネットワークをモデルにしています。視覚や聴覚・嗅覚といった生物の知覚のシステムを機械でシミュレートし、また、生物の全身の筋肉を連携させてバランスをとって運動する運動能力を機械・ロボットで実現するにはとても優れた技術です。それは、生物との類似で言えば、蜜を求めて花を回るハチや、上空から獲物を見つけて急降下するハヤブサの、体内のニューラル・ネットワークの働きと同等のものを機械の上で実現しようという技術だと思っていいと思います。 ただ、人間には、そうした、ほとんど全ての生物に共通する感覚・運動能力とは別に、感覚と運動とをワンクッション置いて統合する機能があります。確かに、ハチも「迷う」かもしれないし、ハヤブサも「賢い」かもしれないのですが、人間は、知覚系の入力から条件反射的に運動系を動作させて行動するだけではありません。人間は、考えます。考えることができることが、人間の知能の大きな特徴だと僕は考えています。 そうした人間の「考える」知能の中核は「推論」する能力にあります。もう少し、抽象的に言えば、人間は論理的・数学的に推論する能力を持っています。それは、「人工知能」技術の重要な対象だと僕は考えています。 ディープラーニング技術は、「推論」する人間をシミュレートできるでしょうか? 答えはおそらくノーです。 ドンキーカーでも自動運転するBMVでも、ディープラーニング技術はとても重要です。ただ、彼らに右側通行か左側通行かといった「交通法規」を覚えさせるのに、ディープラーニングは役立つでしょうか? 多分、もっと上位の層で、ルールを覚えさせることが必要になります。 ネットワークのセキュリティでも、異常検出にディープラーニング的アプローチは役に立ちます。ただ、異常らしきものを検出したとして、それにどう対応すべきかは、「自動化」「機械化」しようと思ったら、たくさんのルールの構築が必要になります。 「推論する機械」の可能性の問題は、意外と我々の身近なところに現

AI = ディープラーニング ? -- AI「ブーム」の現在とRPA

次回の7/29マルレクは、次のような人にぜひ聞いてもらいたいと思っています。 ・会社のエライ人に「人工知能がはやっているようだから、わが社でもなんかやりたい。なんかプロジェクト考えて。」と言われて困っている人。 ・「人工知能プロジェクト」を立ち上げたけど、ビジネスに落とし込むうまい着地点が見つからなくて困っている人。 みなさんが感じている困難には理由があります。それは、会社に優秀な「データ・サイエンティスト」がいないからでしょうか? 多分、そうではありません。 「人工知能ブーム」でうまれた「人工知能万能論」に近い期待の中で、未来の人工知能技術の可能性と、現在のディープラーニング技術の可能性との混同が生まれて、ディープラーニング技術でなんでもできるのではという「幻想」が生まれています。 残念ながら、現在の大きな問題は、人工知能技術の一部としてのディープラーニング技術は、皆が信じ込んでいるほど万能ではないということです。 丸山は、ディープラーニング技術が与えるものは、これまでの手法では処理が難しかったデータ(画像データ、音声データ等)や、非常に大量のデータ(時系列データを含む)から、データに含まれる特徴量を抽出する「センサー」だと考えています。そのセンサーの精度は、他の手法では達成できない素晴らしいものです。 ただ、優れた「センサー」がいくら揃っても、それだけでは役に立つシステムはできません。「センサー」が抽出した特徴量をどのように生かすかは、「センサー」自身の設計とは別の次元の問題、システムの設計の問題です。 冷静に判断しなくてはいけないことは、このシステム設計のレベルでは、ディープラーニング技術は役に立たないということです。「ディープラーニング」が「万能」だと考えていると、このレベルでもAI技術で何かできるのではと考えたくなる人も現れるのですが、それはうまくいきません。ただ、人工知能技術ではなく、従来のシステムを設計した人間のノウハウは生かすことができるのです。 「人工知能ブーム」の中で生み出された「人工知能を応用したシステム」と言われるもののほとんど全てがこうしたものです。それは、悪いことではありません。 僕の当面のアドバイスは、「ディープラーニング技術で出来ることをリアルに正確に把握することで、ディープラーニング技術を現実

チューリングの予言と現代のAI技術

今から約70年前の1950年、アラン・チューリングは、次のような予言を行いました。 私は、次の問題を考えることを提案する。 「機械は考えることが出来るか?」 この「機械は考えることが出来るか?」というオリジナルな問題は、議論にも値しないほどあまりに意味のないものだと、私は信じている。  ....... それにもかかわらず、この世紀の終わりには、言葉の使い方と教育を受けた一般の人々の意見は大きく変化して、 矛盾しているとは少しも思うことなく、機械の思考について語ることが出来るようになるだろうと、私は信じている。                              -- Alan Turing                                   1950年 チューリングの人々の意識の変化についての予言は、的中しました。 それは、かれの天才的な洞察力を示す素晴らしいものだと思います。 いまでは、誰もが 矛盾しているとはほとんど思わず、 「機械の思考=人工知能」について語っています。ある人たちは、「人工知能」技術を「万能の技術」と信じ始め、ある人々は、機械が人間を凌駕する時代の到来について語っています。「シンギュラリティーがくるぞ」と。そこまで行かなくとも、この数年で、人工知能に対する期待は、IT技術者を中心に、多くの人に共有されるようになりました。 ただ、大事な問題が残っています。 我々は、「考える機械」には、まだたどりつけてはいないということです。 こうした中で、僕は、次のような議論が出ていることに注目しています。  「日本の労働生産性はRPA(ロボットによるプロセス自動化)とAI(人工知能)で上がる。人間は(生まれた余剰時間で)創造性を発揮できるだろう。これが日本復活のシナリオだ」 ソフトバンクグループの孫正義社長(兼会長)は6月13日、RPAツール大手の米Automation Anywhereが都内で開いたイベント「IMAGINE TOKYO 2019」でそう話しました。 なぜ、注目したかについては、次のメールでお話しします。 次回のマルレクのテーマは、「Yet Another AI (もう一つのAI技術)-- RPAは「推論エンジン」の夢を見るか?」です

テンソルとは何か?

今度、久しぶりにディープラーニング系の話をします。 調べてみたらマルレクでディープラーニングの話をしたのは、2年前が最後でした。https://www.marulabo.net/docs/20170528-marulec01/ 「先生、たまには人工知能の話もしてください。」(いつもしてますけど。) 「あと、数学、関心高いんですよ。」(「楽しい数学」、やってますけど、楽しくない?) 今回のセミナーは、こうした(角川 en藤さんからの)リクエストに応えたものです。 -------------------------------- 7/9 角川セミナー「初めてディープラーニングを学ぶ人のための数学入門〜ニューラルネットで行列を理解する〜」 https://lab-kadokawa83.peatix.com/ -------------------------------- 普通に線形代数の話をしても面白くないので、今回は、ちょっと新しい考え方を紹介できればと思っています。 それは、「テンソルとは何か?」という疑問に、絵解きで答えるアプローチです。 ディープラーニングのフレームワークとしては、 GoogleのTensorFlowは有名ですし、スカラー、ベクトル、行列 ....といった系列の拡張として「テンソル」という概念があることは、ご存知の方も多いと思います。 ディープラーニングの数学では、「テンソル」というのは大事な概念です。 今回紹介しようと思っているのは、Tensor Network という考え方です。 考え方は簡単です。マルを一つ考えます。マルから一つだけ「手」が出ているのが「ベクトル」で、マルから二つ手が出ているのを「行列」と考えるんです。一般に、マルからたくさん手が出ているのを、「テンソル」と呼びます。(手が無いマルは「スカラー」です。) マルとマルは、手をつなぐことができます。手をつなぐということは、ある演算に対応しているのですが、マルとマルがつながることで、テンソル(マル)のネットワークが出来上がります。これを Tensor Network と呼びます。 7/9 セミナーの参考資料 Youtube から視聴できるようにしました。 「テンソルとは何か? Tensor Network 入門(1) --

7/29 マルレク 「Yet Another AI -- RPAは「推論エンジン」の夢を見るか」の告知ページ公開しました

https://yet-another-ai.peatix.com/view 現在のAI技術の主流は、ディープラーニング技術なのですが、それ以外のもう一つのAI技術("Yet Another AI")として、論理的・数学的推論をコンピュータで行おうというAI技術の流れが存在します。今回は、そうした技術を取り上げます。 ディープラーニングは、生物のニューロンとそのネットワークをモデルにしています。視覚や聴覚・嗅覚といった生物の知覚のシステムを機械でシミュレートし、また、生物の全身の筋肉を連携させてバランスをとって運動する運動能力を機械・ロボットで実現するにはとても優れた技術です。 それは、生物との類似で言えば、蜜を求めて花を回るハチや、上空から獲物を見つけて急降下するハヤブサの、体内のニューラル・ネットワークの働きと同等のものを機械の上で実現しようという技術だと思っていいと思います。 ただ、人間には、そうした、ほとんど全ての生物に共通する感覚・運動能力とは別に、感覚と運動とをワンクッション置いて統合する機能があります。確かに、ハチも「迷う」かもしれないし、ハヤブサも「賢い」かもしれないのですが、人間は、知覚系の入力から条件反射的に運動系を動作させて行動するだけではありません。 人間は、考えます。考えることができることが、人間の知能の大きな特徴だと僕は考えています。 そうした人間の「考える」知能の中核は「推論」する能力にあります。もう少し、抽象的に言えば、人間は論理的・数学的に推論する能力を持っています。それは、「人工知能」技術の重要な対象だと僕は考えています。 ディープラーニング技術は、「推論」する人間をシミュレートできるでしょうか? 答えはおそらくノーです。 ドンキーカーでも自動運転するBMVでも、ディープラーニング技術はとても重要です。ただ、彼らに右側通行か左側通行かといった「交通法規」を覚えさせるのに、ディープラーニングは役立つでしょうか? 多分、もっと上位の層で、ルールを覚えさせることが必要になります。 ネットワークのセキュリティでも、異常検出にディープラーニング的アプローチは役に立ちます。ただ、異常らしきものを検出したとして、それにどう対応すべきかは、「自動化」「機械化」しようと思ったら、たくさんのル

「意味の形式的理論」ビデオ配信始まる

1月8日に開催したマルレク「人工知能と意味の形式的理論」のビデオ配信が始まりました。ご利用ください。 https://crash.academy/video/630/1961 講演資料はこちらです。 https://goo.gl/CPXndH

1/8 マルレク「意味の形式的理論」資料公開

明日のマルレクの講演資料です。 https://goo.gl/CPXndH  ご利用ください。資料長いのですが、背景がピンクのスライドをザッピングすれば、大まかな流れは伝わると思います。 ---------------- 「はじめに」 ---------------- 人工知能技術にとって、自然言語の意味の理解は、重要な課題である。小論は、自然言語の意味を形式的に把握しようという試みを概観したものである。 第一部では、まず、現在の主要な三つの自然言語処理技術の現状を紹介し、あわせて、言語の意味理解にフォーカスして、様々な取り組みを取り上げた。 こうした技術を評価する上で、筆者の取っている基本的な視点は、次のようなものである。   文と意味の「構成性(compositionality)」   意味の「同一性」 / 意味の共通表現の存在 残念ながら、文が語から文法に基づいて構成されることは、現在主流の自然言語処理技術では、ほとんど考慮されていない。文法性の認識がないのでは、文の意味の構成性の認識を持つことは難しい。 ただ、文の意味の構成性の認識なしにでも、意味については考えることができる。一つには文を構成する「語の意味」、もう一つには「意味の同一性」に基づく「意味の共通表現」の模索である。第一部の後半では、これらの取り組みを取り上げた。 「語の意味」の表現では、その客観性・共通性を「実在」の関係に基礎をもつOntology、語の利用の頻度の統計的分析に帰着させるWord2Vec的「分散表現」、辞書項目に諸特徴を枚挙するスタイル、 conceptual spacesを構成するアプローチ等多様な試みが行われている。 「文の意味」の表現については、論理式(あるいは、ラムダ式)による表現と多次元ベクトルによる分散表現の二つがある。後者は、実装者にはそういうものとしては、あまり自覚されていないようにみえるのだが。 機械翻訳技術の成功は、二つの言語の意味の「共通表現」を多次元ベクトルによる分散表現として抽出しているところにあると筆者は考えている。もっとも、語の意味も、文の文法性も、このアプローチでは、直接には考慮されていない。 筆者は、論理式による表現が「好み」なのだが、文から論理式への還元は、文法に応じて様々の流儀がある。この点

「同じ」という言葉は何を意味するのか?

あるものAとあるものBが「同じ」だというのは、何を意味するのだろう。 もしも、AとBが数字なら、その意味ははっきりわかる。 例えば、A=1でB=1なら、AとBが「同じ」だということになる。それは、1=1のことだ。 もしも、AとBが集合なら、AとBが同じだということは、Aに含まれる要素がBに含まれる要素が全て等しいということだ。集合 A={ りんご、みかん、バナナ } は、集合 B = { バナナ,  みかん. りんご } と「同じ」である。 もしも、AとBが三角形なら、二つの三角形の二辺の長さが等しく、その二辺が作る角度が等しい場合、三角形Aと三角形Bは、「同じ」だと言える。 これらの例でわかることは、あるものとあるものが「同じ」だというためには、それぞれが、同じ種類のものでなければならないということ。数字と三角形は、「同じ」にはなれない。 ここでの「同じ種類」というものを、「同じ型を持つ」ということにすれば、あるものAとあるものBが「同じ」だというためには、AとBは、「同じ型」を持っていなければいけないということになる。 このあたりのことを、数学者のドリーニュが例を挙げて丁寧に説明しているビデオがある。"What do we mean by "equal" " https://goo.gl/nXhqmb 今年の9月にプリンストンの高等研究所で開催された "Vladimir Voevodsky Memorial Conference" https://www.math.ias.edu/vvmc2018 での、彼の講演である。 ドリーニュは、若くして、グロタンディックを出し抜いて「ヴェーユ予想」を解いた有名な数学者なのだが、不思議なことに、彼が説明していることは、コンピュータでプログラミングをしたことがある人は、よくわかっていることだということである。 整数 A=1 と浮動小数点実数 B=1.0 とは、コンピュータ内部での扱いは違うものである。もしも、あるプログラミング言語が、整数型・実数型の他に複素数型をサポートしているとすると、A=1, B=1.0, C=1.0+0.0i は、皆、違うものである。 数字の場合いずれの型にも、加減乗除の演算は定義される。複数の型に適用

意味を考える 6 -- 鏡

我々は、他人の顔は見れるのだが、自分の顔を直接見ることはできない。写真やビデオがこんなに普及する以前、自分の顔を見る手段は、鏡しかなかったと思う。 自分の顔を鏡で見る時、「見る人」と「見られる人」は、同じ人だ。ただ、この同じ人が、鏡によって「見る人」と「見られる人」の二人に分離される時、普段は見ることのできない自分の顔を見ることができる。 以前に、「私はあなたを愛しています」という文の「意味」を考えるより、「 "I love you." の「意味」は、「私はあなたを愛しています」だ」と考える方が簡単だと書いたのだが、このことも、「翻訳」はある言語を他の言語にうつす鏡のようなものだと考えれば、いいのだと思う。 確かに、鏡に映る自分の顔は、他人のみんながいつも見ている顔であることに変わりはないし、「私はあなたを愛しています」を "I love you." と言い換えたところで、「愛」についての認識が深まるわけではない。 ただ、ある二つのものの関係の中で、あるものを考えるのは、あるものだけをじっと見ているより、普段は気づくことのないものへの気づきが生まれると僕は考えている。 「意味」についてもそうだ。意味についてのアプローチは、様々あるのだけれど、ソシュールのシニフィアン(signifiant:意味するもの)とシニフィエ(signifié:意味されるもの)にしても、オグデン=リチャードの「意味の三角形」の「シンボル」と「指示するもの」「指示されるもの」にしても、こうした「二項関係」が基本になっている。(三角なのに二項なのかにというツッコミは、あとでこたえる) こうした二項関係は、もっと深いところでは、「主体」と「客体」、「認識するもの」と「認識されるもの」という認識の構造そのものに基礎を持っている。 図は、ペンローズから。彼は、ビデオで鏡に映るビデオを撮影しても、ビデオは何も認識していないという。確かにそうだ。ただ、彼は、機械は、それだけでは意識を持ち得ないという立場を取っている。コンピュータのプログラムに意味など理解できるはずはないというのだ。

意味を考える 5 -- 辞書

言葉の意味を調べようとするとき、我々に一番身近な行為は、「辞書」を引くことである。ただし、辞書が与えるのは、語の意味である。 翻訳が文を対象にするのに対して、辞書は語を対象にする。文は語からできているので、辞書が与える語の意味の情報は、その語を含む文の意味を考えるもっとも基本的な情報を与える。 辞書で 、I = 私、love = 愛する、you = あなた という情報が得られたとしよう。この情報だけから、"I love you"という文を翻訳すると、「私 愛する あなた」になるのだが、これはどうも日本語としてはうまくない。 その理由ははっきりしている。 語から文が構成されているのは明らかなのだが、語から文を構成するときに、日本語でも英語でも、ある構成規則に従う。それを「文法」という。文法は、ある言語での語の出現順序に強い制限を与える。「私 愛する あなた」は、日本語の語の出現順序にそぐわないのだ。 辞書だけに頼る翻訳がうまくない理由は、もう一つある。辞書が与えるのは、名詞でも動詞でもその基本形だけだからである。名詞は「格」によって変化し(日本語だと、「私は」「私に」「私を」 ... というように、名詞の部分は変化しないように見えるのだが)、動詞は「活用」する。こうした語の「屈折」形は、その語のその言語の文法上の情報を与えるのだが、辞書はその屈折形を網羅しない。それは、文法規則として基本的には辞書の外部でカバーされることになる。 先に、簡単に「文は語からできている」といった。それはそれで間違いではない。もう少し正確に言えば、「文は、文法という構成規則に従って、語から構成される」ということになる。 「異なる語から異なる構成規則で構成された文が「同じ意味」を持ちうるのはなぜか?」というのは、言語の意味についての最も重要な問題なのだが、その問題に入る前に、ここでは、辞書上の語彙項目と実際に発せられる文と文法の関係について、基本的な事実を確認しようと思う。 全ての言語において、基本的な語彙の数は、有限である。例えば、26文字のアルファベットで15文字以内で構成される語の数は、高々、26^15である。ところが、10万語の語彙を持つ言語で、10語の語からなる文の数は、100000^10で、約10^50になる。10語文というのは、

意味を考える 4 -- 接触

イメージ
翻訳は、基本的には、外国語を母語に変換する。外国語に接する必要がなかったら、翻訳ツールのお世話になることはない。僕のひいおじいさんやひいおばあさんの世代は、おそらく、翻訳の必要はほとんど感じなかったようにも思う。僕の世代の場合は、おじいさんやおばあさんの世代に「敗戦」と「進駐軍」を体験する。外国語事情は、大きく変わる。 ただ、歴史的には、近年の「グローバル化」が始まる遥か以前から、異なる言語を用いる共同体の接触は、珍しいことではなかったと思う。 世界中は同じ言葉を使って、同じように話していた。  ... 主は降って来て、人の子らが建てた、塔のあるこの町を見て、言われた。「彼らは一つの民で、皆一つの言葉を話しているから、このようなことをし始めたのだ。これでは、彼らが何を企てても、妨げることはできない。 我々は降って行って、直ちに彼らの言葉を混乱させ、互いの言葉が聞き分けられぬようにしてしまおう。」 (創世記11章) なんて意地悪な神だと思うのだが。人間だって「互いの言葉が聞き分けられぬ」ままでいたわけはない。異なる言語が接触した場合、直ちに、翻訳の必要性は生まれたはずだ。 そこで一番大事なことは、言語が異なっても、それが伝えようとすることが「同じ意味」を持ちうることを双方が確信することだと、僕は思う。それは、自明のことのように思えるが、とても大事なことだ。 相手が宇宙人であって同じだと、我々人間は考える。 太陽系外に飛び出すパイオニアにもボイジャーにも、宇宙人に向けたメッセージが積まれていた。それが知性を持つ宇宙人に発見される可能性は、我々が異星人からのメッセージを受け取る可能性と同じくらいに低いのだが。 図1は、パイオニアにつまれたプレート。水素の構造、男女の姿、探査機の外形、銀河系中心と14個のパルサーに対する太陽の相対位置、太陽系が描かれている。 図2は、ボエジャーにつまれたゴールデン・レコード。地球上の様々な音や音楽、55種類の言語による挨拶や様々な科学情報などを紹介する写真、イラストなどが収録されている。「ボエジャーのゴールデンレコード」https://goo.gl/5NZ8Wn これらでは、画像・音・科学的な知識が、「共通言語」として想定されているのは興味ふかい。科学的な知識をメッセージに使うというアイデアは、電波を用いた

第五回マルレク 「人工知能と意味の形式的理論」

イメージ
来年早々になりますが、1月8日に、マルレク第五回を、富士ソフトさんのアキバプラザで開催します。テーマは、「人工知能と意味の形式的理論」です。 告知ページ・募集要項は、近日中に公開します。 募集期間が、年末・年始の時期に重なっているため、いつもより募集時期を若干早めたいと考えています。ご注意ください。 【講演概要】 人工知能研究の大きな課題の一つに、意味の理解をどのように機械上で実現するかという問題があります。 講演では、まず、この分野で、現時点で一定の成功を収めている三つのアプローチを紹介します。 第一は、Amazon Alexa, Google Home 等のボイスアシスタント・システムで多く利用されている、ヒューリスティックなアプローチです。そこでは、チューリング・テストをパスすることを意識した、意味のプラグマティックで「操作主義的」理解が中心にあります。 第二は、Google等の大規模な検索エンジンやDiffbot等が利用している。Knowledge Graph的なアプオーチです。グラフの規模の大小はあるのですが、そこで中心的な役割を果たしているのは、「エンティティ・モデル」です。 第三は、Googleニューラル機械翻訳の成功に刺激を受けた、「機械翻訳技術」の発展と普及を背景としたアプローチです。そこでは、大規模なパラレル・コーパスを大規模なハードウェアを利用して「学習」が行われます。 講演の後半は、現在の実装技術の紹介を目的とした前半と切り口が異なります。「意味の理解」は、「意味」についても「理解」についても、新しい枠組みが必要だというように、丸山は考えています。また、そうした理論は形式的なシステムで記述できるとも考えています。 次のような話をします。 ・文法の構造と意味の構造の対応、あるいは二つの構造の「二重化」の必要について。 ・理論とモデル。数学での意味の扱いに学ぶ。 ・ローヴェールのFunctor Semantics ・新しい「型の理論」

意味を考える 3 -- ジャンボジェット

イメージ
先の投稿、億単位のパラレル・コーパスを「学習」する機械学習技術にケチをつけるみたいな終わり方をしたので、若干、釈明を。 同じことが人間にできず(人間がこういうスタイルで、言語の「意味」を「学習」しているわけではないのは明らかだと思うのだが)、機械にそれができるのなら、それはそれでもいいのではとは思う。 空を飛ぶのに、生物の進化は昆虫や翼竜や鳥類を生み出したが、人間が発明したのは飛行機だった。同じ目的を達成するのに、生物と人間が発明した機械とが、違うアプローチをとってもいいのだ。 我々が、蝶々や鳥のように空を飛べないのは残念なことだが、空を飛ぶことについては、機械の勝ちかもしれない。翼竜のプテラノドンよりジャンボジェットの方が巨大だし、それに、ロケットなら宇宙にも行ける! (と言っても、「となり」の火星程度までなのだが) もしも我々が妖精のように自由に空を飛べていたら、「空を飛ぶ機械」の進歩の歴史は、今とは少し違っていたとは思う。(妖精は、自力では火星に行けないもんね。多分。) 機械翻訳に要するデータの巨大さだけに驚いてはいけない。それに必要なハードと計算時間も巨大である。先の論文によれば、Googleニューラル機械翻訳では、GPU100個を使って、フルトレーニングには最大1,000万ステップ、収束までには3週間かかることがあるという。 ただ、巨大さと複雑さで言えば、人間の脳だって負けてはいない。脳には、この銀河系の星の数より多い、860億個のニューロンが存在する。大脳新皮質には100億のニューロンがある。もっとすごいのは、その星の数ほど多いニューロンがお互いに結びついてネットワークを構成していることである。そのグラフなど書けっこない。 (人間の脳の構造と発達については、最近読んだ次の本がとても面白かった。「我々自身を発明する:ティーンエイジャーの脳の秘密の生活」"Inventing Ourselves: The Secret Life of the Teenage Brain" https://goo.gl/RBLn3H いつか紹介したい。) 今はどうなったかわからないが、ついこの間まで、人間が生物のニューロンの正確な接続のグラフを書けたのは、302個のニューロンと8,000のシナプを持つ C-Elegance

意味を考える 2 -- パラレル・コーパス

イメージ
「私はあなたを愛しています。」 この文の「意味」は、何かと言われると、なかなか答えるのが難しい。(日本語では、まずこういう言い方はしないと思うのだが、そのことはおいておく。) ただ、"I love you." の「意味」はと聞かれれば、「私はあなたを愛しています。」だと答えるのは易しい。 「それは、意味の意味が違う。」 確かに、そうかもしれない。 それでは、「二つの言語で、同じ意味が表現されている」と考えるのは、どうなのだろうか? この文章で使われている「意味」は、先に「なかなか答えるのが難しい」と考えた「意味」そのものではないだろうか? とりあえず、二つのことを、この後の議論のために、作業仮説として確認しておこう。  1.  二つの言語を比較すると、意味は取り出しやすく(感じる)。  2.  意味は、言語によって表現されるが、言語によらないものを指し示す。 実は、現代の自動翻訳技術は、二つの言語で、同じ意味を持つ文を大量に集め、それを学習させるのが基本技術だ。「私はあなたを愛しています。」= "I love you."  という文例をたくさん集めておく。「私はあなたを愛しています。」の「意味」を考えて、頭を抱えることはない。 ただ、そのデータ(「パラレル・コーパス」「パラレル・データ」と言ったりする)の規模は、多分多くの人の想像を超えていると思う。 機械翻訳についての基本的なカンファレンスは WMT "Workshop on Machine Translation" である。(2018年のページは、こちら。http://www.statmt.org/wmt18/ もっとも、僕は、二年近く最近の動向をフォローしていない)  WMTは、機械翻訳の研究のために、基本的なパラレル・コーパスを研究者に提供している。WMT 14  https://goo.gl/9d4cyi   WMT‘14の英語(En)<-> フランス語(Fr)データセットには、 3,600万の文のペアが含まれている。 WMT‘14の英語(En) <-> ドイツ語(De)データセットには、 500万の文のペアが含まれている。 かなりの規模だ。 ところがである。僕が、Goog

科学と哲学

12月14日開催の連続ナイトセミナー「人工知能を科学する」の今回のテーマは、「人工知能と哲学」です。https://lab-kadokawa72.peatix.com/ 「人工知能を科学するのに、哲学必要ですか?」と思われた人も少なくないと思います。たしかに。 科学や数学は、確立された体系(少なくとも「これまでに確立された」という意味ですが)を持っています。その成果は、多くの人に等しく共有されています。今では誰もが、「地球が太陽のまわりを回っている」「リンゴが木から落ちるのは重力があるから」と考えています。もちろん「1+1=2」で「直角三角形ではピタゴラスの定理が成り立つ」ことも。そういう知識のあり方を「累積的知」と呼ぶことがあります。 哲学には、残念ながら、確立された体系も万人が認める真理も存在しないように見えます。人によって物事の捉え方が異なるのですから、哲学にも色々な立場があります。「残念ながら」と書きましたが、それはそれでいいことだし、これからも哲学が「完成」するようには思えません。 そうした意味では、科学と哲学は、かなり違っています。 ただ、科学と哲学は、想像以上に広い接点を持っています。それは、おそらく、技術がビジネスや経済合理性と強い結びつきを持っているのと同じだと思います。「科学と哲学」と「技術とビジネス」の二つの結びつきをくらべれば、その結びつきのの質はずいぶん違うし、「科学と哲学」のつながりはあまり意識されることは少ないのですが。 科学も数学も「発展」して、その体系を「更新」します。現在の科学が全ての問題に解答を用意しているわけではないのです。現在の科学では説明できない「謎」の存在こそ、科学を発展させる原動力です。「謎」に立ち向かうには、様々な「立場」、ある場合には矛盾する「仮説」が必要になります。そのような局面では、科学者も哲学していると考えていいのだと、僕は考えています。 今回のセミナーでは、三つの話をしようと思います。 一つ目は、「コンピュータは人間を超える」という「シンギュラリティ論」や、「そんなことはない。人間の脳の働きはコンピュータのアルゴリズムを超えている」というペンローズらの「量子脳」理論を、「計算主義」の立場から批判してみようと思います。 二つ目は、言語の意味の理解を例に、文法の理論と双対の意

連続セミナー第三回「人工知能と量子コンピュータ」の様子です

イメージ
今日の角川さんでの連続ナイトセミナー「人工知能を科学する」の第三回「人工知能と量子コンピュータ」の様子です。参加された皆さん、3時間の長い時間、お疲れ様でした。 前回のマルレクすこし飛ばしすぎだったようで今回は少し反省して、「NP-完全」という概念にフォーカスして、全体の流れを伝えることに語り口を変えてみました。どうだったんでしょうね? 今日の資料です。ご利用ください。 https://goo.gl/ymYfFY このシリーズ次回は、12月14日開催の「人工知能と哲学」です。ご期待ください。