投稿

エントロピーと情報

イメージ
エントロピーという概念が、情報の概念と結びついていることは、IT技術者ならどこかで聞いたことはあるかもしれない。でも、それがどういう繋がりなのかを説明できる人は、少ないように思う。 ただ、それにはいくつかの理由がある。 一つの理由は、高校までの授業で「熱」や「温度」「仕事」「エネルギー」については教えられるのだが、「エントロピー」は教えられることはない(多分)からだと思う。高校卒業後、「熱力学」の講義を受ける人は、多分、少数派だ。 その上、ITの仕事についても、一部の人(例えば、通信関係の人)を除けば、プログラミングを始めても、情報量やエントロピーの概念が必要となることは、ほとんどないと言っていい。 ただ、そのままでいいかというと、本当は、よくないのではと、最近、僕はは思うようになっている。 自然を理解するのに、「エネルギー」と「エントロピー」は、二つのキー・コンセプトだと思うようになったからだ。といっても、子供達に「エントロピー」をどう教えればいいのか、具体的なプランがあるわけではないのだが。 ただ、状況は、少しずつ変化してきているのは事実だ。 以前の投稿でも書いたが、ディープラーニングでは、コスト関数に「クロス・エントロピー」が登場するし、クラス分けのSoftMax関数を理解するには、分配関数の知識があった方が見通しが良くなる。 また、セキュリティーの基礎としての「暗号化」の技術には、「ランダムネス」や「一方向関数」の概念が使われている。これらは、みな、エントロピーの議論と結びつく。 エントロピーと情報の概念が結びつきにくいのは、もう一つ大きな理由があるように思う。それは、エントロピーの概念が、歴史的に様々に変化してきたからだ。当初は、それは情報の概念とは、無関係だった。 Entropy という言葉は、19世紀半ば(1856年?)に、Clasiusによって名付けられた。それは、「熱」や「温度」「仕事」「エネルギー」といった量に関連づけられ、「熱力学」の中で生まれた概念であった。 Wattの最初の蒸気機関が完成したのは、1776年。熱力学の基礎を作ったCarnotの仕事は、1828年である。彼らの実践的関心は、産業革命を可能にした当時の最先端技術である「蒸気機関」の効率化に向けられていた。 彼らは、蒸気機関に熱と

P≠NP問題解けた?(2)

イメージ
P≠NP問題は、Nashが提起した計算の複雑性の階層についての代表的な問題の一つである。計算の複雑性の理論は、古典的には、1930年代のChurch-Turingの「計算可能性」の議論に起源を持つ。 1985年にDeutschは、その定式化を、量子コンピュータを含む全ての物理的な機械の計算可能性に拡大した。Church–Turing–Deutsch principle。ここでの議論は、現代の量子コンピュータの出発点になった。(アイデアは、Feynman が提供した。) 量子論的複雑性理論(Quantum complexity theory)は、古典的な計算複雑性の理論を、量子コンピュータと量子情報理論に拡大したもの。ここでは、古典的なP, NPに対応する量子計算可能性のクラス BQP, QMA が存在する。P≠NP問題の解決が自動的にBQP≠ QMA問題の解決を与えるものではない。(と思う) 量子論的複雑性理論の中心人物が、Scott Aaronsonである。(今日も、彼のblogは更新されていない。自分が追いかけてきた問題が、他の人に解決されるのを見るのは、悔しいのかもしれない。でも、コメントが欲しい。) ここ数年、量子Entanglementのエントロピーの研究が急速に進んで、物理学の中で複雑性理論への関心が高まっている。関心の中心になったのは、ブラックホールでの情報の在り方である。 何回かに分けて、そのことを説明したいと思う。 (マルレクでも、話ができればいいのだが。) 写真は、Raamsdonkの講演で、自分のシャツをアピールする物理学者 Susskind。やんちゃである。胸には、"I love Complexity" と書かれている。Mark van Raamsdonk "Gravity and Entanglement"  https://goo.gl/jd9dc4 もう一つの写真は、ブラックホール内部での「情報」についてのHarlow-Haydenの驚くべき議論を紹介するScott Aaronson。"Computational complexity underpinnings of the Harlow-Hayden argument"  htt

P≠NP問題 とけた?

イメージ
P≠NP問題を解いたという論文が出て、その界隈がちょっと騒がしくなっている。 Norbert Blum "A solution of the P versus NP problem"  https://arxiv.org/pdf/1708.03486.pdf John Baezが、さっそく反応している。 "Norbert Blum on P versus NP"  https://goo.gl/tPgg5C しばらく待って見たのだが、奇妙なことに、この分野の第一人者である Scott Aaaronson の反応は、まだ出ていない。(最新のblogは、Googleの解雇問題というか性差別の議論をしている。おいおい。) Blumの名前は、僕はAaronsonを通じて知っていた。彼の本、"Quantum Computing Since Democritus"にも出ている。(例えば、ここ。 https://goo.gl/8yQi2g  )この分野の専門家の一人だ。 僕にとっての問題は、このBlumの「証明」が正しいのか間違っているのか、さっぱりわからないこと。 先のblogで、John Baezは、こう書いている。 Most papers that claim to solve hard math problems are wrong: that’s why these problems are considered hard. But these papers can still be fun to look at, at least if they’re not obviously wrong. It’s fun to hope that maybe today humanity has found another beautiful grain of truth. こうした観点では、Vladimir Voevodskyの"Foundations of Mathematics and Homotopy Theory" という講演は面白い。 https://goo.gl/tYphjB 多くの論文は間違っているし、正しいとしても、論文の査読者さえそれを理解

マルデセーナの「ブラックホールと時空構造」

イメージ
ロミオとジュリエットが、両家によって会うことを禁じられていても(0、ジュリエットは、アンドロメダ銀河系まで引き離されているらしい)、二人がブラックホールに近づいて(1)、それに飛び込めば、二人は会えるかもしれない(2)。でも、二人は、一緒に死ぬしかないのだが(3)。 この二つのブラックホールは、アインシュタイン・ローゼンのブリッジでつながっているという想定。図中の六角形のペンローズ図は、それを表している。この六角形の上辺は、ブラックホールの「シンギュラリティ」。この図の下から上に時間が流れているのだが、ここで、時間が止まる。一緒に死ぬが、永遠に一緒なのかもしれない。 このハーバード大での連続講演、勉強になる。高柳本で引っかかっていたところ、少しわかった気になる。 https://goo.gl/FyzHKr もう一つ、わかったこと。 ハーバードの黒板消し、性能悪い。消しても、ちゃんと消えない。講義前には、もちろん、キレイになっているのに、不思議だ。

日本語WordNetのサーバーがシンガポールにあるのが悲しい

小川 さんから指摘されて、日本語WordNetのサーバーがシンガポールにある理由を調べて見たんですが、理由がわかりました。(多分) このプロジェクトをNICTで推進していたFrancis Bond 氏が、シンガポールの大学にうつったからですね。http://www.ntu.edu.sg/home/fcbond/prof.html ということは、日本では、日本語WordNet メンテされてないんだ。ひどいな。なんてこった。 「Botづくりを始める前に(4)」を書いていて、「 まず、bAbiに対応する推論訓練用の日本語データセット作ろう 」とか、書いていたんだけど、バカバカしくなって、書くのやめました。 ImageNetのラベルには、WordNetのIDがふられています。自国語辞書の整備は、自然言語処理の基本中の基本です。そんなこともできないで「日の丸人工知能」なんか、できっこないと思います。

Botづくりを始める前に(3)

人工知能と検索技術 人工知能と検索技術の関係では、GoogleのLarry Pageの次のような発言が興味ふかい。 「Googleの検索エンジンが、AIによって完全なものになったときにのみ、Googleのミッションは、完遂されるだろう。あなたたちは、それが何を意味するのか知っている。それが人工知能なのだ。」 「人工知能は、Googleの最終バージョンになるだろう。Web上のすべてのものを理解するだろう究極の検索エンジンは、あなたが望むものを正確に理解するだろうし、あなたに正しいものを与えるだろう。我々は、今は、そうしたことをするのには、遠いところにいる。ただ、我々は、少しずつ、それに近ずくことはできる。我々が取り組んでいることは、基本的には、そのことなのだ。」 「検索における我々の大きな目標は、人が望むものを、実際に正確に理解し、世界のすべてのものを理解することである。コンピューター科学者として、我々は、それを人工知能と呼ぶ。」 ここでは、Googleの検索と人工知能の目標が、一致することが主張されている。個々の画像の認識や、個別の文章の意味の理解だけではなく、世界のすべてのものを理解するのが、Googleの検索と人工知能の目標になる。 その主体は、Googleだとも読めるのだが、そこまで言わなくても、人工知能の主体は、ネットワーク上に存在することになる。これはこれで、狭い意味のディープ・ラーニング的な人工知能観とは異質な、しかしながら、重要な観点である。 グラフ検索とEntity ModelとSchema.org 先に見た、第二のタイプのBotを考えるとき、2010年代に起きた検索技術の変化が、大きな意味を持つことに気づく。 それまでの検索は、crawlerが収集したweb上の膨大なテキストから、文字列を探し出し(indexingにバッチのmapreduceを使う)、その文字列を含むURLを適当な順番(pagerank ここでもmapreduce)で返すシステムであった。 2010年代に検索に起きた変化は、まず、Indexingのリアル・タイム化であり、それに続くグラフ検索の手法の導入である。GoogleのKnowledge Graphは、Entity Modelで構成された巨大なグラフを、おそらくは、Google

Botづくりを始める前に(2)

Botの機能の三つのタイプ パーソナル・アシスタント・システムのボイス・インターフェースとしてのBotの役割は、機能面で大きく三つのタイプに分けられる。 第一のタイプは、もともとのハードウェアやアプリが持っていた、入出力インターフェースのボイス化を目的とするBotである。これは、問題(「会話」)のドメインも限られており、実装は比較的容易である。 第二のタイプは、「情報」や「知識」を、ボイスを通じて提供するタイプのBotである。現在の「音声検索」と共通の技術である。このBotを可能にするバックグラウンドの検索エンジンの開発は容易ではない。ただ、Bot(広くは人工知能技術)と検索の関係は、ディープ・ラーニングのブームの陰に隠されている感があるのだが、重要で深いものだ。 第三のタイプは、第一でも第二のタイプでもない、いわば、「汎用の会話Bot」である。多くのコンシューマが期待しているのはこのタイプなのかもしれないし、多くの企業と開発者が夢見ているのも、このタイプかもしれない。ただ、この1, 2年で、この機能を実現できることはないだろう。 第三のタイプでは、現時点で現実的に可能なことは、「ああいえば、こういう」という人の手による「シナリオ」を、できるだけ沢山かき集めることに帰着するだろう。 「人工知能」という触れ込みなのに、蓋を開けてみたら、中に沢山の小人さん(といっても、普通の人間)が詰め込まれていて、「ああ言われれば、こう言う」というシナリオづくりに汗をかいているだけという、笑えないことになる。(まあ、「戦争」に勝つには、それも必要なのかもしれないが。) 何から始めるべきか? 第一のタイプから。 僕がエンジニアに勧めたいのは、第一のタイプのBotでスキルを高めておくことだ。 Iotでハードを作っている人は、そのハードのインターフェースのボイス化に挑戦する。スマートフォン・アプリやWebアプリを作っている人は、そのアプリのインターフェースのボイス化に挑戦する。部分的なものでいいのだ。 ポイントは、二つあると思う。 一つは、自作ハードであれ、Webアプリであれ、スマートフォンからのコントロールを追求すること。様々な、ボイス・アシスタンスのアプライアンスが登場すると思うのだが、我々にもっとも身近なプラットフォームは、スマートフォンだ