投稿

2017の投稿を表示しています

「ニューラル・コンピュータ」の基本文献

ニューラル・コンピュータの基本的な論文は、GoogleのDeepMindチームがNatureに発表した Alex Graves et al. "Hybrid computing using a neural network with dynamic external memory" なのだが、Nature論文は有料でしか読めない。https://goo.gl/vWHbwd お金を払ってから気づいたのだが、First AuthorのGravesが、ちゃんと自分のところで論文を公開していた。( 1,800円払う必要なかった。失敗した)https://goo.gl/r4g5xt Natureに掲載された本文自体は、短いもので、DNGで何ができるか事例をたくさんあげたもので読みやすいのだが、DNCの働きについては、これだけでは、よくわからない。 実は、先の論文の後半の "Method"というセクションが、DNCのキモの部分を詳しく述べている。ただし、前半とは違って、かなり難しい。(今度のマルレクで解説する) Method部分の理解のためには、Gravesらが以前に発表していた、"Neural Turing Machine" という論文を読むのがいいと思う。https://arxiv.org/pdf/1410.5401.pdf (そのうち、翻訳する。Google翻訳は、そのままでは使えないのだが、下訳としては、とても役に立つ。) Neural Turing Machine (NTM)が、やってみたことは、メモリーのコピー操作や連想記憶を機械に「学習させる」という、Nature論文の事例と比べると地味なものだが、コンピュータの機能としては基本的なものだ。(プログラムでメモリー・コピーを書くのではなく、学習によってコンピュータにコピーができるようにするというアプローチは、とても面白い。) もう少し、一般向けの「可微分ニューラルコンピュータ」の解説は、DeepMindのblogの次の記事だ。"Differentiable neural computers" https://goo.gl/2JjDm2 こちらは、Nature論文の前半部分の解説になっている。 Natue論文の前半の一部は、翻訳してある。 …

March for Science

イメージ
昨日の4月22日、ワシントンDCで "March for Science(科学のための行進)" が行われ、多数の市民・科学者が参加したようだ。


4月22日は、70年代に全世界に広がった環境保護運動の出発点となった 1970年の"Earth Day (地球の日)"が行われた日だ。

BrainPickingのMaria Popovaが、この"March for Science"で朗読されたJane Hirshfieldの "ON THE FIFTH DAY"という詩を紹介している。 https://goo.gl/YzUNHX


 On the fifth day
 the scientists who studied the rivers
 were forbidden to speak
 or to study the rivers.

 The scientists who studied the air
 were told not to speak of the air,
 and the ones who worked for the farmers
 were silenced,
 and the ones who worked for the bees.

 Someone, from deep in the Badlands,
 began posting facts.

 The facts were told not to speak
 and were taken away.
 The facts, surprised to be taken, were silent.
 ....

「五日目に」というのは、トランプが大統領に就任して五日目に、従来の環境保護政策を、180度転換させたことをさすのだろう。

"Science Not Silence (沈黙ではなく科学を)"というコピーも、気が利いていると思う。


語呂合わせでいうと、Mariaは、この4月24日にも、"The Universe in Verse: A Celebration of Science through Poetry (「詩の中の宇宙:詩を通じて科学を祝福する」)" と…

公証人役場

昨日、公証人役場というところに初めて行ったのだが、変わった経験をした。

老齢の 婦人と付き添いの中年の男性が、 公証人(というんでしょうね)に呼ばれて、彼の前に。

ここに二人が 来た理由は、すぐにわかった。
公証人「私が読みあげますので、文書を確認ください。」
と言って、彼が読み上げたのは、彼女の遺言状だった。

おいおい。

彼女の所有する不動産、銀行預金、家族構成、誰に何を残すのか、詳しく全部きこえる。(遺言状なので当然だが)

公証人役場といっても、個室などなく、狭くて、胸までの間仕切りで区切られているだけ。普通に話していても、部屋中に聞こえる。

とっさのことで、聞きたくないと部屋を出ることも、読み上げをやめろということもできなかった。どうすればよかったのか、今でも、よくわからない。

問題は、彼女のプライバシーやセキュリティの問題だと思うのだが、 一番の問題は、公証人にそうした問題意識が全くないことじゃないかな?

公証人役場で遺言状作るのやめよう。もっとも、残すべき財産がないので、遺言の必要も僕にはないのだが。

別の女性は、書類の不備を公証人に罵倒される。顔を真っ赤にして抗弁する彼女の話を聞けば(だって、聞こえるんだもん)、先に相談した別の公証人が是とした処理を、今日の公証人はダメだといっているようだ。

僕らの手続きは、秘密をバラされることも(嘘です。なんの秘密もありません)、罵倒されることもなく、すぐに終わった。

6時間集中講義「自然言語とニューラルネットワーク」

イメージ
今週末の4月22日、角川ASCIIさんで開催する 6時間集中講義「自然言語とニューラルネットワーク」の講演資料です。ご利用ください。

 第一部 概説 自然言語と人工知能 https://goo.gl/Hx4maJ
 第二部 RNNとLSTMの基礎    https://goo.gl/aAmyfC
 第三部 Googleニューラル機械翻訳  https://goo.gl/m1yMb0

基本的に、言語について取り上げてきた、この間の4回+アルファのマルレクの講演を3回にまとめたものです。

計算が合わないのですが、第一部が、再構成・一部加筆され、結果、頭でっかちになっています。第二部・第三部は、マルレクの資料と同じものです。

長いので(スライド 700枚近くあります)、本当は、聴きにいらしてもらうのが一番いいのですが .....



現代物理の俯瞰図

イメージ
先に、一般相対論と量子情報理論を中心に置いた Susskind の次のような物理学の俯瞰図を紹介したが https://goo.gl/nqXwZn 、こうした絵解きはいくつかある。


次の図は、去年11月のバークレーでのパネル "Our Quantum Society: Living with Entanglement" https://goo.gl/aWtAzi で Cathryn Carson 女史が与えたもの。
この間見てきたスライドでは、指折りのテキトーなものなのだが、気分は伝わる、(これ、アニメなんです。Youtubeはこちら https://goo.gl/j7bE57


ポイントは、パネル自体の名称がそうなのだが、Entanglement という現象と、きちんと向き合わなければ、いけないということ。同じ量子的な現象としての Superposition が、波の重ね合わせとして比較的容易に表象できるのに対して、Entanglement はそうではない。ただ、Entanglement は、奇妙な例外的な事象ではなく、今や、物理学の基礎そのものになろうとしている。

その点では、EntanglementのEntropyを、初めて定式化した、我らが高柳博士の物理の俯瞰図は、きちんとしている。「重力理論と量子エンタングルメント」https://goo.gl/kRPcNI

量子情報理論が、量子論・重力理論と並んで、物理学の三本目の柱になるという見通しである。


It From Qubit

イメージ
物理学は、今、大きな変革期を迎えているようだ。

その特徴は、物質・時空の理論だった物理学が、情報の理論と結びつこうとしていることだと思う。

先月の3月20日から22日にかけて、 "Computational Complexity meets Quantum Gravity." をスローガンに掲げて、Stanford大学で開催された "It-From-Qubit Complexity Workshop" https://goo.gl/1QgloA は、そのことを強く印象付ける、とても刺激的なものだった。

こうした研究の方向を推進している一人が、Susskindである。以前にリンゴをかじって講義している先生として紹介したのだが、本当はエライ人なのだ。

図は、2015年の彼の講演、"Entanglement and Complexity: Gravity and Quantum Mechanics" https://goo.gl/J0wSkf からとったものだが、様々な問題領域の中核に、一般相対論と量子情報理論の二つがあることが強調されている。

量子論と相対論の統一については、String TheoryやQuantum Loop Gravity など、いくつかの取り組みがあるのだが、その枠組みを、量子情報理論を加えて拡大しているのが、ミソである。

Erik Verlindeのエントロピー的重力理論や、日本の笠・高柳のエンタングルメントのエントロピーの定式化も、こうした流れの重要なトピックになる。

Aaronsonのblogを見たら、3月のStanfordでのWorkshop、Googleのセルゲイ・ブリンも聞きに行っていたらしい。


TPU論文の翻訳(2)

イメージ
6. エネルギーの比例性
ハードウェアがフルパワーのときに、十分な電力と冷却を供給する必要があるため、TDP(熱設計電力)は供給電力のコストに影響する。ただし、この電力料金は、作業負荷が日中に変動するために消費される平均に基づいている。 [Bar07]は、サーバーが時間の10%未満で100%ビジーである時には、サーバーは、実行された作業量に比例した電力を消費する必要があるという比例性を発見したとしている。前章での消費された電力の見積もりは、Googlデータセンターで見られたTDPの割合に基づいている。

提供されたワークロード使用率が0%から100%まで変化し、ワークロードの10%デルタのバケットで収集された場合のパフォーマンスと電力を測定した[Lan09]。図10は、CNN0のワークロードを変化させることによって、3つのチップのサーバーあたりのダイの数をサーバーの数で割ったものである。 GPUとTPUの増分(K80とTPU)と合計電力(K80 + Haswell / 4とTPU + Haswell / 2)をプロットしている。すべてに同じバッチサイズが与えられていることに注意。


図10 図10.ターゲットプラットフォーム使用率が0%から100%まで変化する時のCNN0のワット/ダイ。 Total GPUとTPUのパワーは赤とオレンジのラインで、Incrementalパワーは緑と紫のライン。サーバは2CPU、8GPUまたは4TPUを持っているので、それぞれ2,8、および4で割って正規化している。


TPUはダイ全体で最低118W(TPU + Haswell / 2)、ダイごとに40W(図10ではTPU)だが、エネルギーの比例性は低い。10%の負荷でTPUは、100%負荷の時の88%の電力を使っている。 (短い設計スケジュールにより、多くの省エネ機能が組み込まれていなかった。)

当然のことながら、Haswellはグループの比例比で最高である。10%の負荷の場合、100%負荷の56%の電力を使用する。 K80はTPUよりもCPUに近く、10%の負荷で全負荷電力の66%を使用する。計算上の境界ではないLSTM1も同様に動作する.10%の負荷では、CPUはフルパワーの47%を使用し、GPUは78%を使用し、TPUは94%を使用する。

アクセラレータのホストになる場合、CNN0を実…

TPU論文の翻訳(1)

イメージ
データセンター内での Tensor Processing Unitのパフォーマンス解析
Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson, Gaurav Agrawal, Raminder Bajwa, Sarah Bates, Suresh Bhatia, Nan Boden, Al Borchers, Rick Boyle, Pierre-luc Cantin, Clifford Chao, Chris Clark, Jeremy Coriell, Mike Daley, Matt Dau, Jeffrey Dean, Ben Gelb, Tara Vazir Ghaemmaghami, Rajendra Gottipati, William Gulland, Robert Hagmann, C. Richard Ho, Doug Hogberg, John Hu, Robert Hundt, Dan Hurt, Julian Ibarz, Aaron Jaffey, Alek Jaworski, Alexander Kaplan, Harshit Khaitan, Andy Koch, Naveen Kumar, Steve Lacy, James Laudon, James Law, Diemthu Le, Chris Leary, Zhuyuan Liu, Kyle Lucke, Alan Lundin, Gordon MacKean, Adriana Maggiore, Maire Mahony, Kieran Miller, Rahul Nagarajan, Ravi Narayanaswami, Ray Ni, Kathy Nix, Thomas Norrie, Mark Omernick, Narayana Penukonda, Andy Phelps, Jonathan Ross, Matt Ross, Amir Salek, Emad Samadiani, Chris Severn, Gregory Sizikov, Matthew Snelham, Jed Souter, Dan Steinberg, Andy Swing, Mercedes Tan, Gregor…

Bob Dylan "Triplecate"

ボブ・ディランの"Triplecate"を聴く。Samplerというダイジェスト版だけど、10曲入っている。SpotifyでもGoogle Musicでも聴ける。多分、Apple Musicでも。(Apple Music、やめようとして色々いじったが、うまくいかず、結局、やめ方中途半端なまま、課金だけされて、Androidでは聴けなくなってしまった。ヒドイ。)

「センチメンタル・ジャーニー」や「スター・ダスト」なんか懐かしい気になる。いいかも。と、思うところもあるのだが。でも、なんか引っかかる。

ボブ・ディランが、気分は、シナトラになっている。歌はヘタだけど。僕の好きなエイミーもガガも、スタンダード・ナンバーをトニー・ベネットとデュエットをしているのだが、ボブ:ディランは、一人で出来上がっている。カラオケで、おじさんが持ち歌の「マイ・ウエイ」を、上手に得意げに歌っているのを聞いたのに似た気分になる。

最近のディランのインタビューを読んで、さすがだな、鋭いな、なかなか面白いなとも思ったのだが、スタンダードへの回帰というが、多分、彼は、新しい詩を作ることがもうできないのだろう。(ノーベル文学賞をもらったのにね)

ジョン・レノン、ボブ・ディラン、ポール・マッカトニーは、それぞれ一つ違いの、ほぼ同じ世代だ。そう思うと、この中では、一番若いとはいえ、ポールの元気さは、すごいと思う。

でも、待てよ。

人は誰でも歳をとる。どんな歳のとりかたをしようが、ボケようが、それを他人がとやかくいう必要はないと思う。余計なお世話だ。半分、ボケが入っている自分が言うのも、なんかおかしいが。

そうだ。10年もしないうちに、彼らと同世代になって、新しいことについていけなくなったら、リーマンとかアインシュタインの話をしよう。その前に、もっとボケるって? 余計なお世話だ。

ボブ・ディランさん、ごめんなさい。お元気で。

April Fool

数学には、まだ解けない問題が沢山残っている。

そうした問題の中に、もし、その問題が解ければ、すべての数学の難問を証明することができるという特別な問題がある。

解くのはとても難しく、誰も成功していないのだが、定式化は簡単である。「0 = 1 を証明せよ!」これである。

世界のクレージーな数学者の何パーセントかは、この究極の問題に取り組んでいる。

僕は数学者なのだが、最近、プログラム言語の勉強を始めた(数学だけじゃ、生活できないからね)。

そしたら、驚いた。

この世界では、x = x + 1 という式は常識らしい。これって、0 = 1 だよね。プログラムの世界は、僕が思っていた以上に、ぶっ飛んでいるようだ。

誰かが言っていた。「世界中の数学者の収入を全て合わせたものより、Googleトップの一人の収入の方が大きい」と。

世の中は不公平なものかもしれないのだが、それだけではないと思う。Googleは、きっと、数学の最終問題 “ 0 = 1“の証明を、密かに完成させているのだと思う。

4月、東京・大阪で6時間集中講義

4月22日東京、4月29日大阪で、角川アスキーさんの主催で、「IT技術者の新しい常識「ディープラーニング」入門」6時間集中講義を行います。皆さんの参加をお待ちしています。

---------------------------------------------------
4月22日の東京は、昨年来のシリーズの第二弾で、今回のテーマは、「自然言語とニューラルネットワーク」です。

次のような構成になります。
  第一部 概説 自然言語と人工知能
  第二部 RNNとLSTMの基礎
  第三部 Googleニューラル機械翻訳

4月22日東京の開催趣旨はこちら https://goo.gl/LJ7qvA
申し込みページはこちらです。https://goo.gl/uHFcxj
---------------------------------------------------

---------------------------------------------------
4月29日の大阪のテーマは、「ニューラルネットワークの基礎」です。(4月22日の東京とは、コンテンツが異なりますのでご注意ください。) 

次のような構成となります。
  第一部 ニューラルネットワークの基礎
  第二部 ニューラルネットワークはどう「学習」するのか
  第三部 ニューラルネットワークによる画像認識技術

開催趣旨はこちら https://goo.gl/ufQ2vH
申し込みページはこちらです。https://goo.gl/xhXoqC
---------------------------------------------------

---------------------------------------------------
4/22 東京 開催概要
---------------------------------------------------
■セミナータイトル:
IT技術者の新しい常識「ディープラーニング」入門6時間集中講義
Part 2 自然言語処理とニューラルネットワーク
■講義の構成:
  第一部 概説 自然言語と人工知能
  第二部 RNNとLSTMの基礎
  第三部 Googleニューラル機械翻訳
■日時:2017年4月22日(土) 13:00…

Google翻訳での日本語の点数の低さについて

イメージ
Google翻訳は、なかなかスゴイのだが、他の欧米系の言語での翻訳と比べると、日本語の翻訳精度は、かなり低い。


この表は、Google翻訳の「Zero-Shot論文」の、ある意味「目玉」の結果の一つである。
機械翻訳のシステムを、ドイツ語 -> 英語、フランス語 -> 英語 というように、一対一の言語の組み合わせで別々のシステムで訓練させるより、{ ドイツ語、フランス語} -> 英語 のように、一つのシステムで同時に複数の言語(この場合は二つの言語)の一つの言語(この場合は、英語)への翻訳を訓練した方が翻訳精度が上がるという、驚くべきものである。

人間で言えば、日本語の英語への翻訳をもっとうまくやりたいなら、韓国語から英語への翻訳も、同時に学習する方がいいということ。

このメリットを説明する可能性のある仮説の1つは、モデルがより多くの英語データをターゲット側に持ち、ソース言語が同じ言語ファミリに属していること。それで、モデルは有用な一般化を学んでいると思われる。
こうした 発見は、とても興味深いものだが、ここでは、別のことに注目しよう。

ここでの翻訳精度の改善は、BLEUのスコアで、+0.05〜+0.79の改善である。(表の赤い枠の部分。)

ただ、日本語 -> 英語の翻訳精度は高いスコアで 23.87で、フランス -> 英語の 36.77と比べるとずいぶん低い。この表の中では、最低だ。実験で最高得点をたたき出している ポルトガル語 -> 英語の 45.19と比べると、半分程度だ。

実は、このポルトガル語の高得点も、僕には不思議に見える。WMTのコーパスでは、英語・フランス語のパラレル・データが3,600万ペアで、英語・ドイツ語のペア500万と比べても圧倒的に多い。ポルトガル語の高得点は、Google内部のコーパスを使ったものだが、アメリカなら、英語・スペイン語のデータは多いと予想できるのだが、英語・ポルトガル語のデータが、それ以上に多いとは思えない。でも、スペイン語 -> 英語より、ポルトガル語 -> 英語の方が、ずっと成績がいいのだ。

きっとGoogle翻訳は、英訳に関して言えば、日本語とは相性が悪く、ポルトガル語とはとても相性がいいのだ。なぜか? 僕にはわからない。

いくつか実験してみた。「イリュミナシオン」を、ま…

Lady GaGa -- Joanne

もうだいぶ前のことだが、Paul McCartneyが出した"My Valentine" という曲が好きだった。ジャズのスタンダード・ナンバーっぽい曲だ。まあ、彼は万能なので、どんな曲でも作れるんだなという感じで聞いていたのだが。https://goo.gl/KLvgP
そのうち、Lady GaGaがTony Bennettとデュエットのアルバムを出した。もちろん、古い曲のカバーだ。スランプ気味だったGaGaのリハビリみたいなものかなと、生暖かく見守ることに。GaGa、歌が上手いことに気づく。例えば、これ。https://goo.gl/74Ug8m
ただ、Bob Dylanが、Frank Sinatraのカバー・アルバムを出した時には、少し驚いた。Dylan 自身がギャングに扮するビデオまで作って。https://goo.gl/lFav5U
この流れは何なんだ。何かが起きていることは確かなのだが、その時は、その意味は、よくわからなかった。今になってみれば、それは、今、アメリカで起きていることの予兆の一つだったということに気づく。「古き良きアメリカ」は、失われつつあるという意識とともに、それを懐かしむ意識は、だいぶ前から伏流していたのだと思う。
仕事が一段落して、ようやくGaGaの新しいアルバム Joanneを聴く。今までのGaGaのアルバムとは、ずいぶん違ったものになっている。
ネットで見かけたタイトルに、こんなのがあった。 「レディー・ガガが普通になっちゃった?新作『ジョアン(Joanne)』に暗雲漂う… 」
確かに、そうかもしれない。 奇抜なメークもなし。曲もシンプルで、歌詞は、演歌のようにわかりやすい。どこの訛りかわからないのだが、発音もなまっているように、僕には聞こえる。何星人だかわからなかったGaGaが、悪魔崇拝の雰囲気も漂わせていたGaGaが、アメリカの淳朴で信心深い田舎娘になっている。
(Diamond Heart)
I'm not flawless, but I gotta diamond heart.
(sinner's prayer)
Hear my sinner's prayer
I am what I am
And I don't wanna break the heart of any oth…

古代と現代のパラレル・コーパス

イメージ
機械翻訳では、同じ意味の二つの言語の文を集めたパラレル・コーパスが不可欠だ。

この世界で標準的に利用されているWMTというデータセットがあるのだが、WMT‘14の英語(En) <-> ドイツ語(De)データセットには、500万の文のペアが含まれている。すごいと驚いてはいけない。

WMT‘14の英語(En)<-> フランス語(Fr)データセットには、3,600万もの文のペアが含まれている。

これは、英語・フランス語のパラレル・コーパスパラレル・コーパスの例。Gale & Church "A Program for Aligning Sentences in Bilingual Corpora"
http://www.aclweb.org/anthology/J93-1004.pdfから。




ところが、上には上がある。

Googleのニューラル機械翻訳の論文を読んでいたら、すごいことがサラリと書かれていた。

「わしら、Google社内で機械翻訳のためコーパス持っているんだけど、それって、WMTより、二桁から三桁大きいんだよね。エヘン。」

噂には、聞いてはいたが、「WMTより、二桁から三桁大きい」は、すごい。どうりで、100個のGPU使って、訓練に3週間もかかるわけだ。WMTだけだったら、そんなに時間かからないはず。

アマノジャクなので、別のことを考える。

「でも、そんなにデータ持ってて、あなたは賢いの?」

「パラレル・コーパスって、昔からあったよね。ロゼッタ・ストーンってそうだろ。」


シャンポリオンが、これを使って、古代エジプトの象形文字を解読した。

ローリンソンとヒンクスが、楔形文字を解読するのに使ったベヒストゥン碑文も、立派なパラレル・コーパスだ。



若い時に、確か、みすずの本で古代エーゲ海文明の「線文字B」の解読の本を読んだことも思い出した。ヴェントリスは、天才だ。パラレル・コーパスなんかなくても、未知の文字を解読できる。

21世紀になって、クレタのGareth Owensは、たった一つの粘土板Phaistos diskにきざまれた、45種類の「文字」で書かれた241文字の「文」の解読に成功したという。 女神への祈りだという。https://goo.gl/4Ye6Be


翻訳の世界には、機械にできないことでも、人間なら…