投稿

4月, 2017の投稿を表示しています

次回マルレクは、5月31日 KDDIさんで開催です

イメージ
次の要領で次回のマルレクを開催します。  日 時:5月31日 19:00-21:00  場 所:KDDI本社会議室(飯田橋)  定 員:150名  参加費:1,000円(個人協賛会員は無料です)  申 込:個人協賛会員 5月17日 12:00から      一般     5月24日 12:00から  講 師:丸山不二夫  テーマ:「ニューラル・コンピュータとは何か?」  概 要: 現在のニューラル・ネットワークのモデルは、基本的には、次の三種類です。  ・DNN (Deep Neural Network: Full Connect Perceptron )  ・CNN (Convolutional Neural Network )  ・RNN (Recurrent Neural Network ) ここにきて、第四のモデルとしての「ニューラル・コンピュータ」に注目が集まっています。 それは、画像認識が得意なCNNや、自然言語処理のようなSequence to Sequenceの処理が得意なRNNのように、特定の課題にフォーカスしたモデルではなく、むしろ、外部メモリーを活用する現在のコンピュータのアーキテクチャーそのものを、ディープ・ラーニング技術の知見を生かして拡張しようとする意欲的なものです。 興味深いのは、そのアーキテクチャーが挑戦している課題は、上記の三つのモデルでは解くのが難しかった、ヒューリスティックな、あるいは、論理的な「推論」を機械に実行させることです。 講演では、GoogleのDeepMind チームがNatureに公開した論文の解説を行います。 次の資料を参照ください。 「可微分ニューラルコンピュータとは何か(1) 概論」 http://maruyama097.blogspot.com/2017/03/blog-post_17.html 「可微分ニューラルコンピュータとは何か(2) システム概観」 http://maruyama097.blogspot.com/2017/03/blog-post_18.html

Google翻訳のアーキテクチャー(4) Wordpiece

Segmentation Approaches Neural Machine Translation models often operate with fixed word vocabularies even though translation is fundamentally an open vocabulary problem (names, numbers, dates etc.). There are two broad categories of approaches to address the translation of out-of-vocabulary (OOV) words. One approach is to simply copy rare words from source to target (as most rare words are names or numbers where the correct translation is just a copy), either based on the attention model [37], using an external alignment model [31], or even using a more complicated special purpose pointing network [18]. Another broad category of approaches is to use sub-word units, e.g., chararacters [10], mixed word/characters [28], or more intelligent sub-words ニューラルマシン翻訳モデルでは、名前、数字、日付といった、基本的には辞書にないオープンな語彙の翻訳であっても、固定した語のボキャブラリで動作することがよくある。 語彙外(OOV : Out Of Vocaburary )単語の翻訳に対処するアプローチには、大きく2つのカテゴリーがある。  1つのアプローチは、珍しい単語を、ソースからターゲットへの単純にコピーすることである。(珍しい単語の大部分は、名前や番号で、それらに対しては、コピーが正しい翻訳になる。)あるいは

Quantizable Model and Quantized Inference

One of the main challenges in deploying our Neural Machine Translation model to our interactive production translation service is that it is computationally intensive at inference, making low latency translation difficult, and high volume deployment computationally expensive. Quantized inference using reduced precision arithmetic is one technique that can significantly reduce the cost of inference for these models, often providing efficiency improvements on the same computational devices. For example, in [43], it is demonstrated that a convolutional neural network model can be sped up by a factor of 4-6 with minimal loss on classification accuracy on the ILSVRC-12 benchmark. In [27], it is demonstrated that neural network model weights can be quantized to only three states, -1, 0, and +1 インタラクティブな製品版の翻訳サービスにニューラル機械翻訳モデルを導入する際の主な課題の1つは、推論時に、計算が集中して、低遅延の翻訳が難しく、高価な計算装置を大量に配置することが必要になることである。 精度の低い算術演算を使用した量子化された推論は、これらのモデルの推論のコストを大幅に削減することができ、同じ計算装置で効率を改善する1つの手法である。 例えば[43]では、ILSVRC-12

「ニューラル・コンピュータ」の基本文献

ニューラル・コンピュータの基本的な論文は、GoogleのDeepMindチームがNatureに発表した Alex Graves et al. "Hybrid computing using a neural network with dynamic external memory" なのだが、Nature論文は有料でしか読めない。 https://goo.gl/vWHbwd お金を払ってから気づいたのだが、First AuthorのGravesが、ちゃんと自分のところで論文を公開していた。( 1,800円払う必要なかった。失敗した) https://goo.gl/r4g5xt Natureに掲載された本文自体は、短いもので、DNGで何ができるか事例をたくさんあげたもので読みやすいのだが、DNCの働きについては、これだけでは、よくわからない。 実は、先の論文の後半の "Method"というセクションが、DNCのキモの部分を詳しく述べている。ただし、前半とは違って、かなり難しい。(今度のマルレクで解説する) Method部分の理解のためには、Gravesらが以前に発表していた、"Neural Turing Machine" という論文を読むのがいいと思う。 https://arxiv.org/pdf/1410.5401.pdf  (そのうち、翻訳する。Google翻訳は、そのままでは使えないのだが、下訳としては、とても役に立つ。) Neural Turing Machine (NTM)が、やってみたことは、メモリーのコピー操作や連想記憶を機械に「学習させる」という、Nature論文の事例と比べると地味なものだが、コンピュータの機能としては基本的なものだ。(プログラムでメモリー・コピーを書くのではなく、学習によってコンピュータにコピーができるようにするというアプローチは、とても面白い。) もう少し、一般向けの「可微分ニューラルコンピュータ」の解説は、DeepMindのblogの次の記事だ。"Differentiable neural computers"  https://goo.gl/2JjDm2  こちらは、Nature論文の前半部分の解説になっている。 N

March for Science

イメージ
昨日の4月22日、ワシントンDCで "March for Science(科学のための行進)" が行われ、多数の市民・科学者が参加したようだ。 4月22日は、70年代に全世界に広がった環境保護運動の出発点となった 1970年の"Earth Day (地球の日)"が行われた日だ。 BrainPickingのMaria Popovaが、この"March for Science"で朗読されたJane Hirshfieldの "ON THE FIFTH DAY"という詩を紹介している。 https://goo.gl/YzUNHX  On the fifth day  the scientists who studied the rivers  were forbidden to speak  or to study the rivers.    The scientists who studied the air  were told not to speak of the air,  and the ones who worked for the farmers  were silenced,  and the ones who worked for the bees.    Someone, from deep in the Badlands,  began posting facts.    The facts were told not to speak  and were taken away.  The facts, surprised to be taken, were silent.  .... 「五日目に」というのは、トランプが大統領に就任して五日目に、従来の環境保護政策を、180度転換させたことをさすのだろう。 "Science Not Silence (沈黙ではなく科学を)"というコピーも、気が利いていると思う。 語呂合わせでいうと、Mariaは、この4月24日にも、"The Universe in Verse: A Celebration of Science thr

公証人役場

昨日、公証人役場というところに初めて行ったのだが、変わった経験をした。 老齢の 婦人と付き添いの中年の男性が、 公証人(というんでしょうね)に呼ばれて、彼の前に。 ここに二人が 来た理由は、すぐにわかった。 公証人「私が読みあげますので、文書を確認ください。」 と言って、彼が読み上げたのは、彼女の遺言状だった。 おいおい。 彼女の所有する不動産、銀行預金、家族構成、誰に何を残すのか、詳しく全部きこえる。(遺言状なので当然だが) 公証人役場といっても、個室などなく、狭くて、胸までの間仕切りで区切られているだけ。普通に話していても、部屋中に聞こえる。 とっさのことで、聞きたくないと部屋を出ることも、読み上げをやめろということもできなかった。どうすればよかったのか、今でも、よくわからない。 問題は、彼女のプライバシーやセキュリティの問題だと思うのだが、 一番の問題は、公証人にそうした問題意識が全くないことじゃないかな? 公証人役場で遺言状作るのやめよう。もっとも、残すべき財産がないので、遺言の必要も僕にはないのだが。 別の女性は、書類の不備を公証人に罵倒される。顔を真っ赤にして抗弁する彼女の話を聞けば(だって、聞こえるんだもん)、先に相談した別の公証人が是とした処理を、今日の公証人はダメだといっているようだ。 僕らの手続きは、秘密をバラされることも(嘘です。なんの秘密もありません)、罵倒されることもなく、すぐに終わった。

6時間集中講義「自然言語とニューラルネットワーク」

イメージ
今週末の4月22日、角川ASCIIさんで開催する 6時間集中講義「自然言語とニューラルネットワーク」の講演資料です。ご利用ください。  第一部 概説 自然言語と人工知能  https://goo.gl/Hx4maJ  第二部 RNNとLSTMの基礎     https://goo.gl/aAmyfC  第三部 Googleニューラル機械翻訳   https://goo.gl/m1yMb0 基本的に、言語について取り上げてきた、この間の4回+アルファのマルレクの講演を3回にまとめたものです。 計算が合わないのですが、第一部が、再構成・一部加筆され、結果、頭でっかちになっています。第二部・第三部は、マルレクの資料と同じものです。 長いので(スライド 700枚近くあります)、本当は、聴きにいらしてもらうのが一番いいのですが .....

現代物理の俯瞰図

イメージ
先に、一般相対論と量子情報理論を中心に置いた Susskind の次のような物理学の俯瞰図を紹介したが https://goo.gl/nqXwZn 、こうした絵解きはいくつかある。 次の図は、去年11月のバークレーでのパネル "Our Quantum Society: Living with Entanglement" https://goo.gl/aWtAzi で Cathryn Carson 女史が与えたもの。 この間見てきたスライドでは、指折りのテキトーなものなのだが、気分は伝わる、(これ、アニメなんです。Youtubeはこちら https://goo.gl/j7bE57 ) ポイントは、パネル自体の名称がそうなのだが、Entanglement という現象と、きちんと向き合わなければ、いけないということ。同じ量子的な現象としての Superposition が、波の重ね合わせとして比較的容易に表象できるのに対して、Entanglement はそうではない。ただ、Entanglement は、奇妙な例外的な事象ではなく、今や、物理学の基礎そのものになろうとしている。 その点では、EntanglementのEntropyを、初めて定式化した、我らが高柳博士の物理の俯瞰図は、きちんとしている。「重力理論と量子エンタングルメント」 https://goo.gl/kRPcNI 量子情報理論が、量子論・重力理論と並んで、物理学の三本目の柱になるという見通しである。

It From Qubit

イメージ
物理学は、今、大きな変革期を迎えているようだ。 その特徴は、物質・時空の理論だった物理学が、情報の理論と結びつこうとしていることだと思う。 先月の3月20日から22日にかけて、 "Computational Complexity meets Quantum Gravity." をスローガンに掲げて、Stanford大学で開催された "It-From-Qubit Complexity Workshop" https://goo.gl/1QgloA  は、そのことを強く印象付ける、とても刺激的なものだった。 こうした研究の方向を推進している一人が、Susskindである。以前にリンゴをかじって講義している先生として紹介したのだが、本当はエライ人なのだ。 図は、2015年の彼の講演、"Entanglement and Complexity: Gravity and Quantum Mechanics" https://goo.gl/J0wSkf からとったものだが、様々な問題領域の中核に、一般相対論と量子情報理論の二つがあることが強調されている。 量子論と相対論の統一については、String TheoryやQuantum Loop Gravity など、いくつかの取り組みがあるのだが、その枠組みを、量子情報理論を加えて拡大しているのが、ミソである。 Erik Verlindeのエントロピー的重力理論や、日本の笠・高柳のエンタングルメントのエントロピーの定式化も、こうした流れの重要なトピックになる。 Aaronsonのblogを見たら、3月のStanfordでのWorkshop、Googleのセルゲイ・ブリンも聞きに行っていたらしい。

TPU論文の翻訳(2)

イメージ
6. エネルギーの比例性 ハードウェアがフルパワーのときに、十分な電力と冷却を供給する必要があるため、TDP(熱設計電力)は供給電力のコストに影響する。ただし、この電力料金は、作業負荷が日中に変動するために消費される平均に基づいている。 [Bar07]は、サーバーが時間の10%未満で100%ビジーである時には、サーバーは、実行された作業量に比例した電力を消費する必要があるという比例性を発見したとしている。前章での消費された電力の見積もりは、Googlデータセンターで見られたTDPの割合に基づいている。 提供されたワークロード使用率が0%から100%まで変化し、ワークロードの10%デルタのバケットで収集された場合のパフォーマンスと電力を測定した[Lan09]。図10は、CNN0のワークロードを変化させることによって、3つのチップのサーバーあたりのダイの数をサーバーの数で割ったものである。 GPUとTPUの増分(K80とTPU)と合計電力(K80 + Haswell / 4とTPU + Haswell / 2)をプロットしている。すべてに同じバッチサイズが与えられていることに注意。 図10 図10.ターゲットプラットフォーム使用率が0%から100%まで変化する時のCNN0のワット/ダイ。 Total GPUとTPUのパワーは赤とオレンジのラインで、Incrementalパワーは緑と紫のライン。サーバは2CPU、8GPUまたは4TPUを持っているので、それぞれ2,8、および4で割って正規化している。 TPUはダイ全体で最低118W(TPU + Haswell / 2)、ダイごとに40W(図10ではTPU)だが、エネルギーの比例性は低い。10%の負荷でTPUは、100%負荷の時の88%の電力を使っている。 (短い設計スケジュールにより、多くの省エネ機能が組み込まれていなかった。) 当然のことながら、Haswellはグループの比例比で最高である。10%の負荷の場合、100%負荷の56%の電力を使用する。 K80はTPUよりもCPUに近く、10%の負荷で全負荷電力の66%を使用する。計算上の境界ではないLSTM1も同様に動作する.10%の負荷では、CPUはフルパワーの47%を使用し、GPUは78%を使用し、TPUは94%を使用する。 ア

TPU論文の翻訳(1)

イメージ
データセンター内での Tensor Processing Unitのパフォーマンス解析 Norman P. Jouppi, Cliff Young, Nishant Patil, David Patterson, Gaurav Agrawal, Raminder Bajwa, Sarah Bates, Suresh Bhatia, Nan Boden, Al Borchers, Rick Boyle, Pierre-luc Cantin, Clifford Chao, Chris Clark, Jeremy Coriell, Mike Daley, Matt Dau, Jeffrey Dean, Ben Gelb, Tara Vazir Ghaemmaghami, Rajendra Gottipati, William Gulland, Robert Hagmann, C. Richard Ho, Doug Hogberg, John Hu, Robert Hundt, Dan Hurt, Julian Ibarz, Aaron Jaffey, Alek Jaworski, Alexander Kaplan, Harshit Khaitan, Andy Koch, Naveen Kumar, Steve Lacy, James Laudon, James Law, Diemthu Le, Chris Leary, Zhuyuan Liu, Kyle Lucke, Alan Lundin, Gordon MacKean, Adriana Maggiore, Maire Mahony, Kieran Miller, Rahul Nagarajan, Ravi Narayanaswami, Ray Ni, Kathy Nix, Thomas Norrie, Mark Omernick, Narayana Penukonda, Andy Phelps, Jonathan Ross, Matt Ross, Amir Salek, Emad Samadiani, Chris Severn, Gregory Sizikov, Matthew Snelham, Jed Souter, Dan Steinberg, Andy Swing, Mercedes Tan, G

Bob Dylan "Triplecate"

ボブ・ディランの"Triplecate"を聴く。Samplerというダイジェスト版だけど、10曲入っている。SpotifyでもGoogle Musicでも聴ける。多分、Apple Musicでも。(Apple Music、やめようとして色々いじったが、うまくいかず、結局、やめ方中途半端なまま、課金だけされて、Androidでは聴けなくなってしまった。ヒドイ。) 「センチメンタル・ジャーニー」や「スター・ダスト」なんか懐かしい気になる。いいかも。と、思うところもあるのだが。でも、なんか引っかかる。 ボブ・ディランが、気分は、シナトラになっている。歌はヘタだけど。僕の好きなエイミーもガガも、スタンダード・ナンバーをトニー・ベネットとデュエットをしているのだが、ボブ:ディランは、一人で出来上がっている。カラオケで、おじさんが持ち歌の「マイ・ウエイ」を、上手に得意げに歌っているのを聞いたのに似た気分になる。 最近のディランのインタビューを読んで、さすがだな、鋭いな、なかなか面白いなとも思ったのだが、スタンダードへの回帰というが、多分、彼は、新しい詩を作ることがもうできないのだろう。(ノーベル文学賞をもらったのにね) ジョン・レノン、ボブ・ディラン、ポール・マッカトニーは、それぞれ一つ違いの、ほぼ同じ世代だ。そう思うと、この中では、一番若いとはいえ、ポールの元気さは、すごいと思う。 でも、待てよ。 人は誰でも歳をとる。どんな歳のとりかたをしようが、ボケようが、それを他人がとやかくいう必要はないと思う。余計なお世話だ。半分、ボケが入っている自分が言うのも、なんかおかしいが。 そうだ。10年もしないうちに、彼らと同世代になって、新しいことについていけなくなったら、リーマンとかアインシュタインの話をしよう。その前に、もっとボケるって? 余計なお世話だ。 ボブ・ディランさん、ごめんなさい。お元気で。

April Fool

数学には、まだ解けない問題が沢山残っている。 そうした問題の中に、もし、その問題が解ければ、すべての数学の難問を証明することができるという特別な問題がある。 解くのはとても難しく、誰も成功していないのだが、定式化は簡単である。「0 = 1 を証明せよ!」これである。 世界のクレージーな数学者の何パーセントかは、この究極の問題に取り組んでいる。 僕は数学者なのだが、最近、プログラム言語の勉強を始めた(数学だけじゃ、生活できないからね)。 そしたら、驚いた。 この世界では、x = x + 1 という式は常識らしい。これって、0 = 1 だよね。プログラムの世界は、僕が思っていた以上に、ぶっ飛んでいるようだ。 誰かが言っていた。「世界中の数学者の収入を全て合わせたものより、Googleトップの一人の収入の方が大きい」と。 世の中は不公平なものかもしれないのだが、それだけではないと思う。Googleは、きっと、数学の最終問題 “ 0 = 1“の証明を、密かに完成させているのだと思う。