投稿

2017の投稿を表示しています

ABC 2017s で登壇しました

イメージ
今日は、僕と古川くんの、ほぼ50歳のとしの差コンビで、ABCに登壇。僕が、人工知能の歴史の話をして、そのあとで、古川くんがMaruLaboの活動をアピール。 僕の写真のスライドは、ほぼ50年前の、ロビンソンのResolutionの話のところ。僕が今の古川くんより若かった頃、登場した理論。(僕にも、そんな時代があったのですよ)でも、はっきり覚えている。
現在のCOQやAGDA の基礎は、このあたりにあるのだけれど。(もちろん、80年代の「第五世代コンピュータ」も) 古川くんのスライド、写真拡大できたら、読んで見てください。

セミナーの集客は難しい

セミナーの集客は難しいなと、つくづく思う。 6月18日にミスルトさんと企画している「人工知能と私たちの未来」第一回「子育てママ」編のことだ。 告知を始めて2週間経つのに、50人定員に10人も集まっていない。マルレクの方は、2時間で150人を超え、2日で180人もの申し込みがあったのに。 平日10時終了のセミナーを、日曜の昼の時間に変更したのだが、反応は薄い。一番の理由は、多分、僕のこれまでの活動と、「子育てママ」さんたちとは、ほとんど接点がないことだと思う。あるいは、AIへの関心は、一般には(IT企業を含めて)、意外と薄いのかも。 今度は、テーマとターゲットを少し拡大して、「子育て教育」編にして、男性の参加も訴えようと思う。パパ・ママでも、孫の教育でもいいやと思う。 http://ailife201701a.peatix.com/ それにしても、マルレクに来る人たちとでも、「子育て教育」の話題で議論したことないもんな。 昨日は、MaruLaboの第一回社員総会・懇親会の後、Kinkosで、チラシを印刷する。28日のABCと、31日のマルレクの会場で配ろうと思う。これも、いつも、ネットで情報を共有してきたのだが、アナログなメディアも、もしかしたら、訴求力があるのかもと思うから。やはり、あまのじゃくなのかも。 もともと、新しい人たちとの接点を作りたいという気持ちから始めたものだったのだが、それは、簡単ではないんだな。また、今までしてこなかったことをするのは、難しいんだな。当たり前かも。 まあ、いいか。 せっかく始めたことだから、ジタバタしながら、もう少し頑張ります。「子育て教育」編の企画、ぜひ、お知り合いにお伝えください。

マルレク ネット配信はじまる

前々回のマルレク「RNNとLSTMの基礎 -- Sequence to Sequence --」を、Crash Academyさんから公開してもらいました。ご利用ください。https://crash.academy/class/66/
前回のマルレク「Googleニューラル機械翻訳」も公開予定です。
これから、マルレクのコンテンツは、有料500円ですが、Crash Academyさんの協力で、全国どこからでも聴講可能になると思います。ご期待ください。
資料の公開はこれまで通り続けます。
今後とも、マルレクとMaruLabo よろしくお願いします。

くじ引き

昨日、講演の帰り、セブンイレブンでカートンでタバコを買ったのだが、また、くじを引けという。ガリガリくんで、前の日、苦労したので、今度はお酒を選ぶ。
大当たり。ロング缶6本セットをはじめ、ロング缶8本、ショート缶3本、計9本をゲット。溶ける心配はないけど、重いじゃないか。
自分の人生、運に恵まれていると思ったことはないが、くじ運だけは、妙に強い。運を無駄なことに使っているのかな?
振り返ると、「進むべき道」を自分で選択すると、僕は、大抵、変な選択をするのだが、くじ引きで決めればよかったんじゃないかな?
まあ、いいか。
誰かが、「選挙」で代表を選ぶのをやめて、「くじ引き」で代表を選べばいいと書いてあったことを思い出す。古代ギリシャにも昔の日本にも、そうしたスタイルがあったらしい。

ガリガリくん

中華でも食べようと外に出たのだが、近くのお店が「店舗改装中」で臨時休業。ちょうど来たバスに乗って高田馬場まで出る。
ピザでも食べようと、駅前の「Oyster & Pizza」の店に入ったら、ランチメニューからピザが消えていた。まあ、しょうがない。
セブンイレブンでちょっと買い物をしたら、クジが一つひけるという。アイスの「ガリガリくん」が一本当たる。
困ったな。
バス乗って家帰る頃には、溶けちゃうじゃん。他の用事も済ませようと思っていたのだけど、予定全部やめて、一路帰ることに。
こんな時に限って、バスがこない。
急いで、タクシー乗って帰ろうとも思ったが、一本100円?のアイスのためにタクシー代払うの変じゃない? と踏みとどまる。
バスに乗って家に帰ると、大丈夫。アイス、溶けてはいない。意外と持つんだね。
予想外のこともあったけど、アイスをゲットして、今日は、いいことあったことにしよう。あとは、冷凍庫にアイス入れたこと、忘れないことだ。

パワポに数式を貼るの嫌になる

イメージ
blogを始めた理由の一つは、Facebookでは数式がうまくかけないことだった。Web上のblogならLaTexが使える。

ただ、他にも面倒なことがある。それは、blogとプレゼン用のパワポと数式の入力方法が異なること。同じ式を二通りの方法で入力するのは面倒くさい。

皆、考えることは同じなのか、昨日、ネットを探したら、LaTexの表記をパワポに貼り付けるツールをいくつか見つける。ただ、有名そうなTexPointというのをインストールしようとしたのだけど、うまくいかない。2011年を最後に更新が止まっている。他のも、Macのパワポには対応していないようだ。

結局、日本製のTexClipというのを使おうということに。これは、うまく動いてくれた。昨日は、そこまで。

今日、DNC論文の実装解説部分をスライドにする作業を始める。

最初は、DNCのコントローラとなるLSTMの数式での表現。以前のマルレク用にLaTexで書いたことがあるので、これは楽勝。LSTMが多段になって、入力の連結部分が一つ増えただけだから。


今日は、スマホの液晶部分がはがれ始めたり(バッテリーが膨らんだのだと思う)、ネットバンキングがパスワードカードとの連携がうまくいかずロックされたり、イベントがらみでも色々あって、忙しかったのだが、雑用終えて、続きの仕事をしようとしたら、急にやる気がなくなった。

きっかけは、次の式。


式というより、変数が並んでいるだけなので、LaTexに落とすのは難しくない。でも、やる気が出ない。この作業に意味があるのかと考えてしまう。(もっと、気分的なものだけど) この式、簡単なことを、難しく表現しているだけなのだから。スライドに載せる意味はないと思う。

DNCのソースでは、こうなる。


こっちの方がずっとわかりやすい。https://github.com/deepmind/dnc/blob/master/access.py

TensorFlowのソースは、ごちゃごちゃして読みにくいものが多い。ただ、このDNCのソースは、とてもキレイ。感心する。

コメントを見ると、次のように変数は、LaTex表記になっている。
# v_t^i - The vectors to write to memory, for each write .... 実際の変数名は違うのだけど、これも、とても、わか…

ABC 2017 Spring 「人工知能の歴史を振り返る + MaruLaboの活動について」

5月28日、高輪の東海大学で行われる日本Androidの会のイベント ABC 2017 Spring で、Androidの会学生部とMaruLaboの主催でセッションを持ちます。

トピックは二つあります。

一つは、これからAI技術を学ぼうとする学生・IT技術者を対象に、人工知能研究の歴史を振り返り、現在の到達点のオーバービューと将来の課題について講演します。

「今、AIに何ができるのか?」あるいは、同じことですが、「今、AIに何ができないのか?」を正確に知ることは、「バラ色」でも「暗黒」でもないAIの未来を考える上で大事なことだと思っています。

もう一つのトピックは、未来のAI技術の担い手である学生たちが、今、何を準備すべきか、また、我々大人の世代が彼らにどういう支援ができるのかということに関連しています。

学生がAI技術を学ぼうとする上で、大きな問題の一つは、AIを学習・研究する上で必須のハードウェア環境が、多くの大学では十分に整備されていないことです。

MaruLaboは、意欲のある学生に無償でAIの学習・開発環境を提供することを目的としています。つい先日、MaruLaboはは、一般社団法人としての認可を受けました。セッションでは、MaruLaboの今後の活動について報告し、支援を訴えたいと思います。

多くの皆様の来場を期待しています。

------------------------------------------------
ABC 2017 Spring 「人工知能の歴史を振り返る + MaruLaboの活動について」
------------------------------------------------

 日 時:5月28日 15:00 - 15:45
 場 所:東海大学高輪校 4202番教室

 講 演:
  「人工知能の歴史を振り返る」 丸山不二夫
  「MaruLaboの活動について」  古川新

 申し込みサイト:https://goo.gl/KRzRE1

トーク・セッション・シリーズ 「人工知能と私たちの未来」について

最近、AIをめぐる自分の議論が少し専門的になりすぎているように感じています。それはそれで必要なことだとも思っているのですが。

ただ、いろんな人に、もっとAIのことを知ってもらえればいいなと思っています。

今度、孫泰蔵さんの会社Mistletoe(「ミスルト」と読みます)さんの主催で、「人工知能と私たちの未来」というトーク・セッションをシリーズで開催することになりました。

「マルレク」はIT技術者、「MaruLabo」は学生をターゲットにしているのですが、今回の取り組みは、一般の人(これも変な言い方かもしれませんね)を対象にしています。

僕の講演の後に、みんなで一時間ほど議論しようというものです。トークの司会は、西村真里子さんが担当します。

第一回は、「子育てママ」を対象にした「子育てママ」編です。
第二回は、「起業家」編
第三回は、「デザイナー」編と続きます。

あまり、普通の人にAIの話をしたことないし、「子育てママ」とは、縁もゆかりもないので(昔「主夫」してましたが)、うまくいくのか心配ですが、生暖かく見守ってもらえればと思います。

興味のある方、ぜひ、ご参加ください。
お申し込みは、次のサイトから。http://ailife201701a.peatix.com/

---------------------------------------------
トーク・セッション・シリーズ 「人工知能と私たちの未来」
第一回「子育てママ」編
---------------------------------------------

 日 時:2017/06/18 (日) 13:00 - 16:00
 場 所:STRATUS TOKYO -Mistletoe Base Camp Tokyo

 定 員:50名
 参加費:1,500円

 講 演:丸山不二夫
 司 会:西村真里子

 概 要:

人工知能技術は、私たちの生活を大きく変えるポテンシャルを秘めています。その変化の波は、今後、何世代かに渡って持続し、社会のあらゆる分野に浸透する可能性があります。

大事なことは、私たちは、人工知能技術の最初の立ち上がりの時期に立ち会っているということです。現在の私たちが、この技術にどう受け入れていくかが、この技術と私たちの未来を決めていくのかもしれません。

Mistletoeが主催するこ…

可微分ニューラルコンピュータとは何か?(3)実験の課題

イメージ
システム概論(続き)







総合的な質問に答える実験我々の最初の実験では、質問応答を実行するDNCの能力を調査した。 DNCと他のニューラルネットワークアーキテクチャを比較するために、bAbIデータセットを検討した。これには、テキスト推論の側面を真似るように設計された20種類の総合的な質問が含まれている。
データセットは、短い「ストーリー」スニペットとそれに続くストーリーから推測できる答えの質問から構成される。例えば、「ジョンはグランドにいます。ジョンはフットボールをピックアップしました」というストーリーに続いて「フットボールはどこにありますか?」という質問に、グラウンド」と答えには、 システムは2つの裏付けの事実を組み合わせる必要がある。「羊はオオカミを恐れています。」「ガートルードは羊です。」「ネズミはネコを恐れています。」「ガートルードは何を恐れているのですか?」(答え、「オオカミ」)では、基本的な演繹能力(および引っ掛けへの耐性)をテストする。
我々は、1つのDNCを、それぞれにつき10,000のインスタンスを持つ20種類の質問タイプを、すべて一緒に訓練を行い、2種類の質問に対して、タスク失敗(> 5%エラーと定義)で3.8%の平均テストエラー率を達成できることを発見した。 7.5%の平均誤差と6回の失敗したタスクが、過去の最高の学習結果であった。
我々はまた、DNCがLSTM(現在のところ、ほとんどのシーケンス処理タスクのベンチマークとなっているニューラルネットワーク)とニューラルチューリングマシンの両方よりも優れた性能を発揮することも発見した。

グラフ実験 このような文章は、グラフの形式で簡単に表示することができる。たとえば、”John is the playground”は、2つの名前付きノード、’Playground’と ‘John’、名前付きエッジ ‘Contains’によって接続されている。この意味で、多くのbAbIタスクにおける命題で表現される知識は、基礎となるグラフ構造上の制約のセットと同等である。
実際、機械学習が直面する多くの重要なタスクには、解析木、ソーシャルネットワーク、知識グラフ、分子構造などのグラフデータが関係している。したがって、次にランダムに生成されたグラフについて一連の総合的な推論実験を行う。 
bAbIとは異なり、グラフの…

量子論と相対論の統一としての ER = EPR

イメージ
現代の物理学の大きな課題が、量子論と相対論の統一にあることを知っている人も多いと思う。ある人は、"Super String Theory"が「万物の理論」として成功していると思っている。また、ある人は(僕もそうだったのだが)、String Theoryに対抗する「量子ループ重力理論」に期待を寄せていた。

ただ、物理学の統一をめぐる、こうした対立図式は、今ではいささか古いものになろうとしている。前世紀末のマルデセナによるAdS/CFT対応の発見によって、量子論と相対論の統一の新しい切り口が開かれた。マルデセナはサスキンドと共に、前稿で紹介した2013年のER = EPR論文を発表する。

ER = EPR理論が主張していることは、ブラックホールを結ぶ 「Einstein-Rosenブリッジ」が存在して(ER)、それが、素粒子の「量子エンタングルメント」(EPR)と等しいということ。


この図は、サスキンドの論文 "Copenhagen vs Everett, Teleportation, and ER=EPR" https://arxiv.org/pdf/1604.02589.pdf からのもの。

ER = EPRの左辺ERは重力理論(相対論)を、右辺EPRは量子論を表していると思えば、ER = EPR理論が、両者の統一理論だということはわかりやすいかもしれない。

サスキンドの議論はわかりやすい。「難しい数学を使わなくても、高校生にでもわかる数学で、物理は説明できる」とどこかで言っていた。立派なことだ。

サスキンドのわかりやすい論文があったのだけれど、なぜか今日は見つからなかった。
論文を読まなくても、サスキンドの次の二つのビデオがER = EPRの入門にはいいと思う。

"ER = EPR" or "What's Behind the Horizons of Black Holes?" - 1 of 2 https://goo.gl/UtdSkr"ER = EPR" or "What's Behind the Horizons of Black Holes?" - 2 of 2 https://goo.gl/JaKHNf
ER = EPR…

ER=EPR

イメージ
アインシュタインは、先のEPR(Einstein, Podolsky, Rosen)論文を5月に公開してすぐに、ローゼンと一緒に、次の論文を公開する。1935年7月のことだ。この論文をER論文と呼ぶことがある。

"The Particle Problem in the General Theory of Relativity" 「相対性の一般理論における粒子の問題」 https://goo.gl/KG4mjp

一般には、二つのブラックホールを結ぶ「橋」が存在しうることを発見した論文だと言われている。この「橋」は、"Einstein-Rosen Bridge" と呼ばれる。別名「ワームホール」とも呼ばれる。(ただ、"wormhole" でWeb をググっても、あまりスジのいい情報は引っかからない。)


1935年に、アインシュタインは、「エンタングルメント」(ただし、パラドックスとして)と「ワームホール」を発見しているのである。ほぼ同時期に行われた、この二つの発見に何か関連があるのだろうか? 

80年前になされるべきこうした問いかけを、現代に蘇らせたのは、マルダセナ(Maldacena、AdS/CFT 対応の発見者)とサスキンド(Susskind)だった。2013年の論文 "Cool horizons for entangled black holes"  https://goo.gl/wU1pKK で、二人は、大胆な仮説を提示する。

「二つのブラックホールの間のアインシュタイン・ローゼン・ブリッジは、二つのブラックホールのミクロな状態のEPR状の相関関係(エンタングルメント)によって生成される。 ...  我々は、これを ER = EPR 相関関係と呼ぶ。別の言葉で言えば、ERブリッジは、その中では、量子システムに関連するEPRが、アインシュタインの重力の記述に弱く結合している特殊なタイプのEPR相関関係なのである。」

要するに、1935年にアインシュタインが発見した「エンタングルメント」と二つのブラックホールを結ぶ「アインシュタイン・ローゼン・ブリッジ」は、スケールが全く違うのだが同じものだというのである。これを、「ER = EPR仮説」と呼ぶ。


この図を掲載している、Natureの2…

EPRパラドックス

イメージ
「神はサイコロを振らない」 

アインシュタインが、量子論に懐疑的だったことは、よく知られていると思う。もっとも、彼がこうしたアプリオリな哲学的立場から量子論を批判したと思うのは、正しくないと思う。今日紹介する論文でも、彼は、明確に次のように述べている。

「物理的実在の基本原理を、アプリオリな哲学的思索によっては決定することはできない。それは、実験と観測の結果に訴えることで見出されなければならない。」

"Can Quantum-Mechanical Description of Physical Reality Be Considered Complete ?" 「物理的な実在の量子力学の記述は、完全なものと考えることができるか?」 https://goo.gl/qAWacP

量子論の否定は、現在の我々の目から見れば、明らかに、アインシュタインの「誤り」と言っていいものだが、彼が量子論の中に見つけた「矛盾」は、当時の物理学者の誰も気がつかなかった深いものだった。

1935年に、アインシュタインとポドルスキーとローゼンは、概略、次のような思考実験を論文として発表する。(前述の論文。三人の著者の頭文字をとって、EPR論文と呼ばれることがある。)

ある系 I と、ある系 II とが、時刻 t=0 から t=T の間に相互作用するとする。ただし、t > T 以降は、二つの系には相互作用がないとする。量子力学に従えば、シュレディンガーの波動方程式 Ψ で、結合された系 I + II の状態を、全ての時間に渡って計算できることになる。単純な例として、二つの系を二つの粒子 x1とx2 だと考えてみよう。その時、Ψ(x1 , x2) で、二つの粒子からなる系の状態を計算できる。

今、系 I の粒子 x1の運動量を観測して運動量 p を得たとする。量子力学によれば、粒子の粒子の運動量の値は、観測によって粒子の状態を記述する波動方程式が収縮することによって初めて確定する。ところが、この収縮したΨをよく見ると、系 II の粒子x2の運動量が -pで与えられることが、計算でわかる。実際に系 II で、粒子 x2 の運動量を観測しても、計算どうりに、-p を得るだろう。

同様に、系 I の粒子 x1の位置を観測して位置 q を得たとすると、この観測によって収縮した…

残雪、ミズバショウ

イメージ
もちろん、街からは消えているが、車で少し走ると、雪が残っている。雪のはじっこに、フキノトウが顔を出している。 でも、稚内のこの季節、一番元気がいいのは、ミズバショウだ。いたるところに群生して、白い花を咲かせている。


MaruLabo Inc. 設立

イメージ
今日、学生のMaruLaboの活動を支援する一般社団法人 MaruLabo Inc. の書類が法務局で受理されました。 僕と Jun Yamada さんが理事に、監事に 井上 準二 さんが就任します。設立時社員は、MaruLabo管理者の 古川新 君です。 四人だけの小さな出発です。 Mistletoeの 孫 泰蔵 (Taizo Son) さんが、MaruLabo Inc. にオフィスを提供してくれました。また、Mistletoeの 藤村 聡 (Satoshi Fujimura) さんに、設立事務に全面的に協力していただきました。
一般社団法人MaruLabo の目的は、次のようになっています。
---------------------------------------------
当法人は、学生・IT技術者の中で広く新しいAI技術の普及を推進し、特に学生によるAIの研究と開発を支援し、学生の所属組織と進路選択に関わらずAI時代のイノベーションの担い手となる個人を育成することを目的とする。 その目的に資するため、次の事業を行う。
1. 学生に対して、ディープラーニング技術の開発・学習環境を無償で提供する。
2. 学生の所属組織を超えたバーチャルな研究室として “MaruLabo”を運営する。
3. 学生・IT技術者向けのセミナー/コンテスト等のAI技術の啓蒙・普及活動。
4. MaruLabo所属の学生とIT技術者、研究者、企業との交流活動。
前各号に附帯又は関連する事業
---------------------------------------------
MaruLabo登記簿謄本 https://goo.gl/ae2unW

大阪での6時間集中講義

イメージ
大阪でのイベント、乗った新幹線は新大阪が終点だった。いくら寝ていても大丈夫。主催者が機転をきかせてくれて、待ち合わせ場所を、僕には難易度の高い大阪駅改札口から、新大阪駅改札口に変更してくれて、なんなく待ち合わせに成功。タクシーで会場に移動。
ハプニングは、「梅田は、大阪に住んでいても難しい」と言っていたタクシーの運転手さんが、行き先を間違えて、関西大学ではなく大阪工業大学の梅田サテライトに連れて行かれたことぐらい。それも、すぐ近くだったので問題なし。
セミナー開始の1時間以上前に、新しいキレイな広い会場に着く。案ずるより生むが易し。
名物だという551蓬莱の豚饅を差し入れられる。美味しかった。
セミナーは盛況だった。100名定員で締め切った後も問い合わせが多かったらしく、増席して130名で開催。東京より多い。
セミナーが終わった後、同じ建物内で開催中だった、NASA主催の"Space Apps Challenge Osaka 2017" https://goo.gl/BHHDP5 を覗きに行く。知っている人に見つかって、挨拶させられる。
東京でのマルレク、MaruLaboの活動を、大阪でも知っている人が多く、嬉しかった。

次回マルレクは、5月31日 KDDIさんで開催です

イメージ
次の要領で次回のマルレクを開催します。  日 時:5月31日 19:00-21:00
 場 所:KDDI本社会議室(飯田橋)  定 員:150名
 参加費:1,000円(個人協賛会員は無料です)
 申 込:個人協賛会員 5月17日 12:00から
     一般     5月24日 12:00から  講 師:丸山不二夫
 テーマ:「ニューラル・コンピュータとは何か?」  概 要: 現在のニューラル・ネットワークのモデルは、基本的には、次の三種類です。  ・DNN (Deep Neural Network: Full Connect Perceptron )
 ・CNN (Convolutional Neural Network )
 ・RNN (Recurrent Neural Network ) ここにきて、第四のモデルとしての「ニューラル・コンピュータ」に注目が集まっています。 それは、画像認識が得意なCNNや、自然言語処理のようなSequence to Sequenceの処理が得意なRNNのように、特定の課題にフォーカスしたモデルではなく、むしろ、外部メモリーを活用する現在のコンピュータのアーキテクチャーそのものを、ディープ・ラーニング技術の知見を生かして拡張しようとする意欲的なものです。 興味深いのは、そのアーキテクチャーが挑戦している課題は、上記の三つのモデルでは解くのが難しかった、ヒューリスティックな、あるいは、論理的な「推論」を機械に実行させることです。
講演では、GoogleのDeepMind チームがNatureに公開した論文の解説を行います。 次の資料を参照ください。
「可微分ニューラルコンピュータとは何か(1) 概論」http://maruyama097.blogspot.com/2017/03/blog-post_17.html
「可微分ニューラルコンピュータとは何か(2) システム概観」http://maruyama097.blogspot.com/2017/03/blog-post_18.html

Google翻訳のアーキテクチャー(4) Wordpiece

Segmentation Approaches
Neural Machine Translation models often operate with fixed word vocabularies even though translation is fundamentally an open vocabulary problem (names, numbers, dates etc.). There are two broad categories of approaches to address the translation of out-of-vocabulary (OOV) words. One approach is to simply copy rare words from source to target (as most rare words are names or numbers where the correct translation is just a copy), either based on the attention model [37], using an external alignment model [31], or even using a more complicated special purpose pointing network [18].
Another broad category of approaches is to use
sub-word units, e.g., chararacters [10], mixed word/characters [28], or more intelligent sub-words

ニューラルマシン翻訳モデルでは、名前、数字、日付といった、基本的には辞書にないオープンな語彙の翻訳であっても、固定した語のボキャブラリで動作することがよくある。

語彙外(OOV : Out Of Vocaburary )単語の翻訳に対処するアプローチには、大きく2つのカテゴリーがある。

 1つのアプローチは、珍しい単語を、ソースからターゲットへの単純にコピーすることである。(珍しい単語の大部分は、名前や番号で、それらに対しては、コピーが正しい翻訳になる。)あるいは、アテンション・…

Quantizable Model and Quantized Inference

One of the main challenges in deploying our Neural Machine Translation model to our interactive production translation service is that it is computationally intensive at inference, making low latency translation difficult, and high volume deployment computationally expensive. Quantized inference using reduced precision arithmetic is one technique that can significantly reduce the cost of inference for these models, often providing efficiency improvements on the same computational devices. For example, in [43], it is demonstrated that a convolutional neural network model can be sped up by a factor of 4-6 with minimal loss on classification accuracy on the ILSVRC-12 benchmark. In [27], it is demonstrated that neural network model weights can be quantized to only three states, -1, 0, and +1

インタラクティブな製品版の翻訳サービスにニューラル機械翻訳モデルを導入する際の主な課題の1つは、推論時に、計算が集中して、低遅延の翻訳が難しく、高価な計算装置を大量に配置することが必要になることである。
精度の低い算術演算を使用した量子化された推論は、これらのモデルの推論のコストを大幅に削減することができ、同じ計算装置で効率を改善する1つの手法である。
例えば[43]では、ILSVRC-12ベンチ…

「ニューラル・コンピュータ」の基本文献

ニューラル・コンピュータの基本的な論文は、GoogleのDeepMindチームがNatureに発表した Alex Graves et al. "Hybrid computing using a neural network with dynamic external memory" なのだが、Nature論文は有料でしか読めない。https://goo.gl/vWHbwd お金を払ってから気づいたのだが、First AuthorのGravesが、ちゃんと自分のところで論文を公開していた。( 1,800円払う必要なかった。失敗した)https://goo.gl/r4g5xt Natureに掲載された本文自体は、短いもので、DNGで何ができるか事例をたくさんあげたもので読みやすいのだが、DNCの働きについては、これだけでは、よくわからない。 実は、先の論文の後半の "Method"というセクションが、DNCのキモの部分を詳しく述べている。ただし、前半とは違って、かなり難しい。(今度のマルレクで解説する) Method部分の理解のためには、Gravesらが以前に発表していた、"Neural Turing Machine" という論文を読むのがいいと思う。https://arxiv.org/pdf/1410.5401.pdf (そのうち、翻訳する。Google翻訳は、そのままでは使えないのだが、下訳としては、とても役に立つ。) Neural Turing Machine (NTM)が、やってみたことは、メモリーのコピー操作や連想記憶を機械に「学習させる」という、Nature論文の事例と比べると地味なものだが、コンピュータの機能としては基本的なものだ。(プログラムでメモリー・コピーを書くのではなく、学習によってコンピュータにコピーができるようにするというアプローチは、とても面白い。) もう少し、一般向けの「可微分ニューラルコンピュータ」の解説は、DeepMindのblogの次の記事だ。"Differentiable neural computers" https://goo.gl/2JjDm2 こちらは、Nature論文の前半部分の解説になっている。 Natue論文の前半の一部は、翻訳してある。 …

March for Science

イメージ
昨日の4月22日、ワシントンDCで "March for Science(科学のための行進)" が行われ、多数の市民・科学者が参加したようだ。


4月22日は、70年代に全世界に広がった環境保護運動の出発点となった 1970年の"Earth Day (地球の日)"が行われた日だ。

BrainPickingのMaria Popovaが、この"March for Science"で朗読されたJane Hirshfieldの "ON THE FIFTH DAY"という詩を紹介している。 https://goo.gl/YzUNHX


 On the fifth day
 the scientists who studied the rivers
 were forbidden to speak
 or to study the rivers.

 The scientists who studied the air
 were told not to speak of the air,
 and the ones who worked for the farmers
 were silenced,
 and the ones who worked for the bees.

 Someone, from deep in the Badlands,
 began posting facts.

 The facts were told not to speak
 and were taken away.
 The facts, surprised to be taken, were silent.
 ....

「五日目に」というのは、トランプが大統領に就任して五日目に、従来の環境保護政策を、180度転換させたことをさすのだろう。

"Science Not Silence (沈黙ではなく科学を)"というコピーも、気が利いていると思う。


語呂合わせでいうと、Mariaは、この4月24日にも、"The Universe in Verse: A Celebration of Science through Poetry (「詩の中の宇宙:詩を通じて科学を祝福する」)" と…

公証人役場

昨日、公証人役場というところに初めて行ったのだが、変わった経験をした。

老齢の 婦人と付き添いの中年の男性が、 公証人(というんでしょうね)に呼ばれて、彼の前に。

ここに二人が 来た理由は、すぐにわかった。
公証人「私が読みあげますので、文書を確認ください。」
と言って、彼が読み上げたのは、彼女の遺言状だった。

おいおい。

彼女の所有する不動産、銀行預金、家族構成、誰に何を残すのか、詳しく全部きこえる。(遺言状なので当然だが)

公証人役場といっても、個室などなく、狭くて、胸までの間仕切りで区切られているだけ。普通に話していても、部屋中に聞こえる。

とっさのことで、聞きたくないと部屋を出ることも、読み上げをやめろということもできなかった。どうすればよかったのか、今でも、よくわからない。

問題は、彼女のプライバシーやセキュリティの問題だと思うのだが、 一番の問題は、公証人にそうした問題意識が全くないことじゃないかな?

公証人役場で遺言状作るのやめよう。もっとも、残すべき財産がないので、遺言の必要も僕にはないのだが。

別の女性は、書類の不備を公証人に罵倒される。顔を真っ赤にして抗弁する彼女の話を聞けば(だって、聞こえるんだもん)、先に相談した別の公証人が是とした処理を、今日の公証人はダメだといっているようだ。

僕らの手続きは、秘密をバラされることも(嘘です。なんの秘密もありません)、罵倒されることもなく、すぐに終わった。

6時間集中講義「自然言語とニューラルネットワーク」

イメージ
今週末の4月22日、角川ASCIIさんで開催する 6時間集中講義「自然言語とニューラルネットワーク」の講演資料です。ご利用ください。

 第一部 概説 自然言語と人工知能 https://goo.gl/Hx4maJ
 第二部 RNNとLSTMの基礎    https://goo.gl/aAmyfC
 第三部 Googleニューラル機械翻訳  https://goo.gl/m1yMb0

基本的に、言語について取り上げてきた、この間の4回+アルファのマルレクの講演を3回にまとめたものです。

計算が合わないのですが、第一部が、再構成・一部加筆され、結果、頭でっかちになっています。第二部・第三部は、マルレクの資料と同じものです。

長いので(スライド 700枚近くあります)、本当は、聴きにいらしてもらうのが一番いいのですが .....



現代物理の俯瞰図

イメージ
先に、一般相対論と量子情報理論を中心に置いた Susskind の次のような物理学の俯瞰図を紹介したが https://goo.gl/nqXwZn 、こうした絵解きはいくつかある。


次の図は、去年11月のバークレーでのパネル "Our Quantum Society: Living with Entanglement" https://goo.gl/aWtAzi で Cathryn Carson 女史が与えたもの。
この間見てきたスライドでは、指折りのテキトーなものなのだが、気分は伝わる、(これ、アニメなんです。Youtubeはこちら https://goo.gl/j7bE57


ポイントは、パネル自体の名称がそうなのだが、Entanglement という現象と、きちんと向き合わなければ、いけないということ。同じ量子的な現象としての Superposition が、波の重ね合わせとして比較的容易に表象できるのに対して、Entanglement はそうではない。ただ、Entanglement は、奇妙な例外的な事象ではなく、今や、物理学の基礎そのものになろうとしている。

その点では、EntanglementのEntropyを、初めて定式化した、我らが高柳博士の物理の俯瞰図は、きちんとしている。「重力理論と量子エンタングルメント」https://goo.gl/kRPcNI

量子情報理論が、量子論・重力理論と並んで、物理学の三本目の柱になるという見通しである。


It From Qubit

イメージ
物理学は、今、大きな変革期を迎えているようだ。

その特徴は、物質・時空の理論だった物理学が、情報の理論と結びつこうとしていることだと思う。

先月の3月20日から22日にかけて、 "Computational Complexity meets Quantum Gravity." をスローガンに掲げて、Stanford大学で開催された "It-From-Qubit Complexity Workshop" https://goo.gl/1QgloA は、そのことを強く印象付ける、とても刺激的なものだった。

こうした研究の方向を推進している一人が、Susskindである。以前にリンゴをかじって講義している先生として紹介したのだが、本当はエライ人なのだ。

図は、2015年の彼の講演、"Entanglement and Complexity: Gravity and Quantum Mechanics" https://goo.gl/J0wSkf からとったものだが、様々な問題領域の中核に、一般相対論と量子情報理論の二つがあることが強調されている。

量子論と相対論の統一については、String TheoryやQuantum Loop Gravity など、いくつかの取り組みがあるのだが、その枠組みを、量子情報理論を加えて拡大しているのが、ミソである。

Erik Verlindeのエントロピー的重力理論や、日本の笠・高柳のエンタングルメントのエントロピーの定式化も、こうした流れの重要なトピックになる。

Aaronsonのblogを見たら、3月のStanfordでのWorkshop、Googleのセルゲイ・ブリンも聞きに行っていたらしい。


TPU論文の翻訳(2)

イメージ
6. エネルギーの比例性
ハードウェアがフルパワーのときに、十分な電力と冷却を供給する必要があるため、TDP(熱設計電力)は供給電力のコストに影響する。ただし、この電力料金は、作業負荷が日中に変動するために消費される平均に基づいている。 [Bar07]は、サーバーが時間の10%未満で100%ビジーである時には、サーバーは、実行された作業量に比例した電力を消費する必要があるという比例性を発見したとしている。前章での消費された電力の見積もりは、Googlデータセンターで見られたTDPの割合に基づいている。

提供されたワークロード使用率が0%から100%まで変化し、ワークロードの10%デルタのバケットで収集された場合のパフォーマンスと電力を測定した[Lan09]。図10は、CNN0のワークロードを変化させることによって、3つのチップのサーバーあたりのダイの数をサーバーの数で割ったものである。 GPUとTPUの増分(K80とTPU)と合計電力(K80 + Haswell / 4とTPU + Haswell / 2)をプロットしている。すべてに同じバッチサイズが与えられていることに注意。


図10 図10.ターゲットプラットフォーム使用率が0%から100%まで変化する時のCNN0のワット/ダイ。 Total GPUとTPUのパワーは赤とオレンジのラインで、Incrementalパワーは緑と紫のライン。サーバは2CPU、8GPUまたは4TPUを持っているので、それぞれ2,8、および4で割って正規化している。


TPUはダイ全体で最低118W(TPU + Haswell / 2)、ダイごとに40W(図10ではTPU)だが、エネルギーの比例性は低い。10%の負荷でTPUは、100%負荷の時の88%の電力を使っている。 (短い設計スケジュールにより、多くの省エネ機能が組み込まれていなかった。)

当然のことながら、Haswellはグループの比例比で最高である。10%の負荷の場合、100%負荷の56%の電力を使用する。 K80はTPUよりもCPUに近く、10%の負荷で全負荷電力の66%を使用する。計算上の境界ではないLSTM1も同様に動作する.10%の負荷では、CPUはフルパワーの47%を使用し、GPUは78%を使用し、TPUは94%を使用する。

アクセラレータのホストになる場合、CNN0を実…