可微分ニューラルコンピュータとは何か(1) 概論

ニューラルネットワークの最前線


Googleニューラル機械翻訳も素晴らしいのだが、ニューラルネットワークの世界では、さらに大きな変化が進行中である。その最前線と言っていいのが、去年の10月に、GoogleのDeepMindチームが、Nature誌に発表した次の論文である。

Alex Graves et al. "Hybrid computing using a neural network with dynamic external memory" https://goo.gl/r4g5xt

ニューラルネットワークに、動的に外部メモリーへのアクセスを可能にすることによって、ニューラルネットと従来のコンピュータのハイブリッドのシステムを提案している。

以下に、この論文の概論部分を翻訳してみた。

動的外部メモリーを持つニューラルネットワークを利用したハイブリッド・コンピューティング


Alex Graves, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez Colmenarejo, Edward Grefenstette, Tiago Ramalho, John Agapiou, Adrià Puigdomènech Badia, Karl Moritz Hermann, Yori Zwols, Georg Ostrovski, Adam Cain, Helen King, Christopher Summerfield, Phil Blunsom, Koray Kavukcuoglu & Demis Hassabis

人工のニューラルネットワークは、感覚の処理、シーケンスの学習、強化学習には、極めて熟練しているのだが、変数やデータ構造を表現したり、長い時間のスケールでデータを格納する能力には限界を持っている。そうした限界は、ニューラルネットワークが、外部メモリを持たないことによるものだ。

この論文で、我々は、「可微分ニューラル・コンピュータ(DNC: Differentiable Neural Computer)」と呼ばれる機械学習モデルを提案する。このモデルは、従来のコンピュータのランダムアクセスメモリに類似した、外部メモリ行列との間で読み書きが可能なニューラルネットワークで構成される。それは、従来のコンピュータと同じ様に、複雑なデータ構造を表現し操作するためにメモリを使用できるが、ニューラルネットワークのように、データからそれを行う方法を学ぶことができる。

DNCを教師あり学習で訓練すると、それは、自然言語で書かれた論証や推論の問題を真似するように作られた総合的な質問に正しく答えることができることを示す。我々は、DNCが、ある特定の点の間の最短経路を見つけ出したり、無作為に生成されたグラフで欠けているリンクを推定したりするタスクを学習することが出来ることを示す。さらに、DNCは、これらのタスクを輸送ネットワークや家系図などの特定のグラフに一般化することもできる。

DNCを強化学習で訓練すると、それは、目標の変化を記号列で指定するブロックを移動させるパズルを解くことが出来た。

これらをまとめると、我々の結果は、DNCが、外部読み書きメモリなしのニューラルネットワークでは到達できない、複雑で構造化されたタスクを解決する能力を持っていることを示している。


現代のコンピュータは、計算とメモリを分離する。計算は、プロセッサによって実行される。プロセッサーは、計算の対象を出し入れするのに、アドレス可能なメモリを利用することができる。

これにより、2つの重要な利点が得られる。新しい情報を書き込むための拡張可能なストレージの利用と、メモリの内容を変数として扱う機能である。変数はアルゴリズムの汎用性にとって非常に重要である。つまり、同じ手続きを、一つのデータだけでなく他のデータで実行するのに、アルゴリズムは、それが読み出すデータのアドレスを変更するだけでいいからである。

コンピュータとは対照的に、人工ニューラルネットワークの計算リソースとメモリーのリソースは、ニューラルネットワークの重みとニューロンの活動の中に、混じり合っている。これは、大きな負債である。タスクの増大によってメモリが必要とされても、これらのネットワークは、新しいストレージを動的に割り当てることもできず、タスクの変数によって実現される、値とは独立に動作するアルゴリズムも簡単には学習できないからである。

最近のブレークスルーは、ニューラルネットワークは感覚の処理、シーケンスの学習と強化学習には、極めて熟練していることを示しているのだが、認知科学者や神経科学者は、ニューラルネットワークには、変数やデータ構造を表現する能力と外部からの干渉なしに長い期間にわたってデータを格納する能力では限界があると論じてきた。

我々は、ニューラルネットワークに外部メモリへの読み書きのアクセスを提供することで、ニューラルコンピューティングとコンピュータによる処理の利点を組み合わせることを目指している。

メモリーへのアクセスは、記憶間の干渉を最小限に抑える、かつ、長期間の保存を可能にする為に、狭いところに集中して行われる。システム全体は微分可能であり、それ故、勾配降下法でエンドツーエンドで訓練することができ、ネットワークは目標指向の方法でメモリを操作し、編成する方法を学習できる。

コメント

このブログの人気の投稿

TensorFlow Foldについて

TPU論文の翻訳(1)