投稿

ディープラーニング・クラウド・ハンズオン再開します

イメージ
クラウド・ベンダーの協力を得て、MaruLaboとクラウド・ベンダー・コミュニティとの共催で開催してきた「ディープラーニング・クラウド・ハンズオン」を、7月から、再開します。 最初は、JAWS-UG AI さんとの共催で、7月22日(土)、アマゾン目黒オフィスでの開催です。お申し込みは、今週の火曜日6月22日から開始です。https://jawsug-ai.connpass.com/event/59674/ 今回のテーマは、ディープラーニング技術の中で大きな成功をおさめている画像認識技術のCNNです。 現在、Googleさん+TFUGさん、Microsoftさん+JAZUGさんとの打ち合わせが進んでいます。近日中には、こちらの開催予定も、お知らせできると思います。 今回のクラウド・ハンズオンについては、開催の前提として、次の点を確認しました。 ・ディープラーニングの初心者向けの学習コースへのニーズは、広く存在している。 ・IT技術者のディープラーニング学習には、クラウド環境の利用がもっとも適している。 あわせて、前回までの取り組みの反省を踏まえて、いくつか新しいことを試して見ようと思っています。 ・「環境構築とサンプルの実行で終わってしまった」-->  ハンズオンの時間を延長する。 ・「処理の全体の流れがわからない」「個別の処理が何をしているか理解できない」「コードに触っていない」「プログラムを修正・変更してみたい」--> Kaggle https://www.kaggle.com/ のKernel を使って見ようと思っています。 例えば、今回のJAWS-UG AIさんとのコラボでは、次のものを利用しようとしています。(多少、変更あるかもしれませんが) Kirill Kliavin氏の"TensorFlow deep NN" https://www.kaggle.com/kakauandme/tensorflow-deep-nn を教材として利用しようかと思っています。 今後予定のハンズオンでも、プラットホームとしてKaggle を有効に利用したいと考えています。最終的には、学習者が自分で課題を見つけ勉強を進めることができていけばいいと考えています。 最後に、今回は、ハンズオン有料

稚内へ。丸山事務所のお二人。

イメージ
マルレクの運営でいつもお世話になっている丸山事務所の松倉さん、大森さんを、稚内に案内。期待のサロベツの花は、ダメだった。残念。 吉永小百合がロケで泊まっているというホテルに、お二人は、泊まることに。逢えるといいな。

「煙はこちらに向かって吐いてください」 

イメージ
喫煙所の中でも、ここまで言われるのか。

「ホットな議論」と「クールな議論」

イメージ
ディープ・ラーニングの「学習」では、様々な「メタ・パラメーター」が登場する。このパラメーターの設定で、学習の精度やスピードが、大きく変わることがある。 こうしたメタ・パラメーターの一つに「温度」が登場することがある。大抵は、Softmaxに確率分布を放り込む時に、一律に一定の定数をかける処理をすることがあるのだが、その定数を「温度」ということがあるのだ。 最初は、この言葉づかいが、奇妙に思えたのだが、昨日見たように、Softmax自体が、物理の理論を借用しているのだと思うと、こうした言葉遣いには、何の不思議もない。頭隠して尻隠さずだ。 最近見かけた例では、GoogleのDeep MindチームのDNC (Differentiable Neural Computer)に、次のような関数が定義されていた。(図1) この関数 C(M, k, β) [i] は、DNCで、もっとも基本的な関数の一つである。ご覧のように、分子でも分母でも、冪乗部分に一律に定数βがかかっている。Nature誌の解説では、このβは、「キーの強さ」だとされている。 でも、この式は、Softmaxの原型である図1の下の式、すなわち、ある分配関数が定義された時、系がある状態i を取る確率を表す式の変化系だと思うのがいいような気がする。 図2に、 β = 1/kBTと、明示的に温度Tが見える形にした時、Tの値をあげたり下げたりした時、この分布がどう変化するかを示してみた。(Ei の分布は変わらないとして) ディープ・ラーニングの学習でのメタ・パラメーター「温度」の役割についても、この関係は基本的に成り立つはずだ。 要するに、「温度」が高いと、いろんなところに複数の比較的高い確率が見られるようになり、「温度」が低いと、一つのピークがはっきりと現れる。(山の凸凹のパターンは、基本的に同じなのだが、コントラストが強調される) 特徴抽出には、後者の方が良さそうに見えるかもしれないが、意外と単純ではない。前者のほうが、収束には時間がかかりそうだが、思いもかけない特徴を発見する可能性があるかもしれないし、後者の方は、実は、つまらない特徴しか見つけられないということになるのかもしれない。 面白いのは、我々の日常の議論にも、こうした類型的には二つのパターンがあるのではないか

Softmaxを他の目で見る

イメージ
Softmaxの対応物を考える さきに、ディープ・ラーニングでよく使われる「クロス・エントロピー」が、もともとのシャノンのエントロピーをベイジアン風に拡大した(という「解釈」が存在するという意味なのだが)「相対エントロピー」の一種だという話をした。 「相対エントロピー」は、「まだ残されている、学習すべき情報」と解釈できるので、ディープ・ラーニングで「クロス・エントロピー」を最小にしようという目標は、この解釈だとわかりやすいと思うという話だった。 今日は、同じくディープ・ラーニングで多用される「Softmax」の話をしようと思う。 クロス・エントロピーと同様に、AIのエンジニアは、天下りでこの関数を使うことが多い。というか、ディープ・ラーニングのフレームワークに、そのまま準備されているので、「使い方」さえ覚えれば、クラスの分類は自動的に実行されるわけで、その「意味」や「成り立ち」を考える必要はないのだが。 ただ、それは、もったいないとも思う。(余計なお世話かな?) 物理から見てSoftmax(に対応する式)が、どういうものかを見てみよう。 ある系の持つ可能な状態の数を考える それには少し準備がいる。 まず、同じ大きさのN個のBoxからなる系を考えよう。それぞれのBoxはk個の状態を持つとしよう。 あるBoxがある状態iを取るとき、次のように線で結ぶ。 この例は、Box1が状態1を取り、Box4が状態2を取り、Box Nが状態4を取ることを表している。Box2, Box3は、この図では線で状態と結ばれていないが、それは、表記上省略しているだけである。 次の図では、Box1が状態2を取り、Box3が状態1を取り、Box4が状態4を取り、Box Nが状態kを取ることを表している。Box2の状態は、この図では省略されている。 全てのBoxは、必ず、何らかの状態を持つのだが(例では省略されていても)、全ての状態が、あるBoxの状態になるとは限らない。次の例では、Box2, Box3, Box4 は、同じ状態2を持っている。 状態iが、何個のBoxで共有されているかを $n_i$で表すことにしよう。先の例では、$n_2=3$ということになる。$ n_1+n_2+n_3+ \cdots + n_k = N

二つの関心

最近、自分の関心が、二つの方向に分裂していることを感じている。 一つは、昨日ミスルトで行なった、「人工知能と私たちの未来 -- 子育てママ教育編」のように、いままであまり接点のなかった人たちとコンタクトしてみたいという関心である。 もう一つは、理論的に、もっと深いところで、我々の科学的な認識がどのように発展しているのかを知りたいという関心である。 前者について言えば、いままで接点のない人とのコンタクトを広げるのは、なかなか難しい。昨日のイベントも集客には苦労して、知っている人に、随分助けてもらった。 でも、楽しかった。少人数でも。 これからも、続けられたらと思う。 ここでは、少し、後者の問題について考えてみたい。 端的に言えば、いままで僕と接点のあった人たち(主要には、ITエンジニアのアーリー・アダプター志向の人たちだと思う)と、こうした僕の関心を、どうしたら共有できるのかという問題である。 問題意識の共有は、できるのではないかと考えている。(僕は、原理的には、楽観論者だ。) なぜなら、情報理論やエントロピーの理解は、人工知能技術を深く理解する上でも、欠かせないのだから。 ただ、話が、少し難しくなる。 例えば、一年前の僕の投稿 あたりは  http://maruyama097.blogspot.com/2017/06/50-lawvere.html 、どうだろう? もちろん、もっと噛み砕ける。LawvereやRosetta Stoneはおいといても、「相対エントロピー」、「エントロピーのベイジアン的解釈」は、わかりやすく説明できると思う。 人工知能技術だけではない。現代の物理学は、情報理論との接近を強めている。 ブラックホールから情報が取り出せないことを『計算の複雑性』で説明したり、時空を構成する 「tensor network」(紛らわしいが、TensorFlow Network とは、何の関係もない) が「量子エラー訂正回路」だといったりする。面白い。 きっと、次世代のイノベーションの中核となるであろう量子コンピュータの基礎理論は、着々と準備されているのだと思う。IT技術者が、無関心でいい訳はない。 いつか、マルレクで、「IT技術者のための情報理論入門」みたいのが、できればいいと思っている。(だ

50年前の Lawvereによる機械学習の特徴付けが、エクセレント!

イメージ
一年前のFacebookへの投稿を再掲します。 ---------------------------------------- 今年の冬休みの最大の収穫は、Lawvereのこの論文を見つけたこと。 ”The category of probabilistic mappings -- With Applications to Stochastic Processes, Statistics, and Pattern Recognition" http://goo.gl/53nxEv もともとは、機械学習の損失関数(コスト関数)によく使われる「相対エントロピー」のわかりやすい説明が、John Baezの数年前の論文にあったよなと思って探していたのだが、そこでついでに目に入ったのが、2013年に出ていたFongの次の論文。 Brendan Fong: "Causal Theories: A Categorical Perspective on Bayesian Networks" http://arxiv.org/pdf/1301.6201v1.pdf この論文自体は、ベイジアンの立場からの「因果性の理論」なのだが、その理論的なビジョンは、冒頭で紹介したLawvereの論文に基づいている。 Lawvereの論文1.3節の "Stochastic Processes and Decision Maps「確率過程と決定写像」" を読んでもらいたいのだが、現在の「機械学習」技術の、ほぼ、完璧な特徴づけがある! Ωをある空間とする。Δを、Ωを「パターン」ごとに分割した空間とする。 「パターン認識」とは、ΩからΔの写像 f を見つけること。 ただし、一般には、Ωは巨大で、全体をスキャンするのも、 f を見つけるのも困難である。 そこで、実際に「観測された状態」からなる Γ を考える。 さらに、ΩからΓへの、次のような確率写像 F を考える。 Ωの基本的な状態の一つをωとする時、Γの部分集合Aに対して、 F(ω, A)は、Aについての条件付きの確率を与える。 δを、ΓからΔの写像とする。 この時、「パターン認識」の問題は、完備化されれば、f = F ・ δ となるような、最良の写像 δ を求め