Deep Learning と相対エントロピー

【 Deep Learning と相対エントロピー 】

11/26 マルゼミ「認識について2 -- 認識の認識 –」の第二部「認識の発展のモデル」の資料です。ご利用ください。

ページの構成変えました。下のリンクに飛べば、pdfのviewerに着地しますので、そのままでスライドの資料が読めます。viewerのタイトルをクリックすれば、YouTube 動画をみることができます。お試しください。

https://www.marulabo.net/docs/philosophy02/#Deep_Learning_%E3%81%A8%E7%9B%B8%E5%AF%BE%E3%82%A8%E3%83%B3%E3%83%88%E3%83%AD%E3%83%94%E3%83%BC

本投稿のもっと詳しい情報は、こちらです。https://www.marulabo.net/docs/philosophy02/

======================
11/26 マルゼミへのお申し込みは、次のページからお願いします。https://philosophy02.peatix.com
======================

【 「学習」のBayesian的解釈 】

前回見た「認識の発展」解釈とは逆に、もしも、最初から正しい分布q を、何らかの方法で我々が知っていて、実験 𝑝(𝑡)を繰り返すのなら、 H(𝑞||𝑝(𝑡)) は、実測値𝑝(𝑡)から、正しい答えq に至るために「学習しなければいけない情報量」を表すことになります。

q は、「常に正しい」と仮定しているので、それは時間には依存しません。qは、tを含まないことに注意してください。

ここでは、 H(𝑞||𝑝(𝑡))=0 は、「もはや、学習すべき情報が残されていない」ことを意味して、その状態で、学習は終わります。

【 クロス・エントロピー 】

ディープラーニングでコスト関数として利用される「クロス・エントロピー」は、こうした「相対エントロピー」の一種です。

「正しい」分布をq、実測値を pとしたとき、クロス・エントロピー 𝐻_𝑐𝑟𝑜𝑠𝑠 (𝑞, 𝑝)は、次の式で定義されます。

  𝐻_𝑐𝑟𝑜𝑠𝑠 (q, p)  = ∑  q_i  log ⁡p_i  

シャノン・エントロピー H(p) ともよく似た形をしています。

  𝐻(p)  = ∑  p_i  log ⁡p_i  

個人的には、シャノンのエントロピーの定義も、ぶっきらぼうだと思いますが、クロス・エントロピーの定義の意味は、式の形からはわかりにくいように感じています。

ディープラーニングでの「学習」の直接の目的は、クロス・エントロピーを最小にすることなのですが、相対エントロピーの言葉で言えば、それは、「正しい」認識に至るために、「残された学習すべき情報を最小のものにすること」となります。

こちらの方がわかりやすいように思います。

コメント

このブログの人気の投稿

マルレク・ネット「エントロピーと情報理論」公開しました。

初めにことばありき

宇宙の終わりと黒色矮星