「シャノン・エントロピー」と「相対エントロピー」
ある確率分布 $p_i$が与えられた時、その情報量は、$ - \sum p_i log(p_i)$ で与えられる(シャノンの情報量)。 (今回は、特に、説明しなかったのだが、「情報量」と「エントロピー」は、同じ概念である。) ただ、どんな確率分布についても、アプリオリに一つの情報量が先の公式で天下り的に定まるということに、すこし違和感を持つ人がいるかもしれない。(僕は、そうだったのだが) そういう人には、次の「相対的な情報量」という考え方の方が、納得が行きやすいと思う。得られる情報量は、絶対的な確定したものではなく、事前に知っていたこととの関係で決まる、相対的なものだと考えるのだ。 事前に知っていた(多分、それは正確な知識ではないかもしれないので「仮説」といってもいい)確率分布を$p_i$ としよう。実際に、観測して新しい確率分布 $q_i$ が得られた時の、 $p$に対する$q$の「相対的情報量」を、次の式で定義する。 $$ I(q,p) = \sum q_i log (q_i / p_i)$$ $I(q,p)>=0$ で、 $I(q,p)=0$となるのは、$q=p$ の場合だけであることはすぐわかる。 明らかに、先のアプローチは、ベイジアンのものである。「相対的な情報量」というのは、アプリオリな「シャノンの情報量」を、ベイジアンの考え方で、相対化した情報量なのである。 情報量のこの相対的な解釈は、人間の認識で得られる情報量の解釈には、とても向いている。認識や学習のモデルを、この情報量を使って解釈できる。 例えば、先の$I(q,p)=0$の場合の解釈では、仮説$p$と実験結果$q$が一致した場合には、実験で得られた情報量は0 だと考えればいい。 認識の順番を$t$ で表してみよう。先の例では、事前の仮説$p(t-1)$が、実験によって、事後に $q(t)$ に置き換わるのだが、この実験で得られた情報は、$I(q(t), p(t-1))$ で表される。 ここで、$q(t)$を新たな$p(t)$ として、$I(q(t+1), p(t))$ を考える操作を繰り返すことができる。 これは、「認識の発展」のモデルと考えることができる。この「認識の発展」は、$I(q,p)=0$になるときに終わる。 逆に、もしも、最初から正