Skip to content
信息论与交叉熵

一点点信息论的皮毛,寻找深度学习中交叉熵的解释时了解到的,感觉很有意思


信息论与熵

信息论的核心思想是量化数据中的信息内容

香农在1948年发表的论文“通信的数学理论”中指出,任何信息都存在冗余,冗余大小与信息中每个符号的出现概率或者说不确定性有关

信息熵可以定义为: 信息中排除了冗余后的平均信息量

具体对于一段信息分布x,它的熵可以表示为:

H(x)=PilogPi

信息量与熵

"信息量太大了"似乎成为了互联网的习惯用语之一

打个比方,假如我们在看小说/电影

当我们看到剧情A的时候,我们会不自觉的猜测下面的剧情B

很多时候小说/电影剧本写的很典,当我们看到剧情A就可以猜对剧情B[1],此时我们看到后面的剧情不会惊讶(因为已经猜中了)

但是如果我们猜错了,那么我们可能会感到惊讶

从另一个角度来说实际上如果我们能猜中下一步的剧情B,可以证明对于我们来说这段剧情的信息是很有限的

克劳德·香农决定用信息量来量化这种惊讶程度,记为logPi

在这里Pi可以类比为我们事先赋予的剧情B发生的概率

当我们赋予剧情B较低的概率时,如果发生了,我们的惊异会更大,对于我们来说该事件的信息量也就更大

现在重新回顾上面信息熵的公式,不难发现实际上就是我们对于得到真实概率时信息量的期望

交叉熵

如果把熵理解为“知道真实概率的人所经历的惊讶程度”,那么什么是交叉熵?

交叉熵从P到Q,记为H(P,Q), 我们可以把交叉熵理解为为“主观概率为Q的观察者在看到根据概率P生成的数据时的预期惊异”

显然当P=Q有交叉熵最低HP

题外话-信息量与压缩

信息论是预测时的惊讶程度

下面全引自 动手学习深度学习

而压缩与预测有什么关系呢? 想象一下,我们有一个要压缩的数据流。 如果我们很容易预测下一个数据,那么这个数据就很容易压缩。 为什么呢? 举一个极端的例子,假如数据流中的每个数据完全相同,这会是一个非常无聊的数据流。 由于它们总是相同的,我们总是知道下一个数据是什么。 所以,为了传递数据流的内容,我们不必传输任何信息。也就是说,“下一个数据是xx”这个事件毫无信息量。

参考

注释


  1. 比如天才->废材开局后面是捡到老爷爷然后三十年河东,在我小时候还是很流行的 ↩︎