根据维基百科的解释,在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,「消息」代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。由于一些其他的原因,把信息(熵)定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量,这个随机变量的均值(即期望)就是这个分布产生的信息量的平均值(即熵)。熵的单位通常为比特,但也用 Sh、nat、Hart 计量,取决于定义用到对数的底。
这个解释读起来有点拗口和复杂,我换一种方式来表达。
首先,让我们来想一下我们在日常生活中接收信息的情况。比如说您的好朋友每天都告诉您他吃了什么早餐。如果他每天都吃同样的食物,那么您可能很快就会觉得他的消息很无聊,因为您已经知道他会吃什么。但是,如果他每天的早餐都不一样,那么您可能会觉得他的消息更有趣,因为您不能预测他会吃什么。
那么,「信息熵」其实就是一个度量我们从信息中得到的「惊喜」或者「不确定性」的方式。如果一个事件的结果很难预测,那么我们说这个事件的信息熵就很高。相反,如果一个事件的结果很容易预测,那么我们说这个事件的信息熵就很低。
再来想象一下您和您的朋友玩一个猜硬币的游戏。硬币的正反面出现的可能性是一样的,所以您没有办法知道下一次抛硬币会出现什么结果。这个时候,我们就说这个抛硬币的游戏的信息熵很高。但是,如果您的朋友总是告诉您下一次抛硬币的结果,那么这个游戏的信息熵就变得很低,因为您可以预测到结果。
所以,如果用一句话来概括,「信息熵」就是一个度量信息的「新鲜度」或者「不确定性」的方法。