熵 (信息论)

✍ dations ◷ 2025-12-10 10:44:21 #信息论,信息学熵

在信息论中，熵（英语：entropy）是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，“消息”代表来自分布或数据流中的事件、样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）来自信源的另一个特征是样本的概率分布。这里的想法是，比较不可能发生的事情，当它发生了，会提供更多的信息。由于一些其他的原因，把信息（熵）定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量，这个随机变量的均值（即期望）就是这个分布产生的信息量的平均值（即熵）。熵的单位通常为比特，但也用Sh、nat、Hart计量，取决于定义用到对数的底。

采用概率分布的对数作为信息的量度的原因是其可加性。例如，投掷一次硬币提供了1 Sh的信息，而掷m次就为m位。更一般地，你需要用log₂()位来表示一个可以取个值的变量。

在1948年，克劳德·艾尔伍德·香农将热力学的熵，引入到信息论，因此它又被称为香农熵(Shannon entropy)。

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。在信息论里面，熵是对不确定性的测量。但是在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。

英语文本数据流的熵比较低，因为英语很容易读懂，也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容，但是我们能很容易地预测，比如，字母e总是比字母z多，或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩，一段英文文本的每个字母需要8个比特来编码，但是实际上英文文本的熵大概只有4.7比特。

如果压缩是无损的，即通过解压缩可以百分之百地恢复初始的消息内容，那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递，因此压缩消息的每个比特能携带更多的信息，也就是说压缩信息的熵更加高。熵更高意味着比较难于预测压缩消息携带的信息，原因在于压缩消息里面没有冗余，即每个比特的消息携带了一个比特的信息。香农的信源编码定理揭示了，任何无损压缩技术不可能让一比特的消息携带超过一比特的信息。消息的熵乘以消息的长度决定了消息可以携带多少信息。

香农的信源编码定理同时揭示了，任何无损压缩技术不可能缩短任何消息。根据鸽笼原理，如果有一些消息变短，则至少有一条消息变长。在实际使用中，由于我们通常只关注于压缩特定的某一类消息，所以这通常不是问题。例如英语文档和随机文字，数字照片和噪音，都是不同类型的。所以如果一个压缩算法会将某些不太可能出现的，或者非目标类型的消息变得更大，通常是无关紧要的。但是，在我们的日常使用中，如果去压缩已经压缩过的数据，仍会出现问题。例如，将一个已经是FLAC格式的音乐文件压缩为ZIP文件很难使它占用的空间变小。

如果有一枚理想的硬币，其出现正面和反面的机会相等，则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么，因此每一次抛硬币都是不可预测的。因此，使用一枚正常硬币进行若干次抛掷，这个事件的熵是一比特，因为结果不外乎两个——正面或者反面，可以表示为0, 1编码，而且两个结果彼此之间相互独立。若进行n次独立实验，则熵为n，因为可以用长度为n的比特流表示。但是如果一枚硬币的两面完全相同，那个这个系列抛硬币事件的熵等于零，因为结果能被准确预测。现实世界里，我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X，取三种可能值 ${\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}$ 的熵值 Η（希腊字母Eta）定义如下，其值域为{₁, ..., }：

其中，P为的概率质量函数（probability mass function），E为期望函数，而I()是的信息量（又称为自信息）。I()本身是个随机变数。

当取自有限的样本时，熵的公式可以表示为：

在这里是对数所使用的底，通常是2,自然常数e，或是10。当 = 2，熵的单位是bit；当 = e，熵的单位是nat；而当 = 10,熵的单位是Hart。

= 0时，对于一些值，对应的被加数0 log 0的值将会是0，这与极限一致。

还可以定义事件与分别取和时的条件熵为

其中(, )为 = 且 = 时的概率。这个量应当理解为你知道的值前提下随机变量的随机性的量。

如果有一个系统S内存在多个事件S = {E₁,...,E_n}，每个事件的概率分布P = {p₁, ..., p_n}，则每个事件本身的消息（自信息）为：

如英语有26个字母，假如每个字母在文章中出现次数平均的话，每个字母的消息量为：

以日文五十音平假名作为相对范例，假设每个平假名日语文字在文章中出现的概率相等，每个平假名日语文字可携带的信息量为：

而汉字常用的有4808个，假如每个汉字在文章中出现次数平均的话，每个汉字的信息量为：

实际上每个字母和每个汉字在文章中出现的次数并不平均，比方说少见字母（如“z”）和罕用汉字（如“淼”）就具有相对高的信息量。但上述计算提供了以下概念：使用书写单元越多的文字，每个单元所包含的消息量越大。

熵是整个系统的平均消息量，即：

因为和热力学中描述热力学熵的玻尔兹曼公式本质相同（仅仅单位不同，一纳特的信息量即相当于k焦耳每开尔文的热力学熵），所以也称为“熵”。

如果两个系统具有同样大的消息量，如一篇用不同文字写的同一文章，由于汉字的信息量较大，中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间，汉字印刷的文章也要比英文字母印刷的用纸少。

可以用很少的标准来描述香农熵的特性，将在下面列出。任何满足这些假设的熵的定义均正比以下形式

其中是与选择的度量单位相对应的一个正比常数。

下文中， = Pr( = )且 $\mathrm {H} _{n}(p_{1},\ldots ,p_{n})=\mathrm {H} (X)$ 重新排序后，该量度应不变。

当所有符号有同等机会出现的情况下，熵达到最大值（所有可能的事件同等概率时不确定性最高）。

等概率事件的熵应随符号的数量增加。

熵的量与该过程如何被划分无关。

最后给出的这个函数关系刻画了一个系统与其子系统的熵的关系。如果子系统之间的相互作用是已知的，则可以通过子系统的熵来计算一个系统的熵。

给定个均匀分布元素的集合，分为个箱（子系统），每个里面有 ₁, ..., 个元素，合起来的熵应等于系统的熵与各个箱子的熵的和，每个箱子的权重为在该箱中的概率。

对于正整数其中₁ + ... + = 来说，

选取 = ，₁ = ... = = 1，这意味着确定符号的熵为零：Η₁(1) = 0。这就是说可以用进制熵来定义个符号的信源符号集的效率。参见信息冗余。

香农熵满足以下性质，借由将熵看成“在揭示随机变量的值后，从中得到的信息量（或消除的不确定性量）”，可来帮助理解其中一些性质。

物理学家和化学家对一个系统自发地从初始状态向前演进过程中，遵循热力学第二定律而发生的熵的变化更感兴趣。在传统热力学中，熵被定义为对系统的宏观测定，并没有涉及概率分布，而概率分布是信息熵的核心定义。

根据Jaynes（1957）的观点，热力学熵可以被视为香农信息理论的一个应用：热力学熵被解释成与定义系统的微态细节所需的进一步香农信息量成正比，波兹曼常数为比例系数，其中系统与外界无交流，只靠古典热力学的巨观变数所描述。加热系统会提高其热力学熵，是因为此行为增加了符合可测巨观变数的系统微态的数目，也使得所有系统的的完整叙述变得更长。（假想的）麦克斯韦妖可利用每个分子的状态信息，来降低热力学熵，但是Landauer（于1961年）和及其同事则证明了，让小妖精行使职责本身——即便只是了解和储存每个分子最初的香农信息——就会给系统带来热力学熵的增加，因此总的来说，系统的熵的总量没有减少。这就解决了Maxwell思想实验引发的悖论。Landauer法则也为现代计算机处理大量信息时所产生的热量给出了下限，虽然现在计算机的废热远远比这个限制高。

贝尔实验室曾流传一则可信度不高的传闻：冯诺依曼建议香农为这个概念取名为“熵”，理由是这个热力学名词别人不懂，容易被唬住。

相关

生物累积性生物累积（英语：Bioaccumulation）是指生物食用或体表吸收生活环境中的某些化学物质，这些物质没办法被代谢，便累积于生物体内，经由食物链中各阶层消费者的食性关系而累积，越高级消费
7世纪601年1月1日至700年12月31日的这一段期间被称为7世纪。唐朝取代隋朝领导中国，而本世纪末期武周中断了李唐朝廷。经历“贞观之治”、“永徽之治”和“武周之治”后，疆域辽阔、
非金属元素非金属元素是元素的一大类，在所有的118种化学元素中，非金属占了23种。在周期表中，除氢以外，其它非金属元素都排在表的右侧和上侧。包括氢、硼、碳、氮、氧、氟、硅、磷、硫、氯
基础代谢率基础代谢率（英语：basal metabolic rate，首字母缩写BMR）是指在自然温度环境中，恒温动物（比如人）的身体在非剧烈活动的状态下，处于非消化状态，维持生命所需消耗的最低能量。这些能量主
加泰罗尼亚人加泰罗尼亚人（Catalans）是属于印欧语系的民族，分布在伊比利亚半岛的加泰罗尼亚地方。加泰罗尼亚人有以下两种定义：关于“加泰罗尼亚人”的民族意识从何时开始、以何作为基盘而成
19-去甲-4-雄烯二酮19-去甲-4-雄烯二酮（英语：19-norandrostenedione，也被称为Bolandione，19-去甲雄甾-4-烯-3,17-二酮，19-norandrost-4-en-3,17-dione 或雌-4-烯-3,17-二酮，estr-4-ene-3,17-dione）是
车前子车前草（学名：Plantago asiatica）为车前草科车前草属的物种，是一种多年生草本植物，又名蕮（音同“惜”)、车轮菜子、猪耳朵棵子、五更草、田灌草、牛舌草子、车轱辘草子，诗经中称之为
河北省高级人民法院河北省高级人民法院是中华人民共和国河北省的高级人民法院。
主红雀科Periporphyrus Caryothraustes Rhodothraupis Cardinalis Cyanocompsa Passerina Pheucticus Spiza主红雀科（学名：Cardinalidae），又称美洲雀科，是雀形目的一个科，其下生物分布于南
李密李密（582年－619年1月20日），字玄邃，一字法主，长安人，祖籍辽东襄平（今辽宁辽阳）。隋末起义军领袖。为人好学，曾把书挂在牛角上，骑着牛读书，人称“牛角挂书”，早年为杨玄感的幕僚与好友，玄感