信源编码定理

✍ dations ◷ 2025-12-01 17:10:30 #信息论

在信息论中,香农的信源编码定理(或无噪声编码定理)确立了数据压缩的限度,以及香农熵的操作意义。

信源编码定理表明(在极限情况下,随着独立同分布随机变量数据流的长度趋于无穷)不可能把数据压缩得码率(每个符号的比特的平均数)比信源的香农熵还小,又不丢失信息。但是有可能使码率任意接近香农熵,且损失的概率极小。

码符号的信源编码定理把码字的最小可能期望长度看作输入字(看作随机变量)的熵和目标编码表的大小的一个函数,给出了此函数的上界和下界。

信源编码是从信息源的符号(串行)到码符号集(通常是bit)的映射,使得信源符号可以从二进制比特(无损信源编码)或有一些失真(有损信源编码)中准确恢复。这是在数据压缩的概念。

在信息论中,信源编码定理非正式地陈述为:

N 个熵均为 () 的独立同分布的随机变量在 → ∞ 时,可以很小的信息损失风险压缩成多于 () bit;但相反地,若压缩到少于 () bit,则信息几乎一定会丢失。

Σ1, Σ2 表示两个有限编码表,并令 Σ∗
1 和 Σ∗
2 (分别)表示来自那些编码表的所有有限字的集合。

X 为从 Σ1 取值的随机变量,令    为从 Σ∗
1 到 Σ∗
2 的唯一可译码,其中 2| = 。令 S 表示字长   () 给出的随机变量。

如果    是对 X 拥有最小期望字长的最佳码,那么(Shannon 1948):

对于 1 ≤ ≤ 令 表示每个可能的 的字长。定义 q i = a s i / C {\displaystyle q_{i}=a^{-s_{i}}/C} 1 + ... + = 1。于是

其中第二行由吉布斯不等式推出,而第五行由克拉夫特不等式推出:

因此 log ≤ 0.

对第二个不等式我们可以令

于是

因此

并且

因此由克拉夫特不等式,存在一种有这些字长的无前缀编码。因此最小的 S 满足

相关

  • 微升微升(microlitre)是容量计量单位,符号为μL,相近于体积单位λ(lambda,10−9 m3),自升而来。微升本身不是国际单位制单位,而是接受与SI合并使用的非SI单位。在生化单位及药物使用上,因
  • 医用微生物及免疫学人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学免疫学(英语:Immunology)是生物医学的一
  • 国际纯粹与应用物理学联合会国际纯粹与应用物理学联合会(International Union of Pure and Applied Physics,简称IUPAP),是一个非政府性的国际性学术组织。该组织成立于1922年。国际纯粹与应用物理学联合会
  • 缅语缅甸缅甸语(မြန်မာဘာသာ)属汉藏语系藏缅语族,以仰光音为标准。它是缅甸联邦的官方语言,在该国有大约3200万人使用,而且在孟加拉国、马来西亚、泰国、美国也有少量分布。
  • 访问互联网权访问互联网权或上网权(right to Internet access),也称为宽带权(right to broadband)、连接自由(freedom to connect),认为所有人必须能够访问互联网,以行使和享受其言论自由、见解自
  • 海乌姆诺灭绝营纳粹集中营转移营比利时:布伦东克堡垒 · 梅赫伦转移营法国:居尔集中营 · 德朗西集中营意大利:波尔查诺转移营荷兰:阿默斯福特集中营 · 韦斯特博克转移营挪威:法斯塔德集中营部
  • 酢酱草酢浆草(学名:Oxalis corniculata),又称三叶酸、山盐酸、蝴蝶翼、黄花酢酱草、盐酸草,为酢浆草科酢浆草属下的一个种。酢浆草广泛分布于世界各地,包括大洋洲、加勒比海、百慕大群岛
  • 泡囊狸殖吸虫泡囊狸殖吸虫(学名:Pagumogonimus veocularis)为并殖科狸殖属的动物。在中国大陆,分布于四川青川县、广东等地,营寄生生活,自然终末宿主待查。该物种的模式产地在四川青川县。
  • 国道505号国道505号是从冲绳县国头郡本部町至冲绳县名护市的一般国道。
  • 丽台科技丽台科技(LEADTEK Research Inc.)成立于1986年,总公司位于台湾新北市中和区,并在中国大陆及日本设有分公司。丽台科技是全球知名的绘图卡研发制造专业厂商,以“研究创新、质量