信源编码定理

✍ dations ◷ 2025-11-28 11:56:52 #信息论

在信息论中,香农的信源编码定理(或无噪声编码定理)确立了数据压缩的限度,以及香农熵的操作意义。

信源编码定理表明(在极限情况下,随着独立同分布随机变量数据流的长度趋于无穷)不可能把数据压缩得码率(每个符号的比特的平均数)比信源的香农熵还小,又不丢失信息。但是有可能使码率任意接近香农熵,且损失的概率极小。

码符号的信源编码定理把码字的最小可能期望长度看作输入字(看作随机变量)的熵和目标编码表的大小的一个函数,给出了此函数的上界和下界。

信源编码是从信息源的符号(串行)到码符号集(通常是bit)的映射,使得信源符号可以从二进制比特(无损信源编码)或有一些失真(有损信源编码)中准确恢复。这是在数据压缩的概念。

在信息论中,信源编码定理非正式地陈述为:

N 个熵均为 () 的独立同分布的随机变量在 → ∞ 时,可以很小的信息损失风险压缩成多于 () bit;但相反地,若压缩到少于 () bit,则信息几乎一定会丢失。

Σ1, Σ2 表示两个有限编码表,并令 Σ∗
1 和 Σ∗
2 (分别)表示来自那些编码表的所有有限字的集合。

X 为从 Σ1 取值的随机变量,令    为从 Σ∗
1 到 Σ∗
2 的唯一可译码,其中 2| = 。令 S 表示字长   () 给出的随机变量。

如果    是对 X 拥有最小期望字长的最佳码,那么(Shannon 1948):

对于 1 ≤ ≤ 令 表示每个可能的 的字长。定义 q i = a s i / C {\displaystyle q_{i}=a^{-s_{i}}/C} 1 + ... + = 1。于是

其中第二行由吉布斯不等式推出,而第五行由克拉夫特不等式推出:

因此 log ≤ 0.

对第二个不等式我们可以令

于是

因此

并且

因此由克拉夫特不等式,存在一种有这些字长的无前缀编码。因此最小的 S 满足

相关

  • 涤纶聚对苯二甲酸乙二酯(英语:polyethylene terephthalate,简称PET或PETE),商标名为Dacron、Terylene、Lavsan(苏联时代或俄罗斯)、的确良、涤纶、特丽纶(港澳称的确凉、特丽翎,台湾称达
  • 阿米特阿米特是埃及神话中一头拥有鳄鱼头,狮子上身及河马下身的生物。阿努比斯会将死人的心脏与玛特(Ma'at)的羽毛放在天秤上。心脏若较重,代表该人曾作了坏事。阿努比斯会将他交给阿
  • 东果格格端庄固伦公主(满语:ᡩᠣᠩᡤᠣ,转写:Donggo;1578年-1652年),本名嫩哲,亦称东果格格、东果公主。清太祖之长女,生母为清太祖元妃。明万历六年(1578年)二月二十二日戌时出生。万历十六年(15
  • 乔·科特尼乔·科特尼(Joe Courtney ;1953年4月6日-)是美国的一位政治人物。自2007年开始,他是康涅狄格州第2选举区选出的美国众议院议员。他的党籍是民主党。科特尼毕业于塔夫茨大学。他已
  • 萨拉曼卡学派萨拉曼卡学派(西班牙语:Escuela de Salamanca)是一个在文艺复兴时期由西班牙神学家们所发展集合而成的学术流派,以神学家弗朗西斯科·维多利亚(Francisco de Vitoria)等人的著作为
  • NIH 3T3NIH 3T3,亦称3T3,是一个由纽约大学医学院病理学系的乔治·托达洛(George Todaro)以及哈沃德·格林(Howard Green)两名研究人员于1962年构建的永生化细胞系。NIH 3T3细胞的来源是NI
  • 埃塞讷埃克山坐标:47°02′38″N 12°14′26″E / 47.04392°N 12.240541°E / 47.04392; 12.240541埃塞讷埃克山(德语:Essener Eck),是奥地利的山峰,位于该国西部,由蒂罗尔州负责管辖,属于维内
  • Team NIII 3rd Stage“Fiona.N”公演Team NIII 3rd Stage“Fiona.N”公演是GNZ48的剧场公演,此套公演是GNZ48 Team NIII的第二套原创公演,也是GNZ48“Miss”系列公演的首套公演。《Fiona.N》是GNZ48 Team NIII的
  • 彼得·福克彼得·麦可·福克(Peter Michael Falk,又译:彼得·法尔克/彼德福,1927年9月16日-2011年6月23日)是美国演员。代表作《神探可伦坡》()令他登上事业颠峰,成为全美家喻户晓的名侦探。他
  • 朝鲜王室仪轨《朝鲜王室仪轨》是李氏朝鲜时代,王室主要行事,如婚、丧、喜、庆、册封、筑城等文字及图画记录的总汇。于2007年被列入联合国教科文组织的世界记忆项目。日本宫内厅所藏之古籍