香农-范诺编码

✍ dations ◷ 2025-02-27 20:43:12 #香农-范诺编码

在数据压缩的领域里,香农-范诺编码(英语:Shannon–Fano coding)是一种基于一组符号集及其出现的或然率(估量或测量所得)构建前缀码的技术。其名称来自于克劳德·香农和罗伯特·范诺。在编码效率上,它并不能与霍夫曼编码一样实现编码(code word)长度的最低期望;然而,与霍夫曼编码不同的是,它确保了所有的编码长度在一个理想的理论范围 log P ( x ) {displaystyle {-log }P(x)} 之内。这项技术是香农于1948年,在他介绍信息理论的文章“通信数学理论”中提出的。范诺则在不久以后独立地以技术报告形式将其发布。 香农-范诺编码不应该与香农编码混淆,后者的编码方法用于证明Shannon's noiseless coding theorem,或与Shannon–Fano–Elias coding(又被称作Elias coding)一起,被看做算术编码的先驱。

香农-范诺编码将符号从最大可能性到最少可能性排序,并将排列好的信源符号分为两大组,使两组的概率和接近,并各赋予一个二进制符号“0”和“1”。只要有符号剩余,就以同样的过程重复这些步骤以此确定这些代码的连续编码数字。依次下去,直至每一组的只剩下一个信源符号为止。当一组已经仅剩余一个符号,显然,这意味着这一符号的编码是完整的,也不会成为任何其他符号的代码前缀。

香农-范诺编码能够产生相对高效的可变长度编码;对于每一个比特位而言,当两个较小的集合具有恰好相等的概率时,这一方法就能最有效地利用这一位编码的信息。然而,香农-范诺并不总是产生最优的前缀码:例如对概率{0.35,0.17,0.17,0.16,0.15},香农-范诺算法就无法给出理想的编码。出于这个原因,香农-范诺编码几乎从不被使用。

Shannon-Fano编码树是基于一个符号和对应频率的列表建立的。实际的算法很简单:

这个例子展示了一组字母的香农编码结构(如图a所示)这五个可被编码的字母有如下出现次数:

从左到右,所有的符号以它们出现的次数划分。在字母B与C之间划定分割线,得到了左右两组,总次数分别为22、17,这样就把两组的差别降到最小。通过这样的分割,A与B同时拥有了一个以0为开头的编码,C、D、E的前缀则为1,如图b所示。随后,在树的左半边,于A、B间建立新的分割线,这样A就成为了编码为00的叶子节点,B的编码为01。经过四次分割,得到了一个树形编码。如下表所示,在最终得到的树中,拥有最大频率的符号被两位编码,其他两个频率较低的符号被三位编码。

根据A,B,C两位编码长度,D,E的三位编码长度,最终的平均码字长度是

香农-范诺编码算法并非总能得到最优编码。1952年, David A. Huffman提出了一个不同的算法,这个算法可以为任何的可能性提供出一个理想的树。香农-范诺编码是从树的根节点到叶子节点所进行的的编码,霍夫曼编码算法却是从相反的方向,暨从叶子节点到根节点的方向编码的。

用以上Shannon - Fano例子所使用的分析,即:

首先将D、E合并,它们频率和为11(图a至图b)。接下来概率最低的一组是B(7)和C(6),所以将他们作为左右子树组成新的根结点BC。在剩下的三个节点中,BC(13)和DE(11)的频率和最低,因此组成新的二叉树BE。最后将仅剩的两个节点合并,并分别为它们分配前缀0和1。这样所有的节点都成为了唯一一个编码树的叶节点。

这个例子中,A的编码长度是1比特,其余字符是3比特。

结果是

相关

  • 高镇同高镇同(1928年11月15日-),中国疲劳科学专家。生于北京,原籍江西都昌。1950年毕业于北洋大学航空系。北京航空航天大学教授。1991年选为中国科学院院士(学部委员)。[[Category:北京
  • 辛巴族辛巴族是生活在非洲纳米比亚北部为数不多的族群,人口约为2万左右,以游牧为生,至今还保持着自己民族的原始生活形态。辛巴妇女每天都要往身上涂红色石粉,这种石头产于当地,磨成粉
  • 发泡胶盒发泡胶盒是一种容器,又被称为食物盒及饭盒等。因为性质隔热,所以有一定的保温功能,常用于盛载食物,例如午餐便当等。此胶盒在工厂由发泡胶胶粒加热注塑成型,尺寸可塑性高。在日常
  • 吴道子吴道子(685年-758年:141),又称吴道元,字道子,后改名为道玄,画史尊称“吴生”。阳翟(今河南禹县)人。中国唐代著名画家,被称为“百代画圣”。出生年份没有记载。吴道子幼年家境贫寒,初为
  • 急进性肾小球肾炎急进性肾小球肾炎(英语:Rapidly progressive glomerulonephritis (RPGN))是一种以急进性肾炎综合征为临床特征,以新月体性肾小球肾炎为病理特征的一类疾病。为新月体性肾小球肾
  • 安德雷·布劳尔艾米·布拉布森安德雷·布劳尔(英语:Andre Braugher,/ˈbraʊ.ər/,1962年7月1日-)是一位美国男演员,出生于伊利诺伊州芝加哥,现居于新泽西州南奥兰治。他于1984年在斯坦福大学取得
  • 杰里迈亚·S·布莱克杰里迈亚·苏利文·布莱克(Jeremiah Sullivan Black,1810年1月10日-1883年8月19日),美国律师、政治家,曾任美国司法部长和美国国务卿。
  • 彼得·沃洛克彼得·沃洛克(英语:Peter Warlock,1894年10月30日-1930年12月27日),英国作曲家,文学家。真名为菲利普·阿诺德·夏舜霆(Philip Arnold Heseltine),他的音乐及文学作品通常都以笔名发表
  • 郑同玄郑同玄,字黄中,号练水,广东潮州府潮阳县人,明朝政治人物。同进士出身。天启七年丁卯举于乡,崇祯七年(1634年),登甲戌科进士,知六合县,川兵通寇,夜作乱,启栅迎之。同玄率士民力拒,焚冶埔桥
  • 五岳真形图五岳真形图,题为东方朔编,实际应出于汉末魏晋之际,为中国古代道士绘制的一种特殊山岳图,在道教中用以“辟兵凶逆”,为符箓之最古者。后世此书传本甚多,今《正统道藏》本一卷,收入洞玄部灵图类。另有《云笈七签》本,收入该书卷七九。今河南登封县嵩山中岳庙内存此图碑刻。五岳,指东岳泰山、西岳华山、中岳嵩山、北岳恒山、南岳衡山。乃源于古代中国对山川的崇拜祭祀,依附五行思想而成形。真形,本来的形象;真实的形体或形象。五岳真形,即五岳的山水之象,其形势“盘曲回转,高下参差,长短卷舒,波流似于奋笔,锋铓畅乎岭崿”。其一为〈五