数据压缩

✍ dations ◷ 2025-12-10 11:26:02 #数据压缩

在计算机科学和信息论中，数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据比特（或者其它信息相关的单位）表示信息的过程。例如，如果我们将“compression”编码为“comp”那么这篇文章可以用较少的数据位表示。常见的例子是ZIP文件格式，此格式不仅仅提供压缩功能，还可作为归档工具（Archiver），能够将许多文件存储到同一个文件中。数据压缩能够实现是因为多数现实世界的数据都有统计冗余。例如，字母“e”在英语中比字母“z”更加常用，字母“q”后面是“z”的可能性非常小。无损数据压缩压缩通常利用了统计冗余，这样就能更加简练地、但仍然是完整地表示发送方的数据。无损数据压缩压缩的压缩率不足以处理庞大体积的音视频数据，但如果允许一定程度的保真度损失，那么还可以实现进一步的压缩。例如，人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善。同样，两个音频录音采样序列可能听起来一样，但实际上并不完全一样。有损数据压缩在可以接受或无法察觉的情况下使用较少的位数表示图像、视频或者音频。然而，经常有一些文件不能被有损数据压缩压缩，实际上对于不含可以辨别样式的数据任何压缩算法都不能压缩。另外，试图压缩已经经过压缩的数据通常得到的结果实际上是增加数据。实际上，有损数据压缩也会最终达到不能工作的地步。例如一个极端的例子：压缩算法每次去掉文件最后一个字节，那么经过这个算法不断的压缩直至文件变空，压缩算法将不能继续工作。由于可以帮助减少如硬盘空间与连接带宽这样的昂贵资源的消耗，所以压缩非常重要，然而压缩需要消耗信息处理资源，这也可能是费用昂贵的。所以数据压缩机制的设计需要在压缩能力、有损度、所需计算资源以及其它需要考虑的不同因素之间进行折衷。对于任何形式的通信来说，只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。例如，只有当接受方知道这篇文章需要用汉语字符解释的时候这篇文章才有意义。同样，只有当接受方知道编码方法的时候他才能够理解压缩数据。一种非常简单的压缩方法是行程长度编码，这种方法使用数据及数据长度这样简单的编码代替同样的连续数据，这是无损数据压缩的一个实例。这种方法经常用于办公计算机以更好地利用磁盘空间、或者更好地利用计算机网络中的带宽。对于电子表格、文本、可执行文件等这样的符号数据来说，无损是一个非常关键的要求，因为除了一些有限的情况，大多数情况下即使是一个数据位的变化都是无法接受的。对于视频和音频数据，只要不损失数据的重要部分一定程度的质量下降是可以接受的。通过利用人类感知系统的局限，能够大幅度的节约存储空间并且得到的结果质量与原始数据质量相比并没有明显的差别。这些有损数据压缩方法通常需要在压缩速度、压缩数据大小以及质量损失这三者之间进行折衷。有损图像压缩用于数字相机中，大幅度地提高了存储能力，同时图像质量几乎没有降低。用于DVD的有损MPEG-2编解码视频压缩也实现了类似的功能。在有损音频压缩中，心理声学的方法用来去除信号中听不见或者很难听见的成分。人类语音的压缩经常使用更加专业的技术，因此人们有时也将“语音压缩”或者“语音编码”作为一个独立的研究领域与“音频压缩”区分开来。不同的音频和语音压缩标准都属于音频编解码范畴。例如语音压缩用于因特网电话，而音频压缩被用于CD翻录并且使用MP3播放器解码。压缩的理论（它与算法信息论密切相关）以及率有损理论，这个领域的研究工作主要是由美国学者克劳德·香农（Claude Elwood Shannon）奠定的，他在二十世纪四十年代末期及五十年代早期发表了这方面的基础性的论文。Doyle和Carlson在2000年写到数据压缩“是所有的工程领域最简单、最优美的设计理论之一”。密码学与编码理论也是密切相关的学科，数据压缩的思想与统计推断也有很深的渊源。许多无损数据压缩系统都可以看作是四步模型，有损数据压缩系统通常包含更多的步骤，例如它包括预测、频率变换以及量化。Lempel-Ziv（LZ）压缩方法是最流行的无损存储算法之一。DEFLATE是LZ的一个变体，它针对解压速度与压缩率进行了优化，虽然它的压缩速度可能非常缓慢，PKZIP、gzip以及PNG都在使用DEFLATE。LZW（Lempel-Ziv-Welch）是Unisys的专利，直到2003年6月专利到期限，这种方法用于GIF图像。另外值得一提的是LZR （LZ-Renau）方法，它是Zip方法的基础。LZ方法使用基于表格的压缩模型，其中表格中的条目用重复的数据串替换。对于大多数的LZ方法来说，这个表格是从最初的输入数据动态生成的。这个表格经常采用霍夫曼编码维护（例如SHRI、LZX）。当前一个性能良好基于LZ的编码机制是LZX，它用于微软公司的CAB格式。最好的压缩工具将概率模型预测结果用于算术编码。算术编码由芬兰信息理论学家Jorma Rissanen发明，并且由Witten、Neal以及Cleary将它转变成一个实用的方法。这种方法能够实现比众人皆知的哈夫曼算法更好的压缩，并且它本身非常适合于自适应数据压缩，自适应数据压缩的预测与上下文密切相关。算术编码已经用于二值图像压缩标准JBIG、文档压缩标准DejaVu。文本输入系统Dasher是一个逆算术编码器。

相关

链球菌性咽炎链球菌性咽炎（streptococcal pharyngitis、strep throat）是一种喉部后方含扁桃腺感染化脓链球菌（英语：Streptococcus pyogenes）的疾病，是咽炎中的一种，常见症状有发热、喉咙痛、扁
中生动物门中生动物是一种多肉海洋无脊椎寄生动物，现今依然不清楚它们是退化了的扁形动物，还是独立发展出的。一般而言，这些细小、难以理解的生物是由包附在一个或多个生殖细胞上的纤毛种
战斗或逃跑反应战斗或逃跑反应（英文：Fight-or-flight response），心理学,生理学名词，为1929年美国生理学家怀特·坎农（Walter Cannon）所创建，其发现机体经一系列的神经和腺体反应将被引发应激，使躯体
小卫星小型卫星，或小卫星，是质量和大小较小的人造卫星，质量一般小于500千克（1100磅）。尽管这种类型的卫星可被通称为“小型卫星”，但对这一范畴中不同种类的划分通常视其质量而定。研发
加那利群岛加那利群岛（西班牙语：Islas Canarias，亦称Canarias）是一个西班牙的群岛及西班牙位置最南的自治区，位于大西洋中，在摩洛哥以西100公里处。该群岛也是欧盟特别领域中的外延地区之一
新加坡总统新加坡总统是新加坡共和国名义的国家元首，自1993年由全民直选。之前，总统由一院制国会选出，总理保有行政权。新加坡不设副总统职位。第一位直选总统是王鼎昌。现任总统是哈莉玛
负电荷在电磁学里，电荷（英语：electric charge）是物质的一种物理性质。称带有电荷的物质为“带电物质”。两个带电物质之间会互相施加作用力于对方，也会感受到对方施加的作用力，所涉及的
生态神学生态神学（英语：Ecotheology）是一种建设性神学（英语：Constructive theology），着重于宗教与自然的相互关系，特别是在环境问题上。生态神学通常建立在宗教世界观和环境危机（英语：Environ
流线型流线型是物体的一种外部形状，通常表现为平滑而规则的表面、没有大的起伏和尖锐的棱角。流体在流线型物体表面主要表现为层流，没有或很少有湍流，这保证了物体受到较小的阻力。流
阿萨迪电台阿萨迪电台（普什图语：ازادي راډیو‎，达里语：رادیو آزادی‎，英语：Radio Azadi，“Azadi”意为“自由”），旧称“自由阿富汗电台”（英语：Radio Free Afghanistan），是一家