百科 > 管理 > 信息管理术语

数据压缩

数据压缩(Data Compression)

什么是数据压缩

　　数据压缩是以尽可能少的数码来表示信源所发出的信号，减少容纳给定的消息集合或数据采样集合的信号空间。这里讲的信号空间，就是被压缩的对象，是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是相互关联的，存储空间的减少，意味着信号传输效率的提高，所占用带宽的节省。只要采取某种方法来减少某个信号空间，就能够压缩数据。

　　数据压缩是信息论中一个很重要的概念。从信息论的角度来看，信源编码的一个最主要的目的，就是要解决数据的压缩问题。这一点，反映在整个通信过程中。

数据压缩的基本原理

　　一般来说，数据压缩主要是通过数据压缩编码来实现的。要想使编码有效，必须建立相应的系统模型。在给定的模型下，通过数据编码来消除冗余，大致有如下三种情况。

　　(1)信源符号之间存在相关性。如果消除了这些相关性，就意味着数据压缩。譬如，位图图像像素与像素之间的相关性，动态视频帧与帧之间的相关性。去掉这些相关性，通常采用预测编码、变换编码等方法。

　　(2)信源符号之间存在分布不等概性。根据不同符号出现的不同概率，分别进行编码，概率大的符号用较短的码长编码，概率小的符号用较长的码长编码，最终使信源的平均码长达到最短。对此，通常采用统计编码的方法。

　　(3)利用信息内容本身的特点(如自相似性)。用模型的方法，对需传输的信息进行参数估测，充分利用人类的视觉、听觉等特性，同时考虑信息内容的特性，确定并遴选出其中的部分内容(而不是全部内容)进行编码，从而实现数据压缩。通常采用模型基编码的方法。

　　随着数字通信和计算机技术的不断发展，有关数据压缩的技术正不断成熟和完善，而且适应各种应用的新的编码方法也不断产生。一般说来，可供压缩的数据分为两大类：一类是与文字和字符有关的文本数据；另一类是将模拟信号数字化后得到的多媒体数据。两类数据所采用的数据压缩方法相应不同。此外，文本数据压缩和多媒体数据压缩(如视觉类和听觉类媒体)在算法上存在一定区别，主要表现在两个方面：是否允许有误差；压缩算法有没有高级模型可以利用。

数据压缩的基本方法

　　目前，比较认同的常用的数据压缩的编码方法，大致分为两大类。

　　(1)冗余压缩法或无损压缩法。

　　冗余压缩法或无损压缩法又称为无失真压缩法或熵编码法。这类压缩方法只是去掉数据中的冗余部分，并没有损失熵，而这些冗余数据是可以重新插入到原数据中的。也就是说，去掉冗余不会减少信息量，而且仍可原样恢复数据。因此，这类压缩方法是可逆的。

　　(2)熵压缩法或有损压缩法。

　　这类压缩法由于压缩了熵，也就损失了信息量，而损失的信息是不能恢复的。因此，在用门限值来采样量化时，如果只存储门限内的数据，那么原来超过这个预置门限的数据就将丢失。这种压缩方法，虽然可压缩大量的信号空间，但那些丢失的实际样值就不可能恢复了，是不可逆的。也就是说，在用熵压缩法时，数据压缩要以一定的信息损失为代价，而数据的恢复只能是近似的，应根据条件和要求，在允许的范围内进行压缩。

数据压缩的分类

　　数据压缩按照映射是否固定可分为静态数据压缩和动态数据压缩。静态数据压缩是指压缩前源消息集到码字集之间的映射是固定的，出现在被压缩数据中的源消息每次都被映射为同一码字。动态数据压缩是指源消息集到码字集的映射会随着压缩进度的变化而变化。静态压缩编码需要两步，先计算出源消息出现的频率，确定源消息到码字之间的映射；然后完成映射。动态数据压缩则只需一步就能完成，它在压缩过程中只对源消息集扫描一次。有些数据压缩算法是混合型的，综合应用了静态数据压缩和动态数据压缩技术。

评价数据压缩的标准

　　从实际应用来说，数据压缩可从数据压缩速度和数据压缩率两方面来衡量。当数据压缩应用于网络传输时，主要考虑速度快慢；当数据压缩应用于数据存储时，主要考虑压缩率，即压缩后数据的大小。当然这两方面是相辅相成的。

　　常用的评价标准有冗余度、平均源信息长度、压缩率等。对于一种编码方式是否为较好的编码，主要看该编码的冗余度是否最小。

常见的数据压缩工具

　　现在操作简单、使用方便、功能强大的数据压缩工具有很多。最常见的是WinZip和Win-RAR。

数据压缩的国际标准

　　20世纪80年代．国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)组成的联合图像专家组制定的静止图像压缩标准JPEG和运动图像视频压缩标准MPEG已被广泛采用。

　　1．JPEG标准

　　JPEG标准适用于色调和多级灰度的静态图像，一般对单色和彩色图像的压缩比通常分别为10：1和15：1，常用于CD—ROM、彩色图像传真和图文管理。许多Web浏览器都将JPEG图像作为其标准的图像文件格式。

　　2．MPEG标准

　　MPEG标准不仅适用于运动图像，也适用于音频信息，它包括了三部分：MPEG视频、MPEG音频、MPEG系统(视频和音频的同步)。MPEG视频是MPEG标准的核心。MPEG标准已指定了MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21等多种标准。

　　MPEG-1是为有限带宽传输设计的，数据传输率为l～1．5Mb／s，平均压缩比为50：1，可达到一般录像机所要求的质量。它常用于VCD压缩，一部120分钟长的电影可压缩到1．2GB左右。

　　MPEG-2是为高带宽传输设计的，数据传输率为4～10Mb／s，压缩比高达200：1，可支持播放高质量的数字式电视，常用于DVD压缩。MPEG-4是“甚低速率视听编码”标准，数据传输率小于64Kb／s。多应用在移动多媒体通信、因特网、实时多媒体监控以及其他低数据传输速率的场合。

　　3．H．261视频通信编码标准

　　国际电报电话咨询委员会于1988年针对可视通信的需要，提出电视电话／会议的H．261编码标准，即P*64视频编码／解码标准。这是一种关于视频和声音的以64kb／s的整数倍作为传输速率的双向传输标准。其中P是一个通道可变参数，取值为1～30。当P=1或P=2时支持四分之一中间格式(QCIF)的帧率较低的视频电话传输；当P≥6时支持能用中间格式(CIF)的帧率较高的电视会议数据传输。

　　在H．261标准中，图像采用公共中间格式CIF和1／4CIF，H．261标准与MPEG标准是相互不兼容的。

参考文献

↑ ^1.0 ^1.1 ^1.2 夏定元编著.多媒体通信原理、技术与应用.华中科技大学出版社,2010
↑ ^2.0 ^2.1 ^2.2 赵泉等编著.信息检索.机械工业出版社,2008
胡春安主编.大学计算机基础.清华大学出版社,2009

阅读数：813