第2章压缩编码技术.

第2章压缩编码技术

本章结构压缩编码技术

学习目标 1．知识目标：知道流媒体数据可以压缩的原因；了解有损编码和无损编码的区别；了解压缩编码的分类；掌握霍夫曼编码、算术编码、行程编码；了解预测编码和变换编码的基本原理；了解MPEG-4、MPEG-7、MPEG-21编码标准；了解H.26x标准，掌握MPEG-2标准；了解音频压缩，掌握恒定比特率压缩与可变比特率压缩的区别。 2．能力目标：能按照霍夫曼编码、算术编码、行程编码的原理，写出对数据压缩后的结果；能对不同压缩状态下视音频的数据量进行计算。 3．素质目标：能根据不同的网络条件选择合适的编码方法。学习导入问题：两个同学用DV拍了一个非常满意的短片，但是由于文件太大，无法发布到酷6网；原来需要将视频压缩才行。

2.1概述 2.1.1压缩的必要性 2.1.2压缩的可行性 2.1.3压缩编码的分类 2.1.4常用的压缩方法

2.1.1压缩的必要性数字压缩技术不仅是音视频通信的需要，也是高效利用网络资源、降低用户通信费用的有效途径，还是使流媒体走向实用化的关键技术之一。问题：尝试计算一个7GB的DVD 视频文件，在2Mb的理论带宽下需要下载多少个小时？约等于8个小时

2.1.2压缩的可行性 1．空间冗余 2．时间冗余 3．信息熵冗余 4．结构冗余 5．知识冗余 6．视觉冗余

2.1.2压缩的可行性 1．空间冗余视频图像通常与它周围的某些像素在亮度和色度上相同或非常接近，存在一定的相关性。这些相关性的光成像结果在数字化图像中就表现为数据的空间冗余。

2.1.2压缩的可行性 2．时间冗余指活动图像连续的帧之间的冗余。相邻两帧图像的内容差别不大，往往背景相同，只不过移动物体所在的空间位置略为不同，即后一帧数据与前一帧数据有诸多相同之处，这就表现为时间冗余。

2.1.2压缩的可行性 3．信息熵冗余信息熵冗余又称编码冗余。信息熵是指一组数据所携带的信息量。而对于实际图像数据的每个像素，很难得到它的信息熵，因此一般是对每个像素采用相同的比特数来表示，这样就必然存在冗余，这种冗余称为信息熵冗余。

2.1.2压缩的可行性 4．结构冗余许多图像存在着较强的纹理结构。在图像纹理区，图像的像素值存在着明显的分布模式，如瓦片构成的屋顶、方格状的地板图案等，如果对相似的、对称的结构都加以记录，就会出现结构冗余。

2.1.2压缩的可行性 5．知识冗余有许多图像的理解与某些先验知识有相当大的相关性。例如，人脸的图像有同样的结构：嘴的上方有鼻子，鼻子上方有眼睛，鼻子在中线上等。这些规律的结构可由先验知识和背景知识得到，这类冗余称为知识冗余。

2.1.2压缩的可行性 6．视觉冗余人类视觉系统对亮度变化敏感，而对色度变化相对不敏感。在高亮区，人眼对亮度变化敏感度下降，致使对内部细节相对不敏感，而对整体轮廓敏感。因此，人类视觉系统并不是对图像的任何变化都能感知出来，表现为视觉冗余。

2.1.3压缩编码的分类从信息论的角度出发，把它分为无损压缩和有损压缩两大类

2.1.3压缩编码的分类无损压缩是利用数据的统计特性对图像进行的压缩，即解压缩后的图像与原图像相一致而不存在任何失真，但压缩率受到数据统计冗余度的理论限制，一般为2:1到5:1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据（如指纹图像、医学图像）的压缩。

2.1.3压缩编码的分类有损压缩也称信息量压缩方法，即解压缩后的图像与原图像不一致，存在数据丢失的现象，并且丢失的这些数据不可恢复，但可以利用人的视觉特性使解压缩后的图像看起来与原始图像一样。有损压缩的压缩比一般为100：1~200：1。

2.1.4 常用的压缩方法 1.无损压缩编码常用的无损压缩方法有香农-范诺（Shannon-Fano）编码、哈夫曼（Huffman）编码、RLE（run-length encoding，行程编码）、LZW（Lempel-Ziv-Welch）编码和算术编码。

2.1.4 常用的压缩方法 1）香农-范诺编码（1）基本概念 ① 熵
熵（Entropy）是度量信息量的一种方法，它通常表示事件发生的概率越大，确定性越强，携带的消息量越少。信息熵：信息的基本作用就是消除人们对事物的不确定性。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。一个系统越是有序，信息熵就越低；　　反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

2.1.4 常用的压缩方法 ② 信源S的熵按照香农的理论，信源S的熵定义为： pi表示符号Si在S中出现的概率

2.1.4 常用的压缩方法（2）算法步骤—从上往下 ① 按照符号出现的概率减少的顺序将待编码的符号排成序列；
② 将符号分成两组，使这两组符号的概率之和相等或几乎相等； ③ 将第一组赋值为0，第二组赋值为1； ④ 对每一组，重复步骤 2 的操作。

香农-范诺编码的应用: 假设有一幅80个像素组成的图像，颜色共有8种，分别用符号A、B、C、D、E、F、G和H表示，80个像素中符号出现的情况如表2-1所示。

这种方法采用从上到下的方法进行编码。最后的编码如下图所示：
按照香农理论，这幅图像的熵为： H(S)=(20/80)log2(80/20)+(20/80)log2(80/20)+(10/80)log2(80/10)+…+(5/80)log2(80/5) =2.75 这种方法采用从上到下的方法进行编码。最后的编码如下图所示：

具体编码情况如下图和表2-2所示。存在问题： 1，同步问题，如1100与100要用特殊的间隔符来区分
2，一些码变长了，如E~H，变为了4位

压缩率对比 --编码前：用3个位表示8个等级的颜色值(A~H)，也就是每个像素用3位表示(000~111)，编码这幅图像总共需要240位。
--编码后：按照这种方法进行编码得到的总位数为220，压缩比约为1.09 : 1。

思考一下存在问题： 1，同步问题，如1100与100要用特殊的间隔符来区分 2，一些码变长了，如E~H，变为了4位

2.1.4 常用的压缩方法 2）霍夫曼(Haffman)编码
霍夫曼编码是依据香农和范诺阐述的编码思想提出的一种不定长编码的方法，其编码完全依据字符出现概率来构造平均长度最短的码字，有时称之为最佳编码。

2.1.4 常用的压缩方法（1）基本方法（2）算法步骤—从下往上 ① 按照符号出现的概率减少的顺序将待编码的符号排成序列； ② 把概率最小的两个符号组成一个新节点，其概率等于原两个符号之和； ③ 重复2，直到形成一个节点为止(树)，其概率为1； ④ 从根节点开始回溯到原始符号，并将每个下分支赋值为1，上分支赋值为0。

2.1.4 常用的压缩方法（3）示例：霍夫曼编码的过程字母A、B、C、D、E出现的概率为：p（A）=0.16、p（B）=0.51、p（C）=0.09、p（D）=0.13、p（E）=0.11。

2.1.4 常用的压缩方法与香农-范诺编码相比： 1，该方法自含同步码，在编码之后的码串中不需要另外添加标记符号(即在译码时分割符号的特殊代码)。例如，码串中的第一位为0，那么肯定是符号B，因为其它符号没有一个是从0开始的。 2，霍夫曼编码的编码效率比香农-范诺编码效率高。

2.1.4 常用的压缩方法课题练习：比较香农和哈夫曼编码，将前面的哈夫曼编码案例进行香农编码香农：从上往下走；哈夫曼：从下往上走 B
ADEC AC DE A C D E 1 (0) (100) (101) (110) (111) 香农：从上往下走；哈夫曼：从下往上走香农：从上往下走；哈夫曼：从下往上走

2.1.4 常用的压缩方法 3）算术编码算术编码应用于JPEG/JBIG图像数据压缩，它不用二进制代码来表示符号，而改用[0，1）中的一个宽度等于其出现概率的实数区间来表示一个符号，符号表中的所有符号刚好布满整个[0，1）区间（概率之和为1，不重不漏）。输出：把输入符号串（数据流）映射成[0，1）区间中的一个实数值。 Low=low+range×rangelow(字符分配的间隔低端) High=low+range×rangehigh (字符分配的间隔高端) Range=high-low

算术编码的过程设输入数据为eaiou，其出现的概率和所设定的取值范围如表2-3所示表2-3 信源符号、概率和初始编码间隔
初始化，Low=0，high=1；从字母e开始计算，最后eaiou输出为 (下界) 字符 a e i o u 概率 0.2 0.3 0.1 初始编码间隔 [0，0.2] [0.2，0.5] [0.5，0.6] [0.6，0.8] [0.8，1.0] Rangelow rangehigh是固定不变的 Low=low+range×rangelow(字符分配的间隔低端) High=low+range×rangehigh (字符分配的间隔高端) Range=high-low

2.1.4 常用的压缩方法算术编码具有以下特点 ① 必预先定义概率模型； ② 信源符号概率接近时，建议使用算术编码，这种情况下其效率高于哈夫曼编码； ③ 实现方法相对复杂，但其编码效率比哈夫曼编码高5%左右，因此在JPEG扩展系统中用算术编码取代哈夫曼编码。

2.1.4 常用的压缩方法 4）RLE编码 RLE又称“运行长度编码 ”或“游程编码 ”，是一种统计编码。
基本原理是：用一个符号值或串长代替具有相同值的连续符号（连续符号构成了一段连续的“行程”，行程编码因此而得名），使符号长度少于原始数据的长度。 RLE，一个图像中有许多颜色相同的图块，许多行上都具有相同的颜色，或者一个行上有许多颜色值相等的像素。

“5555557777733322221llllll” RLE编码为：（5，6）（7，5）（3，3）（2，4）（l，7 ）

2.1.4 常用的压缩方法 2.预测编码预测编码主要消除图像的时间冗余度。常用的预测编码方法包括DPCM（differential pulse code modulation，差分脉冲编码调制）、ADPCM (adaptive difference pulse code modulation，自适应差分预测编码)和帧间预测编码。

2.1.4 常用的压缩方法 1）DPCM DPCM的思想是：依据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。

2.1.4 常用的压缩方法 DPCM的工作过程如图2-5所示。

2.1.4 常用的压缩方法 2）ADPCM ADPCM就是预测器和量化器的参数能根据图像不同位置的具体特点进行自动调节，从而匹配图像的局部变化，具有更大的灵活性，并获得进一步的压缩效果或提高压缩质量。

2.1.4 常用的压缩方法

2.1.4 常用的压缩方法 3）帧间预测编码帧间预测编码是利用视频图像帧间的相关性，即时间相关性，来达到图像压缩的目的，即不直接传送当前帧的像素值，而是传送当前帧与其前一帧或后一帧之间的差值。

2.1.4 常用的压缩方法 3.变换编码变换编码就是将图像时域信号(时间)变换到频域信号(频率)或者将原始数据“变换”到另一个更为紧凑的表示空间，消除空间冗余，进行压缩编码的方法。时间域中信号需要许多数据点表示；在x轴表示时间，在y轴表示幅度。信号一旦用傅立叶变换转换到频率域，就只需要几点就可以表示这个相同的信号。如我们已经看到的那样，原因就是信号只含有少量的频率成分。这允许在频率域中只用几个数据点就可以表示信号，而在时间域中表示则需要大量数据点。时域函数通过傅立叶或者拉普拉斯变换就变成了频域函数。

1）DCT(离散余弦变换) DCT编码的基本思想是：源图像在输入到编码器之前，被分割成一系列按顺序排列的8×8像素的图像块，同时把作为原始采样数据的无符号整数转换成有符号整数，这一过程叫正交变换。
时域函数通过傅立叶或者拉普拉斯变换就变成了频域函数。有序

低频分量在左上角、高频分量在右下角（不影响图像基本内容的细节，可去掉）
EOB表示剩余都为0

2.1.4 常用的压缩方法 2）小波变换编码小波变换用于图像编码的基本思想就是把图像进行多分辨率分解，分解成不同空间、不同频率的子图像，然后再对子图像进行系数编码。

2.1.4 常用的压缩方法 4.其他编码方法 1）子带编码子带编码就是利用数字滤波器将输入的数字信号分解成频域不相关的、具有不同能量成分的频带，然后根据各频带的特性进行量化、编码。

2.1.4 常用的压缩方法 2）模型编码模型编码是利用计算机视觉和计算机图形学的知识对图像信号的分析与合成。模型编码中比较典型的是分形编码。

2.1.4 常用的压缩方法 3）矢量量化编码量化编码按一次量化的码元个数，可分为标量量化和矢量量化。标量量化就是对数字化后的数据一个一个地量化，而矢量量化就是将这些数据分组，每组m个数构成m维矢量，再以矢量为单元逐个进行量化。

2.1.4 常用的压缩方法 4）混合编码混合编码就是同时采用多种编码方法所形成的编码。例如，将变换编码和预测编码结合起来所形成的MPEG编码。

2.2网络视频压缩编码的标准 2.2.1 MPEG标准 2.2.2 H.26X标准

2.2.1 MPEG标准 1．MPEG 概述 1）MPEG系统的组成 MPEG系统主要由以下部分组成：
（4）一致性测试。

2.1.3压缩编码的分类 2）MPEG视频编码技术 MPEG对视频压缩编码采用两种基本技术：一种是基于块的运动补偿技术，以减少时间冗余；
另一种是基于DCT变换的ADCT（adaptive DCT，自适应余弦变换），以减少空间冗余。

2.2.1 MPEG标准 3）MPEG的视频数据流结构 MPEG的视频数据流采用分层结构，包括序列层、图像组层、图像层、片层、宏块层、块层等六个层次。宏块通常是16*16个像素；块层是基本的编码单元，DTC对其进行处理

2.2.1 MPEG标准宏块的3个类型和结构：宏块类型分为：1种亮度宏块Y和2种色度宏块Cb/Cr。 4:2:0 4:2:2 4:4:4

2.2.1 MPEG标准 4）MPEG的运动图像类型 I帧：I帧是帧内压缩，由于I帧不依赖于其他帧，因而是随机存取的入点，也是解码中的基准帧。 P帧：用最近的前一个I帧或P帧预测编码得到（前向预测），使用运动补偿算法进行压缩，因而压缩比要比I帧高，数据量平均达到I帧的1/3左右。P帧是对前后的B帧和后继的P帧进行解码的基准帧。

2.2.1 MPEG标准 B帧：B帧基于前后的两个I、P帧或P、P帧，它使用双向预测，数据量平均可以达到I帧的1/9左右。B帧本身不作为基准，因此可以提供更高的压缩比。

2.2.1 MPEG标准 5）运动补偿技术运动补偿技术的主要原理是依据图像的运动情况，把图像分割成静止部分和运动部分，并分别进行处理。
静止部分可以重复使用上一帧的数据，而对运动部分则设法确定其位移量，以位移量来帮助进行运动部分的预测，即进行补偿，之后再进行帧间预测。

2.2.1 MPEG标准 2．MPEG-1 标准 MPEG-1标准的主要任务是将视频信号及其伴音以可接收的重建质量压缩到约1.5Mbit/s的码率，并复合成一个单一的MPEG位流，同时保证视频和音频的同步。

2.2.1 MPEG标准 1）MPEG-1系统 MPEG-1系统规定了有关同步和多路复合的技术，用来把数字视频图像和伴音复合成单一的、位速率为l.5Mbit/s的数据位流。

2.2.1 MPEG标准 2）MPEG-1视频 MPEG-1视频是MPEG-1标准的核心,是为了适应在数字存储媒体如CD－ROM(数据传输率不低于150KB/s,容量不低于650MB)上有效地存取视频图像而制定的标准。

2.2.1 MPEG标准 3．MPEG-2标准（1）MPEG-2系统
适合用于广播级的数字视频信息编码的存储和发送，被认定为SDTV和HDTV的编码标准。其编码率从3-100Mbps可变。 MPEG-2还专门规定了多套节目的复用分接方式，可用于VOD系统。

2.2.1 MPEG标准 4．MPEG-4标准 1）MPEG-4的特点（1）基于内容的交互性（2）高效的压缩性
压缩比高，三维游戏、电影的多声道或多视角数据同步压缩（3）通用的访问性可分级；支持不同带宽的传输信道和不同存储容量的接收端 MPEG-4适用于交互式音视频服务以及远程监控。

2.2.1 MPEG标准 2）MPEG-4视频编码核心思想
在制定MPEG-4之前，MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术，着眼于图像信号的统计特性来设计编码器，属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧，每一帧图像又分成宏块以进行运动补偿和编码，这种编码方案存在以下缺陷：

2.2.1 MPEG标准（1）将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应；（2）不能对图像内容进行访问、编辑和回放等操作；（3）未充分利用HVS（human visual system，人类视觉系统）的特性。 HVS，从图像传输的轮廓和纹理思路出发，先模糊的轮廓再补充细节 HVS，从图像传输的轮廓和纹理思路出发，先显示模糊的轮廓再补充细节

2.2.1 MPEG标准 3）关键技术（1）音视频对象(AVO, audio visual object)提取技术
（2）VOP(视频对象平面)视频编码技术（3）视频编码可分级性技术（4）运动估计与运动补偿技术（5）Sprite视频编码技术 Sprite背景图像 VOP编码技术：对前景VO的压缩编码尽量保留细节和平滑，对背景VO则采用高压缩率编码策略。 Sprite视频编码技术：一种更为先进的运动估计和补偿技术，克服固定分块的缺点；指视频对象在视频序列中所有出现部分经过拼接而成的一幅图像。Sprite编码技术是针对背景对象的特点提出的。通常情况下背景对象自身没有任何运动，由于摄象机的运动而造成图象序列中的背景变化，通过图象的镶嵌技术把整个序列的背景图象拼接成一个大的完全的背景图象，这个图象就叫Sprite图象一个sprite是由一个视频序列中属于同一个视频对象的所有像素构成的，是由各部分经拼接而成的一幅图像，它是MPEG-4提出的重要的概念之一。Sprite可以是一个拼接的视频对象，也可以是背景全景图，如图所示，左上角的图是一个背景全景图；右上角的图是一个没有背景的子图像全景图，也就是一个完整的网球运动员，该网球运动员就是一个视频对象，是一个可以独立运动的Sprite图像。

2.2.1 MPEG标准 4) MPEG-4标准的构成（1）DMIF（delivery multimedia integration framework，多媒体传输集成框架）。（2）场景描述。主要用于描述单个AVO如何在一个具体AV场景坐标下的组织与同步等问题。（3）音频编码。MPEG-4的音频部分将音频的合成编码和自然声音的编码相结合，并支持音频的对象特征，支持MIDI和TTS技术。（4）视频编码。MPEG-4也支持对自然和合成的视觉对象的编码，合成的视觉对象包括2D、3D动画和人面部表情动画等。（5）缓冲区管理和实时解码。MPEG-4定义了一个系统解码模式（SDM），该模式描述了一种理想的处理比特流句法语义的解码装置，它要求特殊的缓冲区和实时模式。

2.2.1 MPEG标准 5．MPEG-7标准 1）MPEG-7标准的研究范围
MPEG-7 标准的主要目标是建立对多媒体内容的描述标准，这里的多媒体内容是指图形、图像、3D 模型、音频、语音、视频以及由它们组合在一起所形成的多媒体信息。 2）MPEG 7 标准的描述框架 MPEG-7 提供了一个通用的、灵活的和可扩展的多媒体内容描述框架，它由D（descriptor，描述符）、DS（description scheme，描述方案）、DDL（description definition language，描述定义语言）和对这些描述进行编码的方法和工具组成。

2.2.1 MPEG标准 3）MPEG-7多媒体描述方案 MPEG-7 多媒体描述方案是描述和注释多媒体内容的元数据结构，包括通用特征和多媒体描述的描述符和描述方案。 4）MPEG-7系统部分 MPEG-7系统部分要保证MPEG-7各种描述能够被快速传送和存取，并且要保证内容与描述之间的同步性，同时管理和保护知识产权问题。

2.2.1 MPEG标准 5）MPEG-7视频 MPEG-7具体对视频方面的描述符和描述方案有以下方面的要求：
特征类型。视觉描述允许以下特征：颜色、视觉对象、纹理、轮廓、形状、静止和动态图像、体积、空间关系、运动、变形、视觉对象的源和它的特性、模型。

2.2.1 MPEG标准 6）MPEG-7的应用 MPEG-7可以进行检索／定位（Pull）应用和过滤（push）应用。同时MPEG-7可以应用在实时也可以在非实时环境中。

2.2.1 MPEG标准 6．MPEG-21标准 MPEG-21标准其实就是一些关键技术的集成，通过这种集成环境就对全球数字媒体资源进行透明型和增强型管理，实现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终端和网络资源抽取、事件报告等功能。

2.2.2 H.26X标准 1.H.261 标准 H.261标准主要应用在ISDN（integrated services digital network，综合业务数字网）上传输电视电话会议等低码率的多媒体领域。综合业务数字网（ISDN），俗称“一线通”。它除了可以用来打电话，还可以提供诸如可视电话、数据通信、会议电视等多种业务，从而将电话、传真、数据、图像等多种业务综合在一个统一的数字网络中，在不同的信道进行传输和处理。128kb/s

2.2.2 H.26X标准 2）压缩数据的分层为了有序地传输每帧图像的数据，并有利于图像数据交换和与设备兼容，把一帧图像数据分成帧、宏块组（GOB）层、宏块（MB）层、块（Block）层来处理，如图2-18所示。

2.2.2 H.26X标准 3）编码算法 H.261编码算法类似于MPEG算法，但与后者不兼容。它在实时编码时所占用的CPU运算量比MPEG少得多，原因在于采用了图像质量与运动幅度相平衡的折衷机制（也就是说，剧烈运动的图像比相对静止的图像质量要差），优化了带宽占用量。因此，这种方法属于恒定码流可变质量编码。

2.2.2 H.26X标准 2.H.263 标准 H.263标准是替代H.261的一个ITU-T标准。 1）编码模式
（1）基于句法的算术编码模式基于语法的算术编码是一种效率较高的自适应算术编码，用它来代替哈夫曼编码，使得具有相同恢复能力的图像具有更好的压缩效率。

2.2.2 H.26X标准（2）PB-帧模式一个PB帧对两帧图像进行统一编码
一个PB帧包含一个由前面的P帧图像预测得出的P帧和一个由前一个P帧和当前解码的P帧共同预测得出的B帧。 B帧的得名是由于B帧的许多部分都需要从前面的帧和将来的帧进行双向预测共同得到。使用这种模式可以在比特率增加幅度很小的情况下大幅度增加帧频。

2.2.2 H.26X标准（3）无限制的运动矢量模式它为运动矢量指出图像外部边界，这对运动方向在边沿的小图像运动特别有用。当运动跨越图像边界时，由运动矢量所确定的宏块位置可能有一部分落在边界之外，此时可以用边界上的像素值表示界外的像素值，从而降低预测误差。（4）先进预测模式 P-帧亮度使用交叠的块运动补偿技术，每个宏块编码器能使用一个16×16 矢量或4个8×8矢量。使用比较小的矢量需要更多的位元但能产生更好的预测。

2.2.2 H.26X标准 2）H.263标准的改进 ITU-T在H.263发布后又进行了修订，非正式地命名为H.263+标准。H.263+在保证原H.263标准核心语法和语义不变的基础上，提供了12个新的可协商模式和其他特征，进一步提高了压缩编码性能和增强了应用的灵活性。为提高压缩效率，H.263+采用先进的帧内编码模式，增强的PB-帧模式改进了H.263的不足，增强了帧间预测的效果；去块效应滤波器不仅提高了压缩效率，而且提供重建图像的主观质量。另一重要的改进是可扩展性，它允许多显示率、多速率及多分辨率，增强了视频信息在易误码、易丢包异构网络环境下的传输。

2.2.2 H.26X标准 3. H.264标准 H.264是ITU-T的VCEG和ISO/IEC的MPEG的联合视频组开发的一个新的数字视频编码标准，它既是ITU-T的H.264标准，又是ISO/IECR MPEG-4的第10部分。 H.264集中体现了当今国际视频编码解码技术的最新成果。在相同的重建图像质量下，H.264比其他视频压缩编码具有更高的压缩比、更好的IP和无线网络信道适应性。

2.2.2 H.26X标准 1）分层设计 2）高精度、多模式运动估计 3）4×4块的整数变换 4）UVLC 5）帧内预测
6）面向IP和无线环境

2.3 视频压缩中的音频编码 2.3.1音频信号的数字化 2.3.2 MP3音频压缩编码

2.3.1音频信号的数字化 1.采样模拟音频信号作为连续信号，可用连续时间函数表示x(t)。数字化时，必须先对这种连续信号进行采样，即按一定的时间间隔（T）取值，得到x(nT)（n为整数）。 T称采样周期，1/T称为采样频率， x(nT)是离散信号

2.3.1音频信号的数字化 2.量化量化的过程如下：量化器先将整个幅度划分成为有限个小幅度（量化间隔）的集合，把落入某个间隔内的样值归为一类，并赋予相同的量化值,用多位二进制表示。量化间隔的数目，称为量化级。量化过程存在量化误差，在还原信号的D/A转换后，这种误差作为噪声再生，称为量化噪声。量化级数越多，量化误差就越小，质量就越好。

2.3.1音频信号的数字化例如，用44.1kHz的采样频率进行采样，量化位数选用16位，则录制1s的两声道立体声节目，其波形文件大小为多少字节(byte)？ 44100*16*2*1/8=176400（B）

2.3.1音频信号的数字化 3.编码编码是根据一定的协议或格式把模拟信息转换成二进制比特流的过程。多媒体信息数字化的过程中，最简单的编码方式就是直接用量化后的二进制数作为输出的数字信号，这种编码方式也就是PCM编码。

2.3.2 MP3音频压缩编码 Mp3（MPEG-1 layer 3，MPEG-1的第3层）是目前最常用的音频压缩编码标准之一。它结合了MUSICAM (掩蔽型通用子带综合编码和复用)和ASPEC (自适应谱分析听觉熵编码)两种算法，压缩比达10：1~12：1，能在低码率下保证音频的高品质，因而在网络视频中常用来对音频信号进行编码。

2.3.2 MP3音频压缩编码 MP3采用每声道64kbit/s，用混合滤波器组提高频率分辨率，按信号分辨率分成6×32或18×32个子带，克服了平均32个子带的MP1、MP2在中低频段分辨率偏低的缺点。MP3采用心理声学模型（即基于感知的模型）Ⅱ，增设非均匀量化器，量化值进行熵编码，整个过程如图2-19所示。

2.3.2 MP3音频压缩编码

2.3.2 MP3音频压缩编码 1.混合滤波器组混合滤波器组包括子带滤波器组和MDCT（改进的DCT）两部分。子带滤波器组编码完成样本信号从时域到频域的映射，并将规定的音频信号通过带通滤波器组分解成32个子带输出。子带滤波器组输出的32个子带时等带宽的，而由心理声学模型得出的临界带宽则不是等带宽的，所以为了使得进行编码的各个比例因子带与临界频带相匹配，需要对每个子带信号做MDCT变换。将子带滤波器组的输出送到MDCT滤波器组后，每组将细分为18条频线，共产生576条频线。

2.3.2 MP3音频压缩编码 2. 非均匀量化 MP3采用的是非均匀量化，或者说是一种非线性的量化关系，具体采用以下公式：
ix(i) = nint((xr(i)/quant)0.75−0.0946) 其中， ix(i) =第i个量化的绝对值， nint指四舍五入地取整数，xr(i)=第i频率线的绝对值，quant=实际的量化器台阶大小。

2.3.2 MP3音频压缩编码 3.编码量化后信息的编码有几种不同的编码方法。高频的一串零值用行程编码，没超过1的下个区域使用四维哈夫曼编码，其余的大值区域采用二维哈夫曼编码方案，而且可选择地分为三个亚区，每个有独立选择的哈夫曼码表。通过每个亚区单独的自适应码表，增强了编码效率，而且同时降低了对传输误码的敏感度。第3层中使用的最大码表是16×16条目，大值采用ESC机制来编码。

2.3.2 MP3音频压缩编码 4. 比特流组装比特流组装在两个嵌套的循环内完成频率线的量化和编码。在第一个循环内，调整全部的量化器台阶大小，以确保编码信息所需的数据量不超过每块的有效比特数。在第二个循环（外循环），计算结果用以评估施加了掩蔽条件的心理声学要求。这是一个分析/合成的过程，比较实际的量化噪声和先前计算的掩蔽门限以及对每个比例因子通带采取单独的加权因子。

2.3.2 MP3音频压缩编码 5.码流结构每帧1152个时域样值，并分为每组576个样值的两组。帧头（MPEG音频的所有层都使用）后跟着的是所有组的公共边信息，随后是组的边信息块，所有的模式中它们都是恒定长度（每个59比特）。每组的主信息长度明确地包含在边信息中，这样就很容易对位于每一块最后的辅助信息寻址。边信息总长度以及主信息长度通常是字节的整数倍。

2.4 网络视频的压缩编码策略 2.4.1选择正确的编码设置 2.4.2编码方式

2.4.1选择正确的编码设置 1．编码要符合用户的网络带宽 2．要根据实际应用选择码率 3．要根据应用形式选择编码方式
4．要根据网站的管理需求选择编码方式

2.4.2编码方式 1．CBR(恒定比特率)编码使用 CBR编码时，比特率在流的进行过程中基本保持恒定并且接近目标比特率，始终处于由缓冲区大小确定的时间窗内。 CBR编码的缺点在于编码内容的质量不稳定。因为内容的某些片段要比其他片段更难压缩，所以 CBR 流的某些部分质量就比其他部分差。此外，CBR 编码会导致相邻流的质量不同。通常在较低比特率下，质量的变化会更加明显。

2.4.2编码方式 2．VBR(可变码率)编码 VBR 编码是很有优势的:
使用 VBR 编码时，复杂的内容（例如新闻播音）不会受益于 VBR 编码。对混合内容使用 VBR 编码时，在文件大小相同的条件下，VBR 编码的输出结果要比 CBR 编码的输出结果质量好得多。在某些情况下，与 CBR 编码文件质量相同的 VBR 编码文件，其大小可能只有前者的一半。

2.4.2编码方式 3．两次通过编码对于一次通过编码，内容通过编码器的次数只有一次，并且在遇到内容时即进行压缩。而对于两次通过编码，则在第一次通过时分析内容，然后在第二次通过时根据第一次通过时收集的数据进行编码。两次通过编码可以生成质量更好的内容。

2.4.2编码方式 4．智能流技术视频提供商为用户提供服务的方法有两种。一种方法是创建多个不同连接速率的文件，服务器依据用户连接状况发送相应文件，但这会带来制作和管理上的困难，而且用户连接状况是动态变化的，服务器也无法实时协调。另一种方法是采用智能流技术（SureStream）。

2.5 拓展学习王春海.网络视频技术及应用标准教程：第1章网络视频服务基础，人民邮电出版社，2002。
百度百科胡国荣.数字视频压缩及其标准：第1章、第2章、第4章、第9章，北京广播学院出版社，1999。毕厚杰.新一代视频压缩编码标准：第2、3、4、5章，人民邮电出版社，2005。

第2章压缩编码技术.

Similar presentations

Presentation on theme: "第2章压缩编码技术."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第2章 压缩编码技术.

Similar presentations

Presentation on theme: "第2章 压缩编码技术."— Presentation transcript:

Similar presentations

About project

反馈

第2章压缩编码技术.

Presentation on theme: "第2章压缩编码技术."— Presentation transcript: