第4章 限失真信源编码 4.1 连续信源的熵和互信息 4.2 信息率失真理论 4.3 标量量化编码 4.4 矢量量化编码 第4章 限失真信源编码 4.1 连续信源的熵和互信息 4.2 信息率失真理论 4.3 标量量化编码 4.4 矢量量化编码 4.5 语音压缩编码 4.6 图像压缩编码
4.1 连续信源的熵和互信息 前面研究的信源都是取值为有限或可数的离散信源,这些信源输出的消息属于时间离散、取值有限或可数的随机序列,其统计特性可以用联合概率分布来描述。而实际某些信源的输出常常是时间和取值都连续的消息。例如,语音信号、电视信号等都是时间的连续波形,而且,在某一固定时刻,它们的可能取值也是连续的,这样的信源称为随机波形信源。
随机波形信源输出的消息是随机的,因此,可用随机过程来描述。用随机过程描述其输出消息的信源称为随机波形信源。若信源输出用平稳连续型随机序列来描述,则此信源称为连续平稳信源。连续平稳信源也可分为连续平稳无记忆信源和连续平稳有记忆信源。平稳连续型随机序列中每个自由度上的变量是连续随机变量。用连续随机变量描述其输出消息的信源称为连续信源。下面讨论它们的信息测度。
连续信源基本的数学模型为 其中 R是全实数集,是连续变量X的取值范围, p(x)为x的概率密度。 定义连续信源的熵(差熵)为 (4―1)
式(4―1)定义的连续信源的熵并不是实际信源输出的绝对熵,连续信源的绝对熵应该再加上一项无限大的常数项。因为连续信源的可能取值有无限多个,若其取值是等概率分布的,那么,信源不确定性为无限大。当确知输出为某值后,所获得的信息量也将为无限大。可见,h(X)已不能代表信源的平均不确定性大小,也不能代表连续信源输出的信息量。
同理,可定义两个连续变量X,Y的联合熵和条件熵: (4―2) (4―3) (4―4)
这样定义的差熵具有可加性、凸状性和极值性,不存在非负性和变换不变性等。 设基本连续信道如图4―1所示。其输入和输出都是单个连续型随机变量的信道。可用模型{X,p(y|x),Y}来描述单符号连续信道。X是输入连续型随机变量,X取值区间为[a,b]或实数域 R;Y是信道输出连续型随机变量,取值区间为[a′,b′]或实数域 R;信道的传递概率密度函数为p(y|x),并满足: (4―5)
信道输入X满足: (4―6) 信宿接收Y满足: (4―7)
定义X和Y之间的平均互信息量为 (4―8) (4―9) (4―10)
连续信道的平均互信息量和离散信道下平均互信息量的关系式完全类似,且保留了离散信道平均互信息量的所有含义和性质。可见,将差熵定义为连续信源的熵是有重要实际意义的。 单符号连续信道的信息传输率: R=I(X;Y), 比特/自由度 (4―11) 多维连续信道平均互信息等相关内容可参见有关文献。
4.2 信息率失真理论 4.2.1 失真函数 由于只涉及信源编码问题,所以可以将信道编码和译码看成是信道的一部分。这样信宿收到消息的失真(或误差)只是由信源编码带来的。从直观感觉可知,若允许失真越大,信息传输率可越小;若允许失真越小,信息传输率需越大。所以信息传输率与信源编码所引起的失真(或误差)是有关的。
为了定量地描述信息传输率和失真的关系,可以略去广义的无扰信道,所谓广义无扰信道,是指把信道编码、信道、信道译码这三部分看成一个没有任何干扰的广义信道。另一方面用虚拟手法拿信道来表示失真信源编码的作用,把信源编码和信源译码等价成一个信道,由于是失真编码,所以信道不是一一对应的,用信道传递概率描述编、译码前后关系,这样通信系统可简化为如图4―2所示。
图 4―2
设离散无记忆信源: 信源符号通过信道传输到接收端,则接收端接收 变量为
对应于一对(u,v),定义一个非负函数: d(ui,vj)≥0, i=1,2,…,n;j=1,2,…,m (4―12) 称此函数为失真函数(或称单个符号失真度)。它用来测度信源发出一个符号ui,而接收端收到一个符号vj时所引起的误差或失真。
由于信源U有n个符号,而接收变量V有m个符号,所以d(ui,vj)就有n×m个,这n×m个非负的函数可以排成矩阵形式,即: (4―13) 称它为失真矩阵D,它是n×m阶矩阵。
失真函数可有多种形式,但应尽可能符合信宿的主观特性,即主观上的失真感觉应与d(ui,vj)的值相对应。D越大,所感觉到的失真也越大,而且最好成正比。当ui=vj时,d应等于零,表示没有失真,当ui≠vj时,d为正值。常用失真函数有: 均方失真: (4―14) 绝对失真: (4―15) 相对失真: (4―16)
误码失真: (4―17) 式中: x——信源输出消息; y——信宿收到消息。
均方失真和绝对失真只与(x-y)有关,而不是分别与x及y有关,在数学处理上比较方便;相对失真与主观特性比较匹配,因为主观感觉往往与客观量的对数成正比,但其数学处理困难得多。其实选择一个与主观特性完全匹配的失真函数已非常困难了,更不用说还要便于数学处理了。前三种失真函数适用于连续信源,最后一种失真函数适用于离散信源。误码失真函数表明,当接收符号与发送符号相同时,就不存在失真和错误,即失真度为零;当接收符号与发送符号不同时,就存在失真。
而且认为只要发送符号与接收符号不同,由此引起的失真都相同,即失真度为常数。如果常数值为1,则称为汉明失真。离散对称信源的汉明失真矩阵 D为一方阵,且对角线上的元素为零: (4―18)
【例4―1】 二元对称信源,信源U={0,1},接收变量V={0,1},在汉明失真定义下,失真函数为: d(0,0)=d(1,1)=0, d(0,1)=d (1,0)=1 它表示当信源发送符号0(或符号1)而信宿接收到符号0(或符号1)时,则认为无失真或无错误存在;反之,若发送信源符号0(或符号1)而信宿接收符号1(或符号0)时,则认为有错误,并认为这两种错误的后果是等同的。其失真矩阵为
【例4―2】 设信源U={0,1},接收变量V={0,1,2},定义失真函数为d(0,0)=d(1,1)=0,d(0,1)=d(1,0)=1,d(0,2)=d(1,2)=0.5,则失真矩阵 D为
【例4―3】 信源U={0,1,2},接收变量V={0,1,2},失真函数为d(ui,vj)=(ui-vj) 2,求失真矩阵。由失真定义得: d(0,0)=d(1,1)=d(2,2)=0 d(0,1)=d(1,0)=d(1,2)=d(2,1)=1 d(0,2)=d(2,0)=4 所以失真矩阵 D为
4.2.2 平均失真 因为信源U和信宿接收量V都是随机变量,因此单个符号失真度d(ui,vj)也是随机变量。定义传输一个符号引起的失真为平均失真,即信源平均失真: (4―19) 式中: ui——信源输出符号,i=1,2,…,n; p(ui)——信源输出符号ui的概率; vj——信宿接收符号,j=1,2,…,m; p(vj|ui)——广义无扰信道传递概率。
单个符号的失真度d(ui,vj)描述了某个信源符号通过传输后失真的大小。对于不同的信源符号和不同的接收符号,其值是不同的。但平均失真度已对信源和信道进行了统计平均,所以此值是描述某一信源在某一广义无扰信道(或称为试验信道)传输下的失真大小,是从总体上描述整个系统失真情况的。从单个符号失真度出发,可以定义长度为K的信源序列的失真函数和平均失真度。信源序列失真度(失真函数): (4―20)
式中: S——信源的一个输出序列; Y——信宿的一个接收序列; sl——信源输出序列中的一个符号; yl——信宿接收序列中的一个符号。
式(4―20)表明,信源序列的失真度等于序列中对应单个信源符号失真度之和。N维信源符号序列的平均失真度: (4―21) 则单个信源符号平均失真度: (4―22)
当信源与信道都是无记忆时,N维信源序列平均失真度为 (4―23) 式中: ——信源序列中第l个分量平均失真度。 此时单个信源符号平均失真度: (4―24)
若平均失真度 不大于所允许的失真D,即: (4―25) 称式(4―25)为保真度准则。 N维信源序列的保真度准则是:平均失真度 不大于允许失真ND,即: (4―26)
1.离散信源的信息率失真函数 在信源给定,又定义了失真函数以后,总希望在满足一定失真的情况下,使信源传输给信宿的信息传输率R尽可能地小。或者说,在满足保真度准则下,寻找信源必须传输给信宿的信息率R的下限值,这个下限值与D有关。从接收端来看,就是在满足保真度准则下,寻找再现信源消息所必须获得的最低平均信息量。而接收端获得的平均信息量可用平均互信息量I(U;V)来表示,这就变成了在满足保真度准则的条件下 ,
寻找平均互信息量I(U;V)的最小值。BD是所有满足保真度准则的试验信道集合,可以在D失真许可的试验信道集合BD中寻找某一个信道p(vj|ui),使I(U;V)取最小值。由于平均互信息量I(u;v)是p(vj|ui)的U型凸函数,所以在BD集合中,极小值存在。这个最小值就是在 条件下,信源必须传输的最小平均信息量。即 (4―27) 式中:BD——所有满足保真度准则的试验信道的集合。
称R(D)为信息率失真函数(或率失真函数),其单位为奈特/信源符号或比特/信源符号。 N维信源符号序列的信息率失真函数RN(D): (4―28) 式中: x——信源的一个输出序列; y——信宿的一个接收序列; ——N维信源符号序列的平均失真度。
2.连续信源的信息率失真函数 定义连续信源平均失真度为 (4―29) 式中: d(u,v)——连续信源失真函数; p(u)——连续信源u的概率密度; p(v|u)——信道传递概率密度。
根据连续信源平均失真度的定义,可求得平均互信息I(U;V)=h(V)-h(V|U),则连续信源的信息率失真函数: (4―30) 式中: BD——满足 ≤D的所有广义无扰信道集合; inf——指下确界。
3.保真度准则下的信源编码定理 定理4―1 (限失真信源编码定理) 设R(D)为离散无记忆信源X的信息率失真函数,R为信宿传输率,则当信息率R>R(D),只要信源序列长度L足够长,一定存在一种编码方法,其译码失真小于或等于D+ε,ε为任意小的正数;反之,若R<R(D),则无论采用什么样的编码方法,其译码失真必大于D。 如果是二元信源,对于任意小的ε>0,每一个信源符号的平均码长满足如下公式: (4―31)
该定理指出,在失真限度内使信息率任意接近R(D)的编码方法存在,然而,若信息率小于R(D),平均失真一定会超过失真限度D。 对于连续平稳无记忆信源,虽然无法进行无失真编码,但在限失真情况下,有与该定理一样的编码定理。该定理说明最佳编码是存在的,但对于如何进行编码却一无所知,因而就不能像无损编码那样从证明过程中引出概率匹配的编码方法,一般只能从优化的思路去求最佳编码。
这个定理证明了允许失真D确定后,总存在一种编码方法,使信息传输率R大于R(D)且可任意接近R(D),而平均失真小于允许失真D。反之,若R<R(D),那么该编码的平均失真将大于D。如果用二进制符号进行编码的话,在允许一定失真D的情况下,平均每个信源符号所需的二元码符号的下限值就是 R(D)。由此可见,信息率失真函数R(D)确实是在允许失真度为D的情况下信源信息压缩的下限值。当信源给定后,无失真信源压缩的极限值是信源熵H(U);有失真信源压缩的极限值是信息率失真函数H(D)。
在给定某D后,一般R(D)<H(U)。 同样,该定理只是一个存在定理。至于如何寻找最佳压缩编码方法,定理中并没有给出。在实际应用中,该定理主要存在以下两大类问题。 第一类问题是,符合实际信源的R(D)函数的计算相当困难。首先,需要对实际信源的统计特性有确切的数学描述。其次,需要对符合主客观实际的失真给予正确的度量,否则不能求得符合主客观实际的R(D)函数。
例如,通常采用均方误差来表示信源的平均失真度。但对于图像信源来说,均方误差较小的编码方法,人们视觉感到失真较大。所以,人们仍采用主观观察来评价编码方法的好坏。因此,如何定义符合主客观实际情况的失真测度就是件较困难的事。第三,即便对实际信源有了确切的数学描述,又有符合主客观实际情况的失真测度,而信息率失真函数R(D)的计算还是比较困难的。
第二类问题是,即便求得了符合实际的信息率失真函数,还需研究采用何种实用的最佳编码方法才能达到R(D)。 目前,这两方面工作都有进展。尤其是对实际信源的各种压缩方法,如对语音信号、电视信号和遥感图像等信源的各种压缩方法有了较大进展。相信随着数据压缩技术的发展,限失真编码理论中存在的问题将会得到解决。
4.3 标量量化编码 连续信源限失真编码的主要方法是量化,就是把连续的样值离散化为某些量化级数,所以量化也可称为数字化。量化后的信号也可称为数字信号,这种转换必将引入失真,量化时必须使这些失真最小。常用的量化方法有标量量化和矢量量化两种,所谓标量量化是指每次只量化一个模拟样本值,故又叫做零记忆量化。
4.3.1 均匀量化 标量量化中最简单的方法是均匀量化,也叫做线性量化。设量化器输入为x,对应实数值域空间为R,量化器输出为y,对应的实数值域空间为Rc,x和y的关系为 y=Q(x) (4―32)
设Rc对应取值范围[a0,an],a0可为负无限。an可为正无限。所谓均匀量化就是将区间[a0,an]分割为n个相等距离且互不重叠的子区间[ai,ai+1],取每个小区间的中点值作为量化值yi,即ai≤x≤ai+1时,yi=(ai+1+ai)/2,若x的概率分布函数为p(x),则: (4―33) 均匀量化的量化误差: (4―34)
量化器均方误差: 量化器输入方差: (4―35) (4―36) 量化器的信噪比SNR(Signal Noise Rate): 量化器的工作区域有三个。
1.正常量化区 当输入x∈[a0,an]时,量化器能得到正常的量化输出。 2.限幅区 当x<a0或x>an时,量化器分别输出常量a0+Δ/2和an-Δ/2。量化器此时处于限幅或过载工作状态,将会产生较大的失真。
3.空载区 当-Δ/2<x-ai<Δ/2时,将有两种情况: (1)当输入x=ai时,由于某种因素,使得x稍高于ai,则量化器输出上一级量化值yi+1;当输入x稍低于ai时;则输出下一级量化值yi-1,这时的误差为±Δ,量化器输出在两个量化级间往返跳动,形成一个矩形波输出,结果将产生点状噪声。 (2)输入x在ai之上或之下,量化输出分别为恒定值yi=ai+Δ/2或yi-1=ai-Δ/2。
4.3.2 最优量化 将样本值量化总要带来误差,因此,人们在设计量化器时,总希望其误差越小越好,即寻求最优量化误差。所谓最优量化就是使量化器的均方误差σ2e最小或信噪比SNR最大的量化。根据信息熵的理论可以推断,量化误差最小的最优量化器,对量化器输入区间的分割应该是非均匀的。由于最优量化与p(x)有关,因而区间分割也与p(x)有关,尤其当N足够大时,可以近似认为在各个子区间[ai,ai+1]上的概率分布p(x)为一常数,也就是说,在各子区间上可被视为均匀分布,即:
p(x)≈p(yi),x∈[ai,ai+1] (4―37) 因此,如果输入x的概率分布在 R上是均匀分布,其量化和最优量化是比较容易实现和讨论的,但对于一般标量量化的最优设计就不这样容易了。下面介绍MaxLivod两人提出的标量量化器的设计算法。
最优量化就是使量化器的均方误差σ2e为最小,将式(4―35)分别对ai和yi求导,并令其为零,即 (4―38) (4―39)
则 (4―40) (4―41)
这里求出的ai和yi的值,就是最优量化时的值。可见ai的最佳位置是输出yi-1和yi的中点,yi最佳位置在ai和ai+1区间的概率中心。一般情况下,ai和yi是互相制约、相互依赖的,不容易求出解析解,所以只能用递推公式获得近似解。MaxLivod采用的迭代方法如下: (1)任取y0; (2)由 计算a1;
(3)根据公式(4―40)计算y1; (4)重复步骤(2)、(3),分别计算出a2,y2,a3,y3,…,直至最后求得yn-1; (5)检验yn是否为[an-1,an]的概率中心,即式 是否成立,或在允许的一定误差范围内成立; (6)若步骤(5)满足,则过程结束,否则,重新选y0,重复上述操作步骤。
4.4 矢量量化编码 要想得到性能好的编码,仅采用标量量化是不可能的。在最佳编码中,如将离散信源的多个符号进行联合编码可提高效率,这对连续信源也是如此。当把多个信源符号联合起来形成多维矢量,再对矢量进行标量量化时,自由度将更大,同样的失真下,量化级数可进一步减少,码率可进一步压缩。这种量化叫做矢量量化。
实验证明,即使各信源符号相互独立,多维量化通常也可压缩信息率。因而矢量量化引起人们的兴趣而成为当前连续信源编码的一个热点。可是当维数较大时,矢量量化尚无解析方法,只能求助于数值计算;而且联合概率密度也不易测定,还需采用诸如训练序列的方法。一般来说,高维矢量的联合是很复杂的,虽已有不少方法,但其实现尚有不少困难,有待进一步研究。
设矢量量化器输入集为 X={X1,X2,…,XN},Xj∈X,Xj=(xj1,xj2,…,xjk), X∈R k(k维欧几里德空间),把R k划分成J=2 n个互不相交的子空间R1,R2,…,RJ,求出每个子空间的质心Yi,所有的 Yi构成 Y={Y1,Y2,…,YJ},Y为量化器的输出空间,也叫码书(或码本),Yi叫码字或码矢,J叫码书的长度。
对J阶K维的矢量量化,实质上是判断输入Xj∈ Rk属于哪个子空间Ri,然后输出该子空间代表码字 Yi,即: Yi=Q(Xj), 1≤i≤J,1≤j≤N (4―42) 这里 Yi就是Xj的编码。
实际编码时,在发送端只需记录代表码字Yi的下标i,所以编码过程是把X映射到I={1,2,…,J};而译码过程是在接收端依据收到的I代码,查找码书Y,获得码字Yi,用来代替Xj。由于总的码字个数J一般远小于总的输入信号N×K,所以矢量量化的压缩能力非常大。
传输或存储一个矢量所需比特为lbJ(一般 J=2n),它是一个K维矢量,就是K个输入信号,所以每个输入信号的平均比特只有lbJ/K,称之为压缩比。适当选取码书长度J和码字维数K,可以获得很大压缩比。矢量量化中码书的码字越多,维数越大,失真就越小。只要适当地选择码字数量,就能控制失真量不超过某一给定值,因此码书控制着矢量的大小。矢量量化时每输入一个 Xj,都要和J个码字 Yi逐一比较,搜索与其最接近的码字 Yi。由于两者均为K维矢量,所以工作量很大。矢量量化是定长码,容易处理。
矢量量化由码书 Y和划分Ri的条件惟一确定。当码书确定后,通过最近邻域准则可以惟一确定区域分割。因此,最佳量化器的设计也就是最佳码书Y的设计。前面,在讨论一维标量的最佳设计时,引入了MaxLivod的迭代算法,1980年Linde、Buzo和Gray将此算法推广到了多维空间,称作LBG算法。因LBG算法由于理论上的严密性和实现的简便性以及较好的设计效果而得到了广泛的应用,并成为各种改进算法的基础。有关LBG算法等知识请参阅有关文献。
4.5 语音压缩编码 对语音信号的压缩,人们有较强的兴趣,因为电话还是当前主要的通信手段之一,业务量也很大,尤其在移动通信中,由于无线频带有限,更需以低比特率传送。众所周知,语音压缩编码可划分为波形编码、参量编码和混合编码三大类型。波形编码的目的是在接收端恢复发端原语音的波形,并以波形的保真度即自然度为主要度量指标。参量编码不同于波形编码,它主要跟踪波形产生的过程,
并且仅传送反映波形变化的主要参量,在接收端根据语音产生过程,利用这些参量恢复语音。它又称为声码器,其主要度量指标是可懂度。混合编码则介于波形编码与参量编码之间,即在参量编码的基础上,引入了波形编码的特征,以达到改善自然度的目的,因此,它一般也称混合编码为软声码器。由于语音信源是属于连续的限失真信源,可以根据R(D)函数理论探讨波形编码的理论压缩极限。
由信息论可知,若要语音基本达到公用网入网信噪比标准,且大于26dB,那么理论压缩倍数大约为3 由信息论可知,若要语音基本达到公用网入网信噪比标准,且大于26dB,那么理论压缩倍数大约为3.4,若进一步考虑到实际语音分布和主观因素影响后,大约为4倍左右。对于参量编码,度量其质量的指标不再是保真度,而是可懂度。若不考虑讲话人音质和情绪等因素,仅从可懂度出发,在理论上,语音最低信息率大约为70~80 b/s。它与目前常用的PCM语音64 kb/s相比,理论压缩比大约为800~900倍。限于篇幅本节只讨论语音压缩编码的基本原理。
4.5.1 波形编码基本原理 自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。
20世纪80年代以来,32kb/sADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kb/s的自适应量化器,并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正,称G726建议,详细内容请参见相关的文献。
4.5.2 参量编码 参量编码的出发点在于跟踪波形的产生过程,而不是传输波形本身。它传递的是反映这一变化过程的参量。根据线性预测原理,语音信号可用一系列预测变化的参量和其他与变化有关的参量来表征。在接收端,收到的这些语音参量通过一个时变数字滤波器,它根据发声原理合成原来的语音。称实现参量编码的编码器为语音编码器或声码器。所谓声码器,就是在充分研究音发音系统特点的基础上,设法提取语音信号的要素。
这样就可以只传送这些要素而不再传送语音信号的波形。在接收端利用这些要素重建语音信号,称为合成语音。只要这些要素选择得恰当,所需码率就可很小而仍能保持良好的语音质量。现在简要地说明人的发音过程。当人发声时,空气由肺部排出,在声带间受压而使声带振动,振动频率由声带的张力和声带的厚度等因素所决定,因而因人、内容而异。压出的气流强弱决定声音的强度。该气流经过由口腔等组成的声道时而被调制,形成不同的音色。声道包括口腔中的舌、齿、唇等,发鼻音时还要利用鼻腔。
以上均指发浊音和母音的情况。当发清音时,声带只有收缩和放开,不作周期性振动;发爆破音时,主要靠唇部动作,也属于清音类型。 实际发声过程当然要比上述过程复杂得多,最常用的简化原理图如图4―3所示。
图4―3 语音产生模型
图4―3中,u(n)是波形产生的激励参量,c(n)是输出的语音。激励分为两种:A路是发浊音或母音时的情况,可用周期性信号来代表,其周期大小和强度可随时调整;B路是发清音时的情况,可用近似于白噪声的随机信号来代表。图中的双掷开关表示发音不同时可上、下转换。滤波部分一般用线性滤波器来近似地代表声音在声道中被调制的过程。而线性时变滤波器的系数可以通过线性预测等技术获得。在一般情况下需要有12个系数{ai}(i=1,2,…,12)。
此外,还有三个重要参量即音调(基音)周期P、清浊音判决u/v和代表语音强弱的增益参量G。可见,语音信号中所包含的主要信息就由这15个参量所决定。通过对每帧语音进行分析求出这15个参量,然后将它们量化、编码传送给收端。接收端用收到的这15个参量和发声模型,综合、复制出语音信号。这里线性时变滤波器的系数由收到的12个参量{ai},i=1,2,…,12控制,激励器幅度受到增益G的控制。具体采用哪一类信号源则由收到的清浊音u/v来决定。发清音时,激励为伪随机的白噪声源,发浊音时,激励为基音周期控制的准周期脉冲源。采用这种编码方式进行语音有效传输的系统称为线性预测器(LPC)。
线性预测分析仍是目前声码器技术的主流。近年来值得注意的有三个方面。首先是提高合成语音质量的措施,如采用余数激励声码器RELP、多脉冲激励声码器MELP以及声道参数模型的改善等。其次是进一步降低速率,如采用变换技术,优化编码、矢量量化技术等等。显然,这两方面的技术都与复杂性成正比,所以用复杂性换取技术性是今后的一个方向。最后是参数的自适应特性。一般预测系数自适应范围大致在30次/s至400次/s,而对音调基音周期和增益的自适应范围大致在100次/s至200次/s。
4.5.3 混合编码 余数激励声码器(RELPC)将余数低频谱中的一小部分(基带余数信号)所携带的激励信息传送给收端,它避免了清、浊音判决及基音提取。可见,它是在LPC声码器基础上发展起来的,从而是一种混合编码的方法。在接收端,用高频再生技术来恢复完整的余数信号,其实现方框图如图4―4所示。
图4―4 RELPC原理方框图
图中语音带宽为ωH2,而余数信号的基带带宽是BH2,且它仅是全频带余数信号频谱的一部分(1/L),采样以原采样率Fs的1/L进行采样,然后对采样信号进行编码。下支路LPC分析提取参量并编码,将两路编码合并后送入信道。在接收端,上支路经过译码,输出基带余数信号,对基带余数信号进行高频再生处理,然后该信号通过下端截止频率为BH2的高通滤波器输出,再与基带余数信号相加产生全频带余数信号去激励LPC合成器产生合成语音输出。
可见,RELPC方法在发送端用余数信号中低频信息取代宽带余数信号信息,而在接收端对基带余数信号进行高频再生处理,产生全频带余数信号去激励LPC合成器。
4.6 图像压缩编码 在20世纪90年代,计算机技术、微电子技术和通信技术得到迅猛发展。多媒体计算机、多媒体数据库、多媒体通信、多媒体表现技术等多媒体研究领域也成为计算机和通信发展中的一个重要研究热点。其中面临最大的问题是数据量巨大的“爆炸”。文件、表格、工程图纸等二值图像的数据已较大。
但相比之下,语音信号、静止灰值图像、彩色静止图像电视图像、高清晰电视图像等的数据量更是巨大。特别是高清晰电视图像。一般电视图像的数据量要比语音的数据量大上千倍。因此,研究有效的数据压缩和解压缩的技术成为重要的、关键的研究方向。信息率失真理论从理论上指出,解决这种问题的途径是存在的、可能的。
4.6.1 静止图像压缩编码 新闻图片、医疗图片、卫星图片以及图像文献资料等均属于静止图像。这类静止图片的压缩,对传输和存储都具有重要的应用价值。静止图像压缩编码一般可划分为无失真编码与限失真编码两大类。对无失真编码一般采用霍夫曼编码或者算术编码。限失真编码主要有:帧内、帧间的预测编码;二维变换编码:KLT、DFT、DCT、HRT、SLT等等,以及子带编码、分层编码、轮廓编码、分形编码、小波变换等等,但主要以预测编码和正交变换编码为主,JPEG标准是用于多个灰度及色度连续变化的静止图像编码的国际标准。
4.6.2 活动图像压缩编码 广播电视、会议电视和可视电话等运动图像信号,除帧内像素间有相关性而外,帧与帧之间也有很强的相关性,所以对这类信号的处理常用帧间预测技术。帧间预测不仅要利用本行的前几个样值和前几行的相邻取样值,而且要利用上一帧或前几帧的取样值来估计当前帧内的像素值,因此帧间预测是一种三维预测方法。它在帧内预测的基础上,再利用帧间的时间相关性进一步消除图像信号的冗余度,提高压缩比。
为了达到实时帧间预测,前几帧的图像数据必须储存在帧存储器(VRAM)中。超大规模集成电路技术(VLSl)日趋成熟,使帧间预测技术变为现实,因此,帧间预测技术正在成为会议电视、可视电话、数字电视、HDTV的压缩数据的主要方法之一。在介绍帧间预测技术之前,先研究一下电视图像等帧间差值的统计特性。 er(i,j)=ur(i,j)-ur-1(i,j) (4―43)
实际统计结果表明,该差值不大。对于变化缓慢的黑白图像序列,如可视电话、会议电视的图像信号,如果对其进行256级量化,只有4%像素的帧间差值超过阈值3;对于亮度值变化较为剧烈的256级的彩色电视图像序列,也只有7.5%像素的帧间差值越过阈值6。可见帧与帧之间,信号的相关性是很强的,即冗余度很大。这一统计特性就是帧间预测编码的基础。帧间差值从总体上来看虽然不大,但从活动的局部图像像素或子块间看,有时还是比较大的,因此根据具体情况可采用两种帧间预测方法处理。
1.狭义帧间预测 狭义帧间预测就是用某点前一帧的像素值ur-1(i,j)作为该点当前帧的像素值ur(i,j)的预测值。这种误差为 e(i,j)=ur(i,j)-ur-1(i,j) (4―44)
2.复合差值预测 当帧间某点的像素差值比较大,且图况较为复杂时,显然就不能简单地传输邻近两帧间对应像素的帧间差值,而应按一定准则,先估计一个像素或一个图像子块的运动,然后根据预测出的运动位移确定对应像素,从而获得相邻两帧间的帧间差值。复合差值预测与狭义帧间预测相比,对活动图像,其预测的帧间差值要小得多,且准确性高。在发送端称为运动估计,在接收端则称为运动补偿,一般简称运动补偿(MC)预测技术。根据参加运动估计的对象不同,有条件帧间修补法和运动补偿预测两种估计方法。
1)条件帧间修补法 帧间预测误差为 (4―45) 式中: e(i,j)——当前像素ur(i,j)帧间差值; ——第r帧中当前像素值; ——第r帧中当前像素ur(i,j)的预测值; ——前一帧中对应像素ur-1(i,j)复原值。
对电视图像编码Mounts、Pease等人提出的条件像素修补法规定:若帧间误差e(i,j)超过阈值,则把这些像素存在缓冲存储器中,并以恒定的传输速度传送或者只传送误差e(i,j);对低于阈值的像素则不传送,在接收端用上一帧图像的相应像素值来代替。这样,一幅电视图像只要传送其中很少部分的像素,或只传送帧间差值,所以能得到较高的压缩比。
2)运动补偿预测 运动补偿预测技术正处于研究和发展中,重点是寻找一些简单而又实用的帧内和帧间复合的自适应预测方法,但是至今没有取得特别有效的方案。下面简单介绍在国际标准化视频编码方案MPEG中,使用的运动补偿技术。运动补偿技术的基本原理是,运动补偿技术对占整个画面有较小的运动部分的图像,其压缩数据效果特别好,如会议电视、可视电话等。用运动补偿技术计算图像中运动部分位移的两个分量可使预测效果大大提高,运动补偿法跟踪画面内的活动情况,先对其加以补偿之后,再进行帧间预测。
运动补偿预测方案的使用规则是,首先把图像分割为静止的和运动的两部分。这里假设运动物体只作平移运动,即把物体的复杂运动化成一段段简单的平移,使算法简单易于实现。然后计算物体的位移值;接着用位移估值(即运动矢量)进行运动补偿预测。最后对预测信息进行编码。这项技术的关键是运动矢量的计算。 从运动补偿技术中已看到,如何把图像分割成静、动两部分是运动补偿预测的基础,但这也是困难的。两帧图像间的运动估计是运动图像处理的关键。
通常采用两种较简单的方法处理:一种方法是把图像分成若干矩形子块;另一种方法是像素递归法。第一种方法将分成的子块分为动和不动两种,然后估计运动子块的位移,再进行预测传输;后一种方法则是对每个像素的位移进行递归估计。
4.6.3 视频压缩编码 电视信号具有很强的相关性和巨大的数据量,因此电视信号需要进行数据压缩,数字电视和高分辨率的电视(HDTV)将是21世纪人类使用的主要电视系统,这是由于数字电视比模拟电视具有很多突出优点而决定的。
1.数字电视的特点 数字图像的质量远高于模拟电视图像。例如,数字电视信号的抗噪声干扰及克服非线性失真都明显地优于模拟电视信号,能克服高楼大厦对电波反射所造成的重影问题。数字电视信号经过多次中继再生。数字电视广播,在广阔范围内具有同等优良的图像质量。数字电视可以实现模拟电视难于实现的复杂的电视信号处理和加工,如数字视频特技效果。数字电视能克服全球各种模拟电视制式难于统一的问题,实现不同电视制式的自动转换等。
数字电视信号易于实现计算机控制和自动化操作、管理,易于实现广播电视与计算机网络和电话网的三网合一,为多媒体信息的传输、存储、同步、交互和融合创造条件。数字电视系统采用大规模数字集成电路,大大提高了电视设备的稳定性、可靠性。电视信号数字化后也存在几个问题:数码率太高,传输一路PCM数字电视信号所需要的带宽要比传输一路模拟电视信号大10倍左右,信道利用很不经济;由于数字电视的数据量庞大,对存储器的容量、元件的速度、数字电路的集成度要求很高。因此,在经济上、技术上实现全数字化的广播电视尚有较大的难度。但经过最近10年的研究,基本上找到了解决问题的方法。
这些解决的方法是,采用业已成熟的带宽压缩编码技术,如预测编码法(如DPCM)、正交变换编码法、自适应编码等。但是人们还在探求更有效的活动图像的数据压缩编码技术。对于传输信道,已开始采用宽带传输载体,如光纤等。目前,超高速、超大规模数字集成电路技术已很成熟,且其成本不断降低。发达的西方国家已经在局部范围里采用全数字电视广播系统发送和接收数字电视信号,我国已于1998年试制成功了全数字电视接收机,可以预料在今后几年内,全数字电视设备将取代目前的模拟电视系统。
2.数字电视系统的结构 数字电视系统的组成,如图4―5所示。 图中,摄像机输出的模拟电视信号经过模/数转换器(ADC)转换成脉冲编码调制(PCM)的数字电视信号。PCM数字电视信号可以作为数字电视图像信号处理的信源,也可以直接通过宽带信道(如光纤等)进行传输(这种情况就是PCM的基带传输,适合近距离传输)。
图4―5 数字电视系统方框图
由于PCM电视信号的数码率过高,例如PAL制全电视信号用三倍副载波采样,8位量化的PCM信号的数码率达106Mb/s,所以要对它进行压缩编码,去除信号中的冗余度,减少传输数码率。经数码率压缩后的数字电视信号可供记录或存储,同时送去进行信道编码。信道编码主要是纠错、检错编码。信道编码的作用是提高数字电视信号在信道传输中的抗干扰能力,降低误码率。信道传输时不可避免地受噪声源干扰。
信道编码后的数字电视信号,在发射机中对射频信号进行数字调制后,便能在信道中进行远距离传输。传输信道可以是同轴电缆、微波线路、光纤等。接收端将数字电视的射频调制信号,经过解调、信道译码、信源译码后重现模拟电视信号以供显像用。
3.电视信号数码率的压缩 在保证图像传输质量一定的情况下,尽量降低数字电视信号的传输码率是人们一直研究的重要内容。下面介绍几种压缩数码率的主要途径。 1) 利用电视图像信号的相关性 电视信号的相关性主要表现在空间和时间上的相关性,电视信号的空间相关性是指帧内相关或同一帧内相邻行间相邻像素的相关;电视信号的时间相关性主要表现为相继帧之间的相关上,而且其相关性较强。
2)利用人的生理特性 充分利用人的视觉、生理、心理学的特性,适当降低空间分辨率(P)、灰度分辨率(R)、时间分辨率(fZ)中的某一个分辨率的具体要求,可望进一步降低数码率。因为电视图像是给人看的,而人的视觉在某些条件下可容忍某些失真(对某些变化或情况不敏感),甚至于肉眼对有些失真根本辨别不出来,因此,超过视觉分辨能力的高保真度就没有必要了。这样做并不涉及电视信号内在的相关性,所以称之为非相关性压缩,或称为HVS压缩。因此,可以从下面几方面采取措施来压缩数码率。
对静态图像需要观察的全部像素大约有几十万个,而对运动图像,肉眼分辨不出如此之多的像素。那么对电视图像信号就可以适当减少一些像素,但要保证画面切换速度(fZ不低于25帧/s)足够高,否则肉眼就不能连续地分辨图像画面,将出现图像的跳动、闪动、模糊等情况。因此,可以根据图像的活动程度,适当调整时间分辨率(fZ)和空间分辨率(P),达到降低图像数码率的目的。这就是空间—时间分辨率转换,实践证明, fZ—P间呈现双曲线关系。由人的视觉、生理、心理学的论证可知,肉眼对大面积图像能分辨出的灰度等级比对小块图像或细节部分的灰度等级大得多。
由人的视觉、生理、心理学的论证可知,肉眼对大面积图像能分辨出的灰度等级比对小块图像或细节部分的灰度等级大得多。例如,在急剧的黑白跳动处,肉眼难以分辨灰度差别,因此可降低量化级数,使P位数变少。而对于图像中的平坦区域可以降低采样频率,但要保持每一个样本值有较多的灰度等级;反之,对于图像的边缘和细节部分,应保持较高的采样率,但对每一个样本值只需要分配较少的量化比特数,这就是空间-灰度分辨率转换,实践证明,P-R间也呈现双曲线关系。
因为肉眼对快速运动图像的灰度等级R的分辨能力较差,只能分辨较少的量化级数,因此,可以减少量化阶数,但要保证较高的画面切换速度,即保证图像有足够的运动速度;反之,对静止图像,则要保证有足够多的灰度级数,这就是灰度-时间分辨率转换, R-fZ间也呈现双曲线关系。
如果将电视信号的三种分辨率视为长方体的三条边,若不考虑人的视觉、生理、心理学关系,该长方体的体积就由P,R,fZ的最高分辨率确定,且其体积最大。若采用这种非相关压缩方法,因受到人的视觉、生理、心理学关系的约束,其分辨率可大为减小。有人估计,若真的能充分利用上述因素之间的关系,适时地按图像的局部性质最佳来调整三者(P、R、fZ)之间的关系,可使黑白电视信号的数据压缩到大约1Mb/s。虽然效果十分可观,但实现起来是十分困难的。利用视觉对色差信号不敏感的特性可以降低其带宽和采样频率。
3)利用自适应技术 在预测编码系统中,预测器、量化器和编码器是实现数据压缩的主要部件,而自适应技术是实现数据压缩的优良方法。预测器的自适应技术已在其他章节介绍了,这里只介绍自适应量化器降低数码率的方法。利用自适应量化器压缩数码率的基本思想,就是当量化器的输入(误差信号e)较小时,使量化阶(量化当量)减小;当误差信号较大时,表示图像的亮度差或灰度差很大,这时肉眼的灵敏度将降低,可采用粗量化(量化当量增大)。
也就是说,根据偏差的大小采用不同的量化阶数,或固定量化阶数,而改变量化当量的大小,进行自适应量化。自适应量化器的种类很多,常用的有浮动式量化器和利用HVS效应而设计的自适应量化器两种。
4.6.4 H.261建议 1.H.261建议 H.261视频压缩编码标准是CCITT在1990年7月通过的建议,它主要用于可视电话和会议电视。该建议视频编码信号的传输速率为64kb/s~1.92Mb/s。该建议利用CIF图像分辨率格式和QCIF分辨率格式,以解决不同制式通信间的矛盾。建议采用运动补偿的帧间预测算法,以消除电视图像时间域上的相关性;对预测误差进行DCT变换,以消除图像空间域上的相关性;然后自适应量化DCT系数,以充分利用人的视觉特性;接着进行熵编码,以实现统计匹配编码;最后采用输出缓冲存储器,以平滑数码流,达到输出数码率保持恒定的目的。
图像帧编码模式有三类:I帧,采用帧内方式编码的图像帧;P帧,采用帧间方式编码的图像帧,P帧先对I帧或前面的P帧进行运动估值补偿,再对预测误差进行编码;B帧,是双向内插帧,它本身不进行编码传输,而是在译码端直接由I帧或P帧或者P帧与P帧插值得到。H.261标准编码的数据结构从高层到低层定义了四个层次,即帧层、片层、宏块层和块层。H.261的运动估值、补偿是以宏块为单位进行的。对某一宏块是选择帧间还是帧内编码方式,首先需要经过判断。若它与匹配宏块相关性强,则可采用帧间编码方式,反之则采用帧内编码方式。
H. 261计划用于会话型业务,对由编译码附加的延时很敏感,希望尽量减少延时。这在实际系统设计时应加以注意。H H.261计划用于会话型业务,对由编译码附加的延时很敏感,希望尽量减少延时。这在实际系统设计时应加以注意。H.261有很多“开放”部分,建议对这些部分没有作出硬性规定。建议只对与兼容性有关的部分作了详细严格的限制性规定,而对许多与复原图像质量有很大影响的重要指标,但不影响兼容性的不作限制性规定。这是一种非常明智的做法,在不损害兼容性的前提下为开发者、厂商和用户提供了很大的选择余地。如对编码器中的运动估计部分,就可采用快速运动估计算法使运算量成倍下降,也可采用低分辨率的QCIF格式、抽帧等方法,使编译码器的复杂度大大下降。
2.H.263建议 ITU―T通过的H.263建议的目的是提供比H.261有很大改进的图像质量。H.263建议与H.261建议的不同之处主要表现在以下几个方面:(1)H.263建议使用的视频比特率小于64kb/s,且传输比特率不固定;而H.261建议最初计划使用的视频比特率大约在40kb/s~2Mb/s。 (2)H.263信源编码器可用五种标准化格式工作,即SubQCIF、QCIF、CIF、4CIF和16CIF,其中后三种格式为可选择的,译码器要支持前两种格式,而编码器要支持前两种格式中的一种,而H.261建议规定了QCIF和CIF两种图像扫描格式。
(4)H.263建议在信源编码器中取消了环路滤波器,但在H.261建议中可以使用环路滤波器来修正预测过程。
除核心算法外,H.263还包含四种高级的编码方式可供选择,即无限制运动矢量方式、高级预测方式、PB帧方式和基于语法的算术编码方式。在无限制运动矢量方式中取消了作为基准的像素必须在编码图像区域内的限制。在高级预测方式中使用了重迭块运动补偿,而且还允许运动矢量穿过图像边界。在PB帧方式中,B帧通过前一个译码P帧和当前的一个译码P帧进行双向预测得到,这样就提高了帧速率但并未明显增加比特率。总之,以上三种方式主要是为了改进帧间预测。基于语法算术编码方式的采用是为了进一步降低传输的比特率。在这种方式中,所有的变长码的编译码运算都用算术编译码运算来代替。采用这些选择虽然增加了编码器的复杂度,但图像质量得到很大的改善。
4.6.5 JPEG标准 JPEG标准是国际标准化组织ISO、原国际电报电话咨询委员会CCITT以及国际电工委员会IEC共同组织了一个专家小组(Jointphotographic Experts Group)共同研究并制定的一个标准,是用于多个灰度及色度连续变化的自然图像编码的国际标准,适用于静止图像。JPEG联合图片专家小组在1991年3月提出的标准“连续色调静止图像的数字压缩编码”,即JPEG标准采用ADCT作为彩色静止图像压缩的标准化算法。该算法有DCT方式(非可逆编码)和空间方式(可逆编码)两种方法。在DCT方式中,又分为基本系统和扩展系统。
基本系统采用顺序模式、霍夫曼编码、输入图像精度8bit/像素/色;扩展系统采用渐近模式、霍夫曼编码,算术编码,输入图像精度12bit/像素/色。空间方式对于基本系统和扩展系统来说,称为功能独立的,它采用序列模式、霍夫曼编码、算术编码,输入图像精度2~16Kb/s/像素/色。 JPEG的应用面很宽,因此,对所需编码图像的性质,如大小、彩色、彩色分量的数量、编码的方式等等,均不能预先规定。
在具体应用时需靠“通信”临时传递。当然,“通信”方式必须规定,不能有二义性。为了适应各种不同的场合,JPEG提供了几种编码方法以供选用。量化表、码表等也末加规定,仅提供推荐表。若效果不理想,用户可自己定义量化表和码表,并将这些表同数据一起传到译码器,供正确译码使用。
JPEG支持顺序型和渐进型两种图像建立模式,以满足用户对应用的不同需求。JPEG压缩算法分为两大类:基于DPCM的无失真编码系统和基于DCT的限失真编码系统。使用无失真压缩算法将信源图像数据转变为压缩数据,该压缩数据经对应的解压缩算法处理后可获得与源图像完全一致的重建图像。有失真压缩算法基于离散余弦变换,所生成的压缩图像数据经解压缩生成的重建图像与源图像在视觉上保持一致。一般来说,压缩比越大,视觉上的一致性越差。
1. JPEG工作模式 JPEG有四种工作模式:顺序型编码模式、渐进型编码模式、无失真编码模式和分层编码模式。 1)顺序型编码工作模式 图像的所有8像素×8像素的图像子块从左到右、从上到下依次输入。图像子块经DCT变换后形成8×8DCT系数阵列,每一个系数阵列被量化后立即进行熵编码并作为压缩图像数据的一部分输出,从而尽可能地降低了对系数存储的要求。
2) 渐进型编码工作模式 所有8像素×8像素的图像子块仍然按照上述顺序编码,但对图像需进行多趟扫描。这通过在量化和熵编码之间增加一个与图像大小一样的系数缓存来实现。当一个8×8DCT系数阵列被量化后,它的系数存入该缓存。所有系数阵列均完成量化并存入缓存后,分几次扫描来编码,每次只对部分系数编码。因此译码时输出图像也是分几次完成的。扫描处理缓存中量化后的DCT系数方式有两种。一种是频谱选择法;另一种是逐次逼近法。
在频谱选择法中,每次扫描Z形序列中的指定段并进行编码,每一段位于8×8DCT系数阵列频谱的高频或低频部分。在逐次逼近法中,每次扫描的系数的各个位不全部参与编码,而是从高到低按指定的位数逐次编码。两种过程可以单独使用,也可以灵活地组合使用。
3)无失真编码工作模式 这种编码模式可以完全无失真地恢复原图像。 4)分层编码工作模式 一幅图像被编码成一些帧的序列。这些帧给出参考重建分量以用作后继帧的预测。对于给定分量,除了第一帧外,差分帧是对源分量和参考重建分量的差值进行编码的结果。差值的编码可以使用基于DCT的处理,或使用无失真处理,或使用基于DCT的但最后对每一分量进行无失真处理。分层编码还提供了逐步变换到无失真阶段的能力。
可见,JPEG提供了多种工具,以应付各种应用场合,这样的通用系统成本较高。为此,将JPEG系统分成基本系统和扩展系统,基本系统由DCT的顺序型工作模式及霍夫曼编码组成,所有符合JPEG标准的设备必须具备基本系统。扩展系统提供不同的选项,即除基本系统外的其他编码方式,如渐进型编码、算术编码、无失真编码、分层编码等等。
图4―6 基于DCT的编、译码器示意图
2.基本系统 JPEG建议的基本系统框图如图4―6所示。 首先将要压缩的图像分割成一定的8像素×8像素的图像子块,例如,对于576行×720列的CCIR601分辨率的彩色图像,其亮度分量可分割成576/8×720/8=6480(个)子块,而两个色差分量都可分割成两组:576/8×360/8=3240(个)子块;再用FDCT将各子块I变换为8×8的DCT系数阵列。然后,用一个8×8的量化值阵列对这些系数进行量化。
最后用熵编码器将量化后的系数编码成一串比特数据流C。经过传输或存储,比特数据流C以C1表示,C1经过熵译码器译码,重新生成一组量化了的DCT系数,使用编码时采用的量化值阵列对这些量化了的系数进行反量化。最后利用IDCT将此8×8DCT系数阵列变换回空间域的8×8图像子块I1。一般来说,I与I1之间存在误差,这个误差是由量化、反量化过程引入的,熵编码、译码过程没有信息损失。在某些传输环境下,由于噪声等因素的干扰会引起信道误码,即C不等于C1。为此,标准规定了某些方法,允许在比特数据流C中添加额外的冗余度,即采用编码纠错以便从某些误码中恢复C。
3.扩展系统 在基本系统之上扩充一些其他的编码方法,以提高编码效率且满足不同的应用需求。 1)渐进型编码工作模式 渐进型编码工作模式把一帧分解成几个扫描,第一次扫描传输全局信息,以后的各个扫描逐步补充细节信息,将所有的扫描结果合成,所得到的结果与顺序型方法完全相同。渐进型编码工作模式是针对DCT而言的,它有两种实现方法:逐次逼近法和频谱选择法。
2)分层编码工作模式 分层编码工作模式将源图像用不同的空间分辨率表示,每一种分辨率对应一个扫描。其主要的编码步骤可概括为,将原始图像的空间分辨率按2的倍数降低;对已降低了分辨率的“小”图像可采用基于DCT的顺序方式、渐进方式或无失真预测编码中的任何一种方式进行编码;对压缩数据译码,重建低分辨率图像,使用插值滤波器对其内插,恢复源图像的水平和垂直分辨率;把相同分辨率的插值图像作为原始图像的预测值,对两者的差值采用基于DCT的顺序方式、渐进方式或无失真预测编码中的任何一种方式进行编码。
4.6.6 MPEG标准 1.MPEG-2标准 MPEG-2标准可理解为在MPEG-1基础上的进一步扩展和改进: (1)针对隔行扫描的常规电视图像专门设置了“按帧编码”和“按场编码”两种模式,并相应地对运动补偿作了扩展。 (2)为了适应不同应用的要求并保证数据的可交换性,MPEG-2定义了不同的功能集合和参数集合。
(3)支持可延展性(Scalability),目前定义了空间延展性、信噪比延展性、数据分割、时间域延展性四种延展性。 (4)亮度分量和色度分量的比例分别从原来的4∶1∶1扩展为4∶2∶2或4∶4∶4。宏块相应扩展,每像素8bit增至10bit。 (5)系统层语法有较大扩展。
目前,MPEG-2已经为世界所承认,是声音和图像信号数字化的基础标准,将广泛用于数字电视(包括HDTV)、数字音频广播、数字视频与音频信号的传输,以及未来的多媒体领域等。MPEG-2系统部分涉及如何将一个或多个图像、声音及其他数据的基本码流组合成单个码流使之便于存储和传输。它包括五种基本功能,分别为码流译码时的同步、多个压缩码流译码时的交织、开始译码的缓冲设置、缓冲器的连续控制和时间识别。
系统规定编码为节目码流和传送码流两种方式,它们各自为不同的应用而最佳化,即其标准所定的编码句法都是为实现图像和声音信息的同步译码和显示所必需和充分的,并保证译码器中已编码数据缓冲器不会上溢和下溢。在这些信息的编码中采用了有关已编码声音和图像数据的译码和显示的时间标记以及有关数据流本身的传送的时间标记。两种码流都采用打包多工方式。
一个视频和一个音频基本码流的基本多工方式如图4―7所示。压缩后的基本码流与系统的信息一起组合、打包,产生打包基本码流。然后这些码流又组合形成节目码流和传送码流。系统标准包括了图4―7中垂直线的右边各部分。
图4―7 MPEG-2系统框图
节目码流类似于MPEG-1的系统多工方式。它由有共同时间基准的一个或多个PES组合而成,也可由多个有共同时间基准的音频和视频基本码流编码成多节目码流。如同单一节目码流一样,所有的基本码流都能在同步情况下译码。节目码流用于相对无误码的环境中,适合支持节目信息的软件处理以及适用于CD―ROM上的多媒体应用。节目码流包是可变长的,相对较长。
传送码流是由带一个或多个独立时间基准的一个或多个节目码流组合而成的码流。传送码流用于有误码的环境,例如在有损耗或噪声的媒体中存储或传输。传送码流包的长度是固定的,为188B。对传送码流可以进行以下操作:恢复传送码流中一个节目的编码数据,并译码;把含有多个节目的传送码流转换成一个含有单一节目的传送码流;把多节目传送码流先分工,然后转换成节目码流;由一个或多个传送码流取出一个或多个节目的传送包,并在输出端产生不同的传送码流;把一个节目码流转换成传送码流,使其能够通过有损耗的环境,然后将其恢复成原来的节目码流。
MPEG-2标准化的主要特点是各种数字视频和音频之间的相互作用和可交换性,即作为通用标准的MPEG-2适用于较广泛的应用场合,并且也为比特流交换、兼容性等提供了可能性。MPEG-2标准可以应用于(但不限于)以下领域: (1)BSS——卫星广播业务至家庭; (2)CATV——在光纤或同轴电缆等网络上传播的有线电视;(3)CDAD——有线数字音频传播; (4)DAB——数字音频广播; (5)DTTB——数字地面电视广播;
(6)EC——电子电影; (7)ENG——电子新闻收集(包括卫星新闻收集); (8)FSS——卫星固定业务; (9)HTT——家庭影院; (10)IPC——个人间通信; (11)ISM——交互存储媒体(光盘等); (12)MM——多媒体邮递; (13)NCA——新闻和时事; (14)NDS——网络数据库服务(通过ATM通信(会议电视、可视电话等));(15)RVS——遥控图像监视; (16)SSM——匹配存储媒体(数字VTR等)。
在MPEG-1基础上,MPEG-2所作的一个基本扩充就是适合“真正”的视频应用。考虑到视频信号隔行扫描特性,MPEC-2标准专门设置了“按帧编码”和“按场编码”两种模式,并相应地对运动补偿和DCT方式作了扩展,从而显著提高了编码效率。MPEG-2所作的另外一个最重要的扩充就是引入了“可分级性”概念,实现了分级视频压缩编码。可分级性以空间域、时间域以及信噪比可分级为基础,例如在电视传输系统中利用分级视频编码技术,可实现所谓的“逐渐降质”。此外,分级视频编码还可实现对较低清晰度图像的向下兼容。
在所谓的信息技术领域(通过宽带网络传输视频)和多媒体应用中,分级视频编码也能起重要作用。为了使MPEG-2标准能通用于上述领域,同时使最大可交换性和相互作用成为可能,并且在简单应用中费用不是很高,MPEG-2标准引入了“档次/等级”结构,巧妙地解决了这一问题。作为一种“通用”标准,MPEG-2支持多种应用,因此MPEG-2在MPEG-1的基础上作了许多重要扩展和改进。在视频方面这些扩展和改进包括以下几个方面:考虑到标准的通用性,扩大了重要的参数值,允许有更多的图像格式、更大的比特率和运动矢量长度,还可以在压缩数据流中插入用于译码和显示的预设最佳参数;
针对视频信号隔行扫描的特点,增加了“按场编码”模式,同时在“按帧编码”模式中,允许进行以场为基础的运动补偿和DCT,从而显著提高了压缩编码效率;增加了“可分级性”,允许通过部分译码,从一个编码数据流中得到不同质量等级或不同时空分辨率的视频信号;在编码算法的细化上,补充了非线性量化、10比特像素编码;采用了更高的系数精度、不同直流系数和帧内/帧间DCT交流系数的处理方法以及其他技术。
MPEG-2标准的音频部分,主要是在低比特率情况下提高音频的质量以适合多媒体及通信的需求,以及对包括多通道立体声(环绕声)和多语言节目在内的声音信号空间表面性的改善。另外,除了能与MPEG-1标准实现向下和向上兼容外,又积极建立了非反向兼容(NBC)编码模式。在设计MPEG-1音频编码时,对低码率采取的措施是,要么允许有较大的量化噪声,造成声音质量的下降;要么缩减信号带宽,减少干扰。基于这种考虑,MPEG-2中为了在低比特率时提高声音质量,
它定义了3个新的采样频率、新的数据率和比特分配表。3个新的采样频率是原使用值的一半,即24kHz、22 它定义了3个新的采样频率、新的数据率和比特分配表。3个新的采样频率是原使用值的一半,即24kHz、22.05kHz和16kHz,编码算法不变。通常由于采样频率的减半会使声音质量有所下降,但低码率可以减少编码噪声,最后的结果是译码后的声音质量有所改善。 此外,MPEG-2还增加了一种任选的低频增强通道LFE(频带为15~120Hz),主要用于表现特殊效果。多通道扩展信息加在MPEG-1码流的辅助信息段中,实现与MPEG-1的兼容。为了除去多通道所带来的声道间冗余,MPEG-2引入了动态串音(DynamicCrossTalk)、自适应多声道预测和中央声道幻觉编码等方法。
为了实现MPEG-2声音通道的多语言再现,与在MPEG-1比特流的末端插入另一个子比特流类似,在MPEG-2比特流中能安插七个以下的其他声音信号编码数据,比特流的这些安插部分被称为多语言扩展。
2. MPEG-4标准 目前,使用最广泛的通信网络主要是公用电话网和城市蜂窝移动通信网。由于历史的原因,这两类通信网络只有有限的频带宽度容量,它们只能传输甚低速率的数字信号。公用电话网中,使用最广泛的是双绞线,其工作速率通常只能达到14.4~19.2kb/s。而蜂窝移动通信网一般要求限制在16kb/s以内,决不允许超过64kb/s,因此其频带资源十分宝贵显然,制定此环境下的音频和视频压缩标准的重要性不言而喻。随着时代的进步,移动通信和个人通信的业务,要求从普通话音扩展到多媒体业务,
即在移动环境下提供声音、文字、数据、图形和视频等信息媒体,使用户之间在移动通信中进行生动、丰富和有效的多媒体信息交流。显然,实现这一美好愿望的关键技术是甚低速率音频、视频的压缩。MPEG-4正是在这样的背景下孕育产生的。MPEG-4专门用于64kb/s以下甚低速率的音、视频编码,不仅适用于移动通信和个人通信,而且也适用于固定公用通信网和电视电话;适用于窄带多媒体通信等领域,应能实现基于内容的压缩编码,具有良好的兼容性、伸缩性和可靠性。MPEG-4的功能主要有基于内容的交互性、压缩和通用存取三种。
1)基于内容的交互性(Interactivity) 根据音频、视频的内容,MPEG-4提供利用不同的存取工具,例如索引、超链接(Hyperlinking)、查询、浏览、上载、下载以及删改等工具进行的数据存取。 MPEG-4提供一个“MPEG-4语法描述语言”(MSDL)及编码方案,以支持基于内容的管理和数码流的编辑,而不需要转换编码,MSDL相当灵活,便于未来应用的扩展。
MPEG-4提供有效的方法,将合成的景物与自然的景物进行组合(即文本和图形的覆盖),支持对自然的和合成的音频及视频进行编码和管理的能力以及译码器的控制的方法,从而利用普通的音频和视频数据创作合成数据,实现交互性。 MPEG-4提供有效的方法,在有限时间内以良好的分辨率,随机地存取某个音频、视频序列的某一部分(如图像帧或物体)。
2)压缩(Compression) 对于低数码速率的特定应用,与现有和正在形成的标准相比,MPEG-4应提供主观上更好的音、视频质量;MPEG-4应提供对景物的多视角、多声迹的有效编码以及各数码流之间的良好同步。对于立体视觉的应用,MPEG-4应充分利用同一景物的多视角和多听音点中的冗余度,允许采用联合编码方案,既能与普通音频、视频兼容,又能与不受兼容性限制的情况兼容。
3)通用存取(Universal Access) MPEG-4应提供高容错的能力,允许访问不同的无线网络、有线网络和存储媒体。在恶劣的差错条件下(例如长的突发差错)应提供充分的关键坚忍性。MPEG-4应提供使画面、声音都具有良好分辨率的能力以及对复杂度进行可分级的能力。在MPEG-4中,音频、视频信息内容的可分级性特别重要。MPEG-4支持数字音频、视频的通信、存取和管理的途径,其显著特点是“基于内容的”。意识到低价格、高性能技术以及迅速扩展的多媒体数据库所带来的机遇和挑战,MPEG-4提供了一个灵活的框架和一个开放的工具集,以支持大量的新旧功能,这种方法特别有吸引力。
3.MPEG-4的视频编码 MPEG-4的视频编码应考虑下列问题: (1)视频内容,可能仅是一个人坐着讲话,很少活动或位置稍有移动,只需显示头部和肩部。视频内容也可能是书写的或打印的文本,也可能是一幅图或由计算机生成的景像等。 (2)输入到编码器以及从译码器输出的视频,其格式包括以下参数:空间亮度分辨率,空间色度分辨率,时间分辨率(每秒帧数),像素宽高比,取样量化,样值比特数,色度空间,逐行或隔行扫描,平面的或立体的等。
(3)视频质量按主观测试或根据应用由感觉或机械自动测试,包括面部识别、情绪识别或打印的或手写的文本阅读等。 (4)视频数字比特率可以是恒定的平均比特率或是可变的、最小或最大的瞬时比特率。 (5)视频发生差错时,具有恢复到正常的能力。 (6)视频时延包括初始时延、正常时延和控制响应时延,有些时延是由编码器和译码器引起的。 (7)视频编码器和译码器的处理能力和存储容量对设备成本的影响。 (8)用户控制能力。
MPEG-4标准专门针对甚低速率的音频、视频压缩,要求比以前的压缩标准具有高得多的压缩比。所以其视频压缩算法要有突破,不能沿用或简单修改现已成熟的视频压缩算法。