第6章 自适应差分脉码调制 计算机学院 陈加忠 chenjz70@263.net 027 87541764
6.1 概述 几十年来,人们一直致力于压缩数字化语音占用频带的工作,也就是在相同质量指标下,努力降低数字化语音比特率,以提高数字通信系统的频带利用率 语音压缩方法有DPCM SBC ATC CELP MPLPC VQ ADPCM ADPCM在更低的码率下(16-8kbps),质量明显下降
6.2 DPCM基本原理 P141
6.3 ADPCM基本原理 P142 极点预测器 预测误差滤波器 重建滤波器
6.4 语音压缩编码 原理框图
6.4.1 语音编码技术概述 语音编码:移动通信数字化的基础 语音编码的意义: 提高通话质量 (数字化+信道编码纠错) 6.4.1 语音编码技术概述 语音编码:移动通信数字化的基础 第1/2代蜂窝系统根本区别 语音编码的意义: 提高通话质量 (数字化+信道编码纠错) 提高频谱利用率 (低码率编码) 提高系统容量 (低码率,语音激活技术)
6.4.2 语音编码分类 语音编码器 波形编码器 参量编码器 频域 时域 非差分 子带编码 自适应变换域编码 差分 PCM DPCM M 6.4.2 语音编码分类 语音编码器 波形编码器 参量编码器 频域 时域 非差分 子带编码 自适应变换域编码 差分 PCM DPCM M 连续可变斜率M ADPCM APC 线性预测编码 声码器 信道声码器 共振峰声码器 倒频谱声码器 语音激励声码器 多脉冲激励LPC 码本激励LPC 矢量和激励LPC 子带编码:将语音分为4~8个子带,子带下降到零频后进行编码,再合路,G.722,高保真录音 变换域编码:时频变换,用DCT将信号归结为多项余弦函数,语音信号集中在频谱的低端,将频域参数传给对方。
6.4.3 语音编码分类 波形编码:将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号---《现代通信原理》 编码速率较高,16k~64k 包括:PCM,ADPCM,M,CVSDM,APC等 占用较高带宽,适合有线 参量编码:基于人类语音的产生机理建立数学模型,根据输入语音得出模型参数并传输,在收端恢复。 编码速率较低,1.2~4.8 kbps 包括各种线形预测编码(LPC)方法和余弦声码器 语音质量中等,不满足商用要求 混合编码:波形编码+参量编码 (LPAS) 包括GSM的RPE-LPC编码和VSELP编码 RPE-LPC:规则脉冲激励线形预测编码 VSELP:矢量和激励线形预测编码
6.4.4 语音编码的标准 G.711 PCM (64k bps) G.721 ADPCM (32k bps) G.722 7kHz带宽64k bps速率内的音频编码 G.723 6.3k/5.6k 双速率多媒体语音编码 G.728 16k bps 语音编码 LD-CELP G.729 8k bps多媒体语音编码
6.4.5 语音编码的发展 极低速率语音编码,600bps 高保真语音编码 自适应多速率语音编码 新的编码分析技术: 非线形预测 多精度时频分析技术(子波分析技术) 高阶统计分析技术
6.4.6 线形预测编码的原理 原理:模型化人类语音信号产生的机制,提取模型参数,并且只传输模型的参数。 语音信号的产生模型: 6.4.6 线形预测编码的原理 原理:模型化人类语音信号产生的机制,提取模型参数,并且只传输模型的参数。 语音信号的产生模型: 语音的产生,声带和声道 不同语音产生的原因:声音激励源和声道不同 声音分类:浊音和清音 发声过程 口腔和鼻腔形成时变滤波器 人类的发声器官是一个复杂系统。由口腔和鼻腔形成声道,气流经气管,喉部和声门产生振动后进入声道形成声音,经嘴唇和鼻孔发出。由于声音激励源和声道形状不同,产生的声音部同
6.4.7 清音和浊音 清浊音频谱 清浊音信号
6.4.8 语音产生模型 语音模型的建立:1. 产生激励,2.响应 模型参数:基音,共振峰频率及强度,清浊音判决 低码率编码 码率降低有限 6.4.8 语音产生模型 语音模型的建立:1. 产生激励,2.响应 模型参数:基音,共振峰频率及强度,清浊音判决 低码率编码 码率降低有限 合成的语音波形失去了自然度和音质 周期脉冲发生器 随机噪声发生器 G 时变数字滤波器 清/浊音开关 声道参数 基音周期
6.4.9 LPC语音编码 使误差均方最小,可求得一组预测系数{ak}, 传送:预测系数,基音周期合增益,清浊音判决
6.5 图像编码 变换: 编码
6.5.1 图像压缩标准 可压缩的原因 已有的标准
6.5.2 编码与变换、量化 为什么要变换和量化 = + 变换 量化 熵编码 高 质 量 编 码 器 具有优良频 率特性的滤波器作 变换工具,有利于得 到平稳的能量分布, 有利于进一步的 量化处理 原始信号的 信息损失主要发生 在量化阶段,好的量 化能以尽可能少的 量化误差换取 最小的码率 = +
6.6 DFT与DCT DFT变换 结果有虚部和实部 对DFT变换系数量化后,吉布斯效应明显 把x(n)对称延拓,可以消除其中的虚部,得 到DCT变换
6.6.1 正交变换的一个例子 假设图象的大小只有一个4×4的块,即一共16个点,其中每个象素点都有一定的值,我们把这个值叫灰度值。对图象而言,这些值为0~255之间的整数。假设一幅4×4的图象,它的灰度值如下:
下面我们对这个4×4的图象做变换,变换矩阵我们选: 一般我们希望它是正交矩阵,即变换矩阵和它的逆矩阵的乘积,为单位矩阵,即:
对上述图像作变换,可以验证: = 我们希望这个过程是可逆的,即可以验证:
6.6.2 二维4×4 DCT变换 若 表示矩阵对应元素相乘,d=b/c,那么上式可以表示为 时,为最优变换矩阵
6.6.3 二维4×4 DCT整数变换 在这里,d取5/2,非常接近最优值 此时, ,得到整数变换矩阵的正变换为:
6.6.4 二维4×4 DCT变换与量化 对于9比特的预测误差数据做变换,变换矩阵每一行绝对值之和的最大值为14,因此对于变换后的矩阵元素需要 位来表示。现在大多数处理装置(如CPU,DSP)为32位宽,用上述变换进行处理就没有数据溢出的危险。 一旦得到变换后的系数,我们就可以对变换系数进行量化操作。对于某个量化步长QStep,对应一个量化参数Q,量化参数Q的取值范围为0到44整数,量化就是把变换得到的结果都除以QStep:
可以得到: 可以得到 其中, ,floor表示向负无穷取整。量化参数Q与量化步长QStep的对应关系如表1。从表1中可以看出,量化参数Q每增加5时,量化步长QStep就随之翻倍增加。
表1 量化参数Q与量化步长QStep的对应关系 1 2 3 4 5 6 7 8 9 10 11 … QStep 0.625 0.6875 0.8125 0.875 1.25 1.375 1.625 1.75 2.5 2.75 14 19 24 29 34 39 16 32 64 128
6.7 小波变换与QMF Moret首先提出了小波的概念(Moret小波函数是Grossmann和Morlet在1984年提出的),在很多学者的共同努力下,小波理论得到了完善和发展。特别是Mallat,他提出的多分辨率分析(Multiresolution analysis, MRA)理论,对小波构造理论起到了十分重要的作用。 1976年,Crochiere等人首先把子带编码应用于语音编码。在语音编码中,用作频谱QMF (Quadrature mirror filter)滤波器能够很好地解决过度带频率混叠问题,而且很自然地,人们把QMF引入二维信号处理。 子带就是小波分解后,得到不同的频带分量的时域或者空域表现。 子带编码的基本思想是,把信号分成多个子带,然后对各个子带进行编码。
6.7.1 QMF滤波器 混叠问题(aliasing) 从信号处理角度看:QMF滤波器能够很好地解决过度带频率混叠问题。 同理: 假设: 得到:
6.7.2 小波分解 从函数正交分解角度看:小波分解能够很好地解决信号的重构问题。 Meyer于1985-1986年度在Boubaki研讨会上提出了二进小波概念,完善了QMF滤波器的理论,为QMF把频谱以二分分解提供了理论依据。 对于具有紧支的标准正交函数系,任何连续可积函数的取样值为: 那么,x(t)可以写成: 可以证明, (t-n)对不同的n正交,等价于: 由于 (t-n)对不同的n正交,对x(t)的小波分解算法可以写成:
Mallat提出了多分辨率分析(Multiresolution analysis, MRA)理论,希望得到图象3个方向的纹理特征,以便机器识别
6.7.3 小波和QMF的比较 完备性概念 具有相同的信号完全重构的条件 具有相同的信号分解和重构的算法 小波分解采用的是L2空间中完备的正交基 小波理论,能构造出相同抽头(Taps)下,不同性能的滤波器 小波分析有更广泛的应用,除了编码,还能用在信号检测、微分方程、曲面拟合等领域。
6.7.4 正交小波的构造
根据MRA的思想,Daubechies设计了正交性能良好的高低通滤波器组,但是它们不对称即不满足线性相位,因此不能完全重构图象的边界
6.7.5 双正交小波的构造
3/5双正交小波 ¼ ½ ¼ -1/8 ¼ ¾ ¼ -1/8
3/5小波分解与重构中的对齐问题 x2 x1 x0 x1 x2 …… xn-4 xn-3 xn-2 xn-1 xn-2 ck -1/8 1/4 3/4 1/4 -1/8…………-1/8 1/4 3/4 1/4 -1/8 dk (-1)n 1/4 1/2 1/4 …………………………1/4 1/2 1/4 0 c0 0 c1 0 c2…….cn-2 0 cn-1 0 cn-1 1/4 1/2 1/4 ……………………………………………..1/4 1/2 1/4 0 d0 0 d0 0 d1……. dn-2 0 dn-1 0 dn-2 (-1)n -1/8 1/4 3/4 1/4 -1/8 -1/8 1/4 3/4 1/4 -1/8 分解取偶数点,重构时补0在奇数点,分解时在奇数点,补0在偶数点。然后以边界点为中心对称延拓,分解和重构时延拓方式是一样的。
6.7.6 矢量小波(Multiwavelets)
SOM多重小波具有很好的低通、带通和高通特性,具有提高编码质量的潜力
6.7.7 零树量化(EZW SPIHT)
6.7.8 Wavelet与DCT的比较(Y)
Wavelet与DCT的比较(U V)
Wavelet变换编码, 20.98 dB DCT变换编码, 17.95 dB 小波变换可以有效的克服块效应
小波编码在高码率和低码率情况下都取得很很好的实验结果 (a) Lenna原图 (b) 0.005bpp, PSNR=20.76dB (c) 0.01bpp, PSNR=22.72dB (d) 0.02bpp, PSNR=24.21dB (e) 0.05bpp, PSNR=27.30dB (f) 0.1bpp, PSNR=28.81dB 小波编码在高码率和低码率情况下都取得很很好的实验结果
6.7.9 小波变换编码具有可伸缩性 编码的尺寸可伸缩性 编码的质量可伸缩性
小波编码的数据结构的量化手段十分有利于可伸缩性编码和解码
6.8 视频编码与H.264 随着数字技术的发展,欣赏数字影视成为大众娱乐生活的重要内容。数字影视以数字信号形式,或者说以bit的形式在各种介质(或者叫存储器)存储和传输。我们希望在容量有限的存储器内存放更多的电影数量,或者希望在网络点播中看到更流畅的电影作品。然而存储器的容量或者网络能提供的带宽总是不能满足人们不断增长的需要,这就推动了视频压缩编码技术的发展。
对于CIF格式的视频流,它的画面大小是352×288个象素,每个象素点用8个bit来表示,对于黑白的画面来说,一幅画面需要352×288×8=811,008bit,如果是彩色画面,则需要1,216,512。为了欣赏到连续的画面,根据人类的视觉特性,每秒差不多要播放25个这样的画面(或者叫帧),才不会有快镜头的感觉(比如象卓别林的老电影)。那么,对于一部60分钟长的电影,它需要的存储量为1,216,512×25×60×60=109,486,080,000,约为13,685,760,000个字节,即13个G的存储空间。市场上的硬盘目前流行的一般为150个G,也就是说,这么一个硬盘里面只能放10部电影,这远远不能满足我们实际的需要。而实际上,150G的硬盘至少可以存放100部高质量的电影,这正是通过视频压缩手段才能做到这一点的。
6.8.1 视频编码框架
6.8.2 运动预测 块 搜索窗口 帧k(当前帧) 帧k-1(参考帧)
多参考帧技术——如果在整个宇宙中找到的最亮的恒星,一定不会比在整个银河系中找到的暗 当 前 帧 △ =4 =2 =1 前面 4 个参考帧 同一帧中的不同块的预测值可以在不同的参考帧中参。而且考帧越多,越能找到符合要求的预测值。以硬件的计算、存储能力为代价
整数精度(33.00dB) 1/2精度(33.25dB)
码率开销(16×16预测误差+一个运动矢量的)>码率开销(4个8×8预测误差+4个运动矢量的)? 多尺寸预测块——能根据物体的运动剧烈情况选择预测块的尺寸 码率开销(16×16预测误差+一个运动矢量的)>码率开销(4个8×8预测误差+4个运动矢量的)?
1个参考帧(31.65dB) 5个参考帧(33.19dB)
通过预测滤波器,得到A’,滤波器的系数为M/2N,有利于硬件的实现 分精度插值预测技术——运动物体半个象素点的位移,但只能通过整数点象素来表达,影响了预测的精度 A A’ B 预测误差ERROR:|B-A’|< |B-A| 通过预测滤波器,得到A’,滤波器的系数为M/2N,有利于硬件的实现
6.8.3 率失真-RD