第6章 自适应差分脉码调制 计算机学院 陈加忠 chenjz70@263.net 027 87541764.

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements


第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
3.4 空间直线的方程.
1.2 信号的描述和分类.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第二章 语声信号数字化编码 第一节 语声信号编码的基本概念及分类 第二节 脉冲编码调制——PCM  第三节 差值脉冲编码调制——DPCM
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
§5.1 幅度调制(线性调制)的原理 一般模型 边带滤波器.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
计算机基础知识 丁家营镇九年制学校 徐中先.
第2章 Z变换 Z变换的定义与收敛域 Z反变换 系统的稳定性和H(z) 系统函数.
语音编码 陈虎.
Hadoop I/O By ShiChaojie.
现代电子技术实验 4.11 RC带通滤波器的设计与测试.
数 控 技 术 华中科技大学机械科学与工程学院.
Online job scheduling in Distributed Machine Learning Clusters
DM8148与DM8127 ISS框架讲解 广州创龙电子科技有限公司
第十章 方差分析.
DPCM编码的原理 DPCM采用预测编码的方式传输信号,所谓预测编码就是根据过去的信号样值来预测下一个信号样值,并仅把预测值与现实样值的差值加以量化,编码后进行数字信号传输。在接收端经过和发送端相同的预测操作,低通滤波器便可恢复出与原始信号相近的波形。 DPCM是采用固定预测器与固定量化器的差值脉冲调制,它是分析ADPCM工作原理的基础。
实验六 积分器、微分器.
多媒体技术 中南大学信息科学与工程学院 黄东军.
工业机器人技术基础及应用 主讲人:顾老师
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
张奇 复旦大学 计算机科学技术学院 2010年3月 多媒体技术基础(第3版) 第3讲 话音编码 张奇 复旦大学 计算机科学技术学院 2010年3月.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
晶体管及其小信号放大 -单管共射电路的频率特性.
Three stability circuits analysis with TINA-TI
语音信号的短时分析技术 对语音信号采用分段(或称分帧处理),称为短时分析。 短时平均能量 短时能量分析 窗口形状的选择 窗口的长度
晶体管及其小信号放大 -单管共射电路的频率特性.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
多媒体通信原理第2章 数据压缩编码基本理论.
实验三 16位算术逻辑运算实验 不带进位控制的算术运算 置AR=1: 设置开关CN 1 不带进位 0 带进位运算;
2019/5/4 实验三 离散傅立叶变换的性质及应用 06:11:49.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
多媒体技术 中南大学信息科学与工程学院 黄东军.
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
音频处理及数字化.
2019/5/11 实验四 FIR滤波器的特性及应用 05:31:12.
2019/5/11 实验三 线性相位FIR滤波器的特性 05:31:30.
第4课时 绝对值.
课题五 频率变换电路 调幅波的基本性质 调幅电路 检波器 混频器.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
§2 方阵的特征值与特征向量.
声音信号数字化 信息工程学院 宋 荣 杰.
多媒体技术 中南大学信息科学与工程学院 黄东军.
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
Continuous Authentication for Voice Assistants
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
2.1 控制系统中信号分类 2.2 理想采样过程的数学描述及特性分析 2.3 信号的恢复与重构 2.4 信号的整量化
本底对汞原子第一激发能测量的影响 钱振宇
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
B12 竺越
§4.5 最大公因式的矩阵求法( Ⅱ ).
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

第6章 自适应差分脉码调制 计算机学院 陈加忠 chenjz70@263.net 027 87541764

6.1 概述 几十年来,人们一直致力于压缩数字化语音占用频带的工作,也就是在相同质量指标下,努力降低数字化语音比特率,以提高数字通信系统的频带利用率 语音压缩方法有DPCM SBC ATC CELP MPLPC VQ ADPCM ADPCM在更低的码率下(16-8kbps),质量明显下降

6.2 DPCM基本原理 P141

6.3 ADPCM基本原理 P142 极点预测器 预测误差滤波器 重建滤波器

6.4 语音压缩编码 原理框图

6.4.1 语音编码技术概述 语音编码:移动通信数字化的基础 语音编码的意义: 提高通话质量 (数字化+信道编码纠错) 6.4.1 语音编码技术概述 语音编码:移动通信数字化的基础 第1/2代蜂窝系统根本区别 语音编码的意义: 提高通话质量 (数字化+信道编码纠错) 提高频谱利用率 (低码率编码) 提高系统容量 (低码率,语音激活技术)

6.4.2 语音编码分类 语音编码器 波形编码器 参量编码器 频域 时域 非差分 子带编码 自适应变换域编码 差分 PCM DPCM M 6.4.2 语音编码分类 语音编码器 波形编码器 参量编码器 频域 时域 非差分 子带编码 自适应变换域编码 差分 PCM DPCM M 连续可变斜率M ADPCM APC 线性预测编码 声码器 信道声码器 共振峰声码器 倒频谱声码器 语音激励声码器 多脉冲激励LPC 码本激励LPC 矢量和激励LPC 子带编码:将语音分为4~8个子带,子带下降到零频后进行编码,再合路,G.722,高保真录音 变换域编码:时频变换,用DCT将信号归结为多项余弦函数,语音信号集中在频谱的低端,将频域参数传给对方。

6.4.3 语音编码分类 波形编码:将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号---《现代通信原理》 编码速率较高,16k~64k 包括:PCM,ADPCM,M,CVSDM,APC等 占用较高带宽,适合有线 参量编码:基于人类语音的产生机理建立数学模型,根据输入语音得出模型参数并传输,在收端恢复。 编码速率较低,1.2~4.8 kbps 包括各种线形预测编码(LPC)方法和余弦声码器 语音质量中等,不满足商用要求 混合编码:波形编码+参量编码 (LPAS) 包括GSM的RPE-LPC编码和VSELP编码 RPE-LPC:规则脉冲激励线形预测编码 VSELP:矢量和激励线形预测编码

6.4.4 语音编码的标准 G.711 PCM (64k bps) G.721 ADPCM (32k bps) G.722 7kHz带宽64k bps速率内的音频编码 G.723 6.3k/5.6k 双速率多媒体语音编码 G.728 16k bps 语音编码 LD-CELP G.729 8k bps多媒体语音编码

6.4.5 语音编码的发展 极低速率语音编码,600bps 高保真语音编码 自适应多速率语音编码 新的编码分析技术: 非线形预测 多精度时频分析技术(子波分析技术) 高阶统计分析技术

6.4.6 线形预测编码的原理 原理:模型化人类语音信号产生的机制,提取模型参数,并且只传输模型的参数。 语音信号的产生模型: 6.4.6 线形预测编码的原理 原理:模型化人类语音信号产生的机制,提取模型参数,并且只传输模型的参数。 语音信号的产生模型: 语音的产生,声带和声道 不同语音产生的原因:声音激励源和声道不同 声音分类:浊音和清音 发声过程 口腔和鼻腔形成时变滤波器 人类的发声器官是一个复杂系统。由口腔和鼻腔形成声道,气流经气管,喉部和声门产生振动后进入声道形成声音,经嘴唇和鼻孔发出。由于声音激励源和声道形状不同,产生的声音部同

6.4.7 清音和浊音 清浊音频谱 清浊音信号

6.4.8 语音产生模型 语音模型的建立:1. 产生激励,2.响应 模型参数:基音,共振峰频率及强度,清浊音判决 低码率编码 码率降低有限 6.4.8 语音产生模型 语音模型的建立:1. 产生激励,2.响应 模型参数:基音,共振峰频率及强度,清浊音判决 低码率编码 码率降低有限 合成的语音波形失去了自然度和音质 周期脉冲发生器 随机噪声发生器 G 时变数字滤波器 清/浊音开关 声道参数 基音周期

6.4.9 LPC语音编码 使误差均方最小,可求得一组预测系数{ak}, 传送:预测系数,基音周期合增益,清浊音判决

6.5 图像编码 变换: 编码

6.5.1 图像压缩标准 可压缩的原因 已有的标准

6.5.2 编码与变换、量化 为什么要变换和量化 = + 变换 量化 熵编码 高 质 量 编 码 器 具有优良频 率特性的滤波器作 变换工具,有利于得 到平稳的能量分布, 有利于进一步的 量化处理 原始信号的 信息损失主要发生 在量化阶段,好的量 化能以尽可能少的 量化误差换取 最小的码率 = +

6.6 DFT与DCT DFT变换 结果有虚部和实部 对DFT变换系数量化后,吉布斯效应明显 把x(n)对称延拓,可以消除其中的虚部,得 到DCT变换

6.6.1 正交变换的一个例子 假设图象的大小只有一个4×4的块,即一共16个点,其中每个象素点都有一定的值,我们把这个值叫灰度值。对图象而言,这些值为0~255之间的整数。假设一幅4×4的图象,它的灰度值如下:

下面我们对这个4×4的图象做变换,变换矩阵我们选: 一般我们希望它是正交矩阵,即变换矩阵和它的逆矩阵的乘积,为单位矩阵,即:

对上述图像作变换,可以验证: = 我们希望这个过程是可逆的,即可以验证:

6.6.2 二维4×4 DCT变换 若 表示矩阵对应元素相乘,d=b/c,那么上式可以表示为 时,为最优变换矩阵

6.6.3 二维4×4 DCT整数变换 在这里,d取5/2,非常接近最优值 此时, ,得到整数变换矩阵的正变换为:

6.6.4 二维4×4 DCT变换与量化 对于9比特的预测误差数据做变换,变换矩阵每一行绝对值之和的最大值为14,因此对于变换后的矩阵元素需要 位来表示。现在大多数处理装置(如CPU,DSP)为32位宽,用上述变换进行处理就没有数据溢出的危险。 一旦得到变换后的系数,我们就可以对变换系数进行量化操作。对于某个量化步长QStep,对应一个量化参数Q,量化参数Q的取值范围为0到44整数,量化就是把变换得到的结果都除以QStep:

可以得到: 可以得到 其中, ,floor表示向负无穷取整。量化参数Q与量化步长QStep的对应关系如表1。从表1中可以看出,量化参数Q每增加5时,量化步长QStep就随之翻倍增加。

表1 量化参数Q与量化步长QStep的对应关系 1 2 3 4 5 6 7 8 9 10 11 … QStep 0.625 0.6875 0.8125 0.875 1.25 1.375 1.625 1.75 2.5 2.75 14 19 24 29 34 39 16 32 64 128

6.7 小波变换与QMF Moret首先提出了小波的概念(Moret小波函数是Grossmann和Morlet在1984年提出的),在很多学者的共同努力下,小波理论得到了完善和发展。特别是Mallat,他提出的多分辨率分析(Multiresolution analysis, MRA)理论,对小波构造理论起到了十分重要的作用。 1976年,Crochiere等人首先把子带编码应用于语音编码。在语音编码中,用作频谱QMF (Quadrature mirror filter)滤波器能够很好地解决过度带频率混叠问题,而且很自然地,人们把QMF引入二维信号处理。 子带就是小波分解后,得到不同的频带分量的时域或者空域表现。 子带编码的基本思想是,把信号分成多个子带,然后对各个子带进行编码。

6.7.1 QMF滤波器 混叠问题(aliasing) 从信号处理角度看:QMF滤波器能够很好地解决过度带频率混叠问题。 同理: 假设: 得到:

6.7.2 小波分解 从函数正交分解角度看:小波分解能够很好地解决信号的重构问题。 Meyer于1985-1986年度在Boubaki研讨会上提出了二进小波概念,完善了QMF滤波器的理论,为QMF把频谱以二分分解提供了理论依据。 对于具有紧支的标准正交函数系,任何连续可积函数的取样值为: 那么,x(t)可以写成: 可以证明, (t-n)对不同的n正交,等价于: 由于 (t-n)对不同的n正交,对x(t)的小波分解算法可以写成:

Mallat提出了多分辨率分析(Multiresolution analysis, MRA)理论,希望得到图象3个方向的纹理特征,以便机器识别

6.7.3 小波和QMF的比较 完备性概念 具有相同的信号完全重构的条件 具有相同的信号分解和重构的算法 小波分解采用的是L2空间中完备的正交基 小波理论,能构造出相同抽头(Taps)下,不同性能的滤波器 小波分析有更广泛的应用,除了编码,还能用在信号检测、微分方程、曲面拟合等领域。

6.7.4 正交小波的构造

根据MRA的思想,Daubechies设计了正交性能良好的高低通滤波器组,但是它们不对称即不满足线性相位,因此不能完全重构图象的边界

6.7.5 双正交小波的构造

3/5双正交小波 ¼ ½ ¼ -1/8 ¼ ¾ ¼ -1/8

3/5小波分解与重构中的对齐问题 x2 x1 x0 x1 x2 …… xn-4 xn-3 xn-2 xn-1 xn-2 ck -1/8 1/4 3/4 1/4 -1/8…………-1/8 1/4 3/4 1/4 -1/8 dk (-1)n 1/4 1/2 1/4 …………………………1/4 1/2 1/4 0 c0 0 c1 0 c2…….cn-2 0 cn-1 0 cn-1 1/4 1/2 1/4 ……………………………………………..1/4 1/2 1/4 0 d0 0 d0 0 d1……. dn-2 0 dn-1 0 dn-2 (-1)n -1/8 1/4 3/4 1/4 -1/8 -1/8 1/4 3/4 1/4 -1/8 分解取偶数点,重构时补0在奇数点,分解时在奇数点,补0在偶数点。然后以边界点为中心对称延拓,分解和重构时延拓方式是一样的。

6.7.6 矢量小波(Multiwavelets)

SOM多重小波具有很好的低通、带通和高通特性,具有提高编码质量的潜力

6.7.7 零树量化(EZW SPIHT)

6.7.8 Wavelet与DCT的比较(Y)

Wavelet与DCT的比较(U V)

Wavelet变换编码, 20.98 dB DCT变换编码, 17.95 dB 小波变换可以有效的克服块效应

小波编码在高码率和低码率情况下都取得很很好的实验结果 (a) Lenna原图 (b) 0.005bpp, PSNR=20.76dB (c) 0.01bpp, PSNR=22.72dB (d) 0.02bpp, PSNR=24.21dB (e) 0.05bpp, PSNR=27.30dB (f) 0.1bpp, PSNR=28.81dB 小波编码在高码率和低码率情况下都取得很很好的实验结果

6.7.9 小波变换编码具有可伸缩性 编码的尺寸可伸缩性 编码的质量可伸缩性

小波编码的数据结构的量化手段十分有利于可伸缩性编码和解码

6.8 视频编码与H.264 随着数字技术的发展,欣赏数字影视成为大众娱乐生活的重要内容。数字影视以数字信号形式,或者说以bit的形式在各种介质(或者叫存储器)存储和传输。我们希望在容量有限的存储器内存放更多的电影数量,或者希望在网络点播中看到更流畅的电影作品。然而存储器的容量或者网络能提供的带宽总是不能满足人们不断增长的需要,这就推动了视频压缩编码技术的发展。

对于CIF格式的视频流,它的画面大小是352×288个象素,每个象素点用8个bit来表示,对于黑白的画面来说,一幅画面需要352×288×8=811,008bit,如果是彩色画面,则需要1,216,512。为了欣赏到连续的画面,根据人类的视觉特性,每秒差不多要播放25个这样的画面(或者叫帧),才不会有快镜头的感觉(比如象卓别林的老电影)。那么,对于一部60分钟长的电影,它需要的存储量为1,216,512×25×60×60=109,486,080,000,约为13,685,760,000个字节,即13个G的存储空间。市场上的硬盘目前流行的一般为150个G,也就是说,这么一个硬盘里面只能放10部电影,这远远不能满足我们实际的需要。而实际上,150G的硬盘至少可以存放100部高质量的电影,这正是通过视频压缩手段才能做到这一点的。

6.8.1 视频编码框架

6.8.2 运动预测 块 搜索窗口 帧k(当前帧) 帧k-1(参考帧)

多参考帧技术——如果在整个宇宙中找到的最亮的恒星,一定不会比在整个银河系中找到的暗 当 前 帧 △ =4 =2 =1 前面 4 个参考帧 同一帧中的不同块的预测值可以在不同的参考帧中参。而且考帧越多,越能找到符合要求的预测值。以硬件的计算、存储能力为代价

整数精度(33.00dB) 1/2精度(33.25dB)

码率开销(16×16预测误差+一个运动矢量的)>码率开销(4个8×8预测误差+4个运动矢量的)? 多尺寸预测块——能根据物体的运动剧烈情况选择预测块的尺寸 码率开销(16×16预测误差+一个运动矢量的)>码率开销(4个8×8预测误差+4个运动矢量的)?

1个参考帧(31.65dB) 5个参考帧(33.19dB)

通过预测滤波器,得到A’,滤波器的系数为M/2N,有利于硬件的实现 分精度插值预测技术——运动物体半个象素点的位移,但只能通过整数点象素来表达,影响了预测的精度 A A’ B 预测误差ERROR:|B-A’|< |B-A| 通过预测滤波器,得到A’,滤波器的系数为M/2N,有利于硬件的实现

6.8.3 率失真-RD