Presentation is loading. Please wait.

Presentation is loading. Please wait.

第二章 声音和语音编码 南通大学计算机应用教研室.

Similar presentations


Presentation on theme: "第二章 声音和语音编码 南通大学计算机应用教研室."— Presentation transcript:

1 第二章 声音和语音编码 南通大学计算机应用教研室

2 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 脉冲编码调制(PCM) PCM应用 其它编码方法 南通大学计算机应用教研室

3 2.1 声音概述 声音是一种连续的波,具有普通波的一切特性:反射、折射、衍射等。 声音信号是由许多频率不同的信号组成 声波的分类(按频率)
次声波 ( 0 ~ 20 Hz ) 声波 (20 ~ 20 KHz) — 人类听觉范围 超声波 ( > 20KHz ) — 强的方向性 应用:B超、探测仪、主动声纳 南通大学计算机应用教研室

4 2.1 声音概述(续) 声音的幅度 补充:什么是dB(分贝)数? 人类能够感知的范围是:0~120dB之间 超出120dB人耳可能会感动疼痛
   这是一种相对量单位,在专业音响设备的调节刻度上经常会遇到,例如增益大小、衰减量、提升量、电平量等。    其定义是:dB数=20lgA/B    但在功率级、声强级及能量级中,其定义是:dB数=10lgA/B 式中,A是被比较的绝对量,例如电压、电流等;B为比较的标准量。   采用dB数表示量值的优点是缩小了数值大小,使量值表示更简单更具体,使运算简化。同时,对一些变化范围很宽的物理量作图表示或刻度与非常方便,一目了然。 南通大学计算机应用教研室

5 什么是dB(分贝)数? 一种相对量单位,在专业音响设备的调节刻度上经常会遇到,例如增益大小、衰减量、提升量、电平量等。
其定义是:dB数=20lgA/B 但在功率级、声强级及能量级中,其定义是:dB数=10lgA/B 式中,A是被比较的绝对量,例如电压、电流等;B为比较的标准量。 采用dB数表示量值的优点是缩小了数值大小,使量值表示更简单更具体,使运算简化。同时,对一些变化范围很宽的物理量作图表示或刻度与非常方便,一目了然。 南通大学计算机应用教研室

6 2.1 声音概述(续) 音宽与频带:频带宽度或称为带宽,它是描述组成复合信号的频率范围。 图2.1 声音的频带 南通大学计算机应用教研室

7 2.1.1 音频信号的指标 一. 频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。 图2.2 声音的频带宽度
音频信号的指标 一. 频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。 图2.2 声音的频带宽度 南通大学计算机应用教研室

8 2.1.1 音频信号的指标 (续) 二.动态范围: 动态范围越大,信号强度的相对变化范围越大,音响效果越好。 抑扬顿挫 音质效果 AM广播
音频信号的指标 (续) 二.动态范围: 动态范围越大,信号强度的相对变化范围越大,音响效果越好。 表2.1 声音的动态范围 音质效果 AM广播 FM广播 数字电话 CD-DA 动态范围(dB) 40 60 50 100 动态范围=20×log(信号的最大强度 / 信号的最小强度) (dB) 动态范围=20×log(信号的最大强度 / 信号的最小强度) 单位:(dB) 抑扬顿挫 南通大学计算机应用教研室

9 音频信号的指标 (续) 三.信噪比:信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好 南通大学计算机应用教研室

10 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 脉冲编码调制(PCM) PCM应用 其它编码方法 南通大学计算机应用教研室

11 2.2 声音的数字化 模拟信号与数字信号 声音信号的数字化 采样频率 采样精度 声音质量与数据率 南通大学计算机应用教研室

12 2.2.1 模拟信号与数字信号 模拟信号——时间上、幅度上均连续的 信号。 采样—— 在某一时刻对模拟信号的幅度进行测量,将其时间上离散化
模拟信号——时间上、幅度上均连续的 信号。 采样—— 在某一时刻对模拟信号的幅度进行测量,将其时间上离散化 量化—— 将采样得到的信号幅度的取值离散化。如采样得到的幅度为[0,255],一种离散化的方法是取值{0,1,2,…,255} 采样和量化后得到的信号就是数字信号 南通大学计算机应用教研室

13 2.2.1 模拟信号到数字信号 为什么要从模拟信号过渡到数字信号?
以前声音长途传输用电信号来模拟声波,对电信号的处理,采用模拟电气元件,受环境影响很大(温度、电磁场干扰),难以纠错。 采用数字信号,采用数字信号处理器(DSP)进行数学运算,受环境影响较小,可以实现容错处理。 南通大学计算机应用教研室

14 2.2.1 数字信号处理的优点 数字信号计算是一种精确的计算方法,不受时间和环境变化的影响;
用数学运算来实现(模拟)原来的物理部件的功能相对比较容易 可以通过改变数学运算的方法,实现不同的功能,而不需更换物理部件(DSP)。即只需对DSP编程。 南通大学计算机应用教研室

15 2.2.2 声音信号的数字化 声音信号的数字化步骤: 连续时间的离散化通过采样,一般采用均匀采样(uniform sampling)
采样 ——得到一个个时间上离散的幅度值 量化 ——得到一个个离散的幅度值 连续时间的离散化通过采样,一般采用均匀采样(uniform sampling) 连续幅度的离散化通过量化,可采用线性量化, 或非线性量化 线性量化: 幅度划分是等分的 南通大学计算机应用教研室

16 2.2.2 声音信号的数字化 (图) 图2.3 声音信号的数字化 南通大学计算机应用教研室

17 采样和量化——示例 如有一声音信号,对其进行采样和量化。 量化表用 [1,2,3,4,5,6,7,8] ,四舍五入方法。 结果如下表2.2
采样序列 1.53 2.20 3.61 4.83 量化序列 2 4 5 南通大学计算机应用教研室

18 2.2.2声音信号的数字化 目前应用较为广泛的采样方式: 奈奎斯特(Nyquist)采样 正交采样 带通采样
Sigma-Delta(∑-△)采样等 1. Nyquist采样要求采样时钟(fs)满足fs>2fh,fh为信号的最高频率分量。在实际应用中,为了使前级抗混叠滤波器易于实现,提高输入信号的信噪比(SNR),一般fs取fh的2.5倍以上。 2. 由于软件无线电要求兼容多种协议的不同特征、不同带宽的信号,中频频率可能取得比较高,而且中频信号是带通信号,通常往往采样速率f>2B,B为中频信号带宽,因此效率较低,后级处理的负荷很重,对功耗、结构、成本等方面影响较大。 南通大学计算机应用教研室

19 2.2.2 声音信号的数字化 需要解决的两个问题: 采样频率应该是多少? 量化的精度?bps(bit per sample)
南通大学计算机应用教研室

20 2.2.3 采样频率 采样频率是指一秒钟内采样的次数。 奈奎斯特采样定理(Nyquist theory):
如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半; 或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。 如何理解奈奎斯特采样定理? 声音信号是由许多正弦波叠加形成的,采样必须能够采到波峰和波谷的样本 南通大学计算机应用教研室

21 2.2.3 采样频率 奈奎斯特采样定理: fs >= 2 fmax -- fs为采样频率,fmax为信号最高频率
如何理解奈奎斯特采样定理? 声音信号是由许多正弦波叠加形成的,采样必须能够采到波峰和波谷的样本 南通大学计算机应用教研室

22 2.2.3 采样频率 根据斯特采样定理,CD 激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。 声音采样的三个标准频率分别为: 44.1KHz 22.05KHz 11.025KHz。 南通大学计算机应用教研室

23 2.2.3 采样频率 人耳听觉上限是20KHz,根据奈奎斯特的理论,数码音频的取样频率应当是40 KHz,可为何定了44.1 KHz这么一个特殊的标准? 对模拟声音信号进行处理时,20KHz处有比较明显的衰减,因此把信号截止频率提高到22 KHz 为使交流电纹波的负面影响降到最低,需要取一个既大于44 KHz,又为50Hz和60Hz(国际通行的两种交流电频率)公倍数的数据。 南通大学计算机应用教研室

24 2.2.4 量化精度—— 量化位数 量化位数是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。
由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。 类似于你银行的存款位数:3位数 四位数、六位数??? 类似于你银行的存款位数 南通大学计算机应用教研室

25 2.2.4 量化精度—— 量化位数 例如用8位表示一个声音采样的样本,则样本值是0到255之间的256个整数值,此时采样精度就是1/256.
量化精度、存储空间、声音质量、处理速度之间的矛盾。(理解) 南通大学计算机应用教研室

26 2.2.4 量化精度—— 信噪比表示 SNR= 10 log[(Vsignal)2/(Vnoise)2]
信噪比SNR(signal-to-noise ratio)公式: SNR= 10 log[(Vsignal)2/(Vnoise)2] = 20 log(Vsignal /Vnoise) 说明: Vsignal表示信号电压 Vnoise表示噪声电压 SNR的单位为分贝(dB) 如何理解信噪比公式 (思考题) 南通大学计算机应用教研室

27 2.2.4 量化精度—— 信噪比计算 举例:假设Vnoise=1; 采样精度为1bit时,Vsignal=21,此时它的信噪比:
SNR= 20 log(Vsignal /Vnoise) = 20 log( 21 / 1 ) = 20 log 2 = 20 *0.3 = 6 dB Log 2 = 0.3 南通大学计算机应用教研室

28 2.2.4 量化精度—— 信噪比计算 举例:假设Vnoise=1; 采样精度为8bit时,Vsignal=28,此时它的信噪比:
SNR= 20 log(Vsignal /Vnoise) = 20 log( 28 / 1 ) = 20* 8 *log 2 = 20 * 8 *0.3 = 48 dB Log 2 = 0.3 南通大学计算机应用教研室

29 2.2.4 采样精度 (表) 表2-3 采样位数与信噪比对照表 量化位 等份 信噪比(dB) 应 用 1 2 6 8 256 48 数字电话
16 65536 96 CD-DA 南通大学计算机应用教研室

30 2.2.5 声音质量与数据率 声道数:有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。 数据率:为每秒bit数,(bps). 数据率是计算机处理时要掌握的基本技术参数。 声音质量与数据率的对应 参见教材表2-1 p11 数据率:它与信息在计算机中的实时传输有直接关系,而其总数据量又与计算机的存储空间有直接关系。因此 声道数        声卡所支持的声道数是衡量声卡档次的重要指标之一,从单声道到最新的环绕立体声,下面一一详细介绍:    1.单声道    单声道是比较原始的声音复制形式,早期的声卡采用的比较普遍。当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的。这种缺乏位置感的录制方式用现在的眼光看自然是很落后的,但在声卡刚刚起步时,已经是非常先进的技术了。    2.立体声    单声道缺乏对声音的位置定位,而立体声技术则彻底改变了这一状况。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。立体声技术广泛运用于自Sound Blaster Pro以后的大量声卡,成为了影响深远的一个音频标准。时至今日,立体声依然是许多产品遵循的技术标准。    3.准立体声    准立体声声卡的基本概念就是:在录制声音的时候采用单声道,而放音有时是立体声,有时是单声道。采用这种技术的声卡也曾在市面上流行过一段时间,但现在已经销声匿迹了。    4.四声道环绕    人们的欲望是无止境的,立体声虽然满足了人们对左右声道位置感体验的要求,但是随着技术的进一步发展,大家逐渐发现双声道已经越来越不能满足我们的需求。由于PCI声卡的出现带来了许多新的技术,其中发展最为神速的当数三维音效。三维音效的主旨是为人们带来一个虚拟的声音环境,通过特殊的HRTF技术营造一个趋于真实的声场,从而获得更好的游戏听觉效果和声场定位。而要达到好的效果,仅仅依靠两个音箱是远远不够的,所以立体声技术在三维音效面前就显得捉襟见肘了,但四声道环绕音频技术则很好的解决了这一问题。    四声道环绕规定了4个发音点:前左、前右,后左、后右,听众则被包围在这中间。同时还建议增加一个低音音箱,以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言,四声道系统可以为听众带来来自多个不同方向的声音环绕,可以获得身临各种不同环境的听觉感受,给用户以全新的体验。如今四声道技术已经广泛融入于各类中高档声卡的设计中,成为未来发展的主流趋势。    5.5.1声道    5.1声道已广泛运用于各类传统影院和家庭影院中,一些比较知名的声音录制压缩格式,譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的,其中“.1”声道,则是一个专门设计的超低音声道,这一声道可以产生频响范围20~120Hz的超低音。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。相信每一个真正体验过Dolby AC-3音效的朋友都会为5.1声道所折服。    千万不要以为5.1已经是环绕立体声的顶峰了,更强大的7.1系统已经出现了。它在5.1的基础上又增加了中左和中右两个发音点,以求达到更加完美的境界。以前由于成本比较高,没有广泛普及,现在7.1声道的声卡也比较多了。   音箱所支持的声道数是衡量家庭影院套装的的重要指标之一。一般来说构成家庭影院至少需要4声道,比较常见的是5.1声道,目前最多的可以达到7.1声道结构:     2.1声道     严格的说2.1声道不能算是家庭影院,不过2声道已经可以构成最简单的立体声。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果,这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。其中“.1”是指低音音箱,也叫低音炮,用来播放分离的低频声音,在Dolby环绕中用来播放LFE声道。     4.1声道     2声道立体声可以很好的表现听者面前的声场,但是却无法表现侧面和后面的声场,因此人们在听者的后方加上两个音箱,一左一右,形成4声道,构成基本的环绕声场。其中“.1”是指低音音箱,也叫低音炮,用来播放分离的低频声音,在Dolby环绕中用来播放LFE声道。4.1声道已经可以比较好的表现声场,听音者可以感受到三维空间感。四声道环绕规定了4个发音点:前左、前右,后左、后右,听音者则被包围在这中间,四声道系统可以为听众带来来自多个不同方向的声音环绕,可以获得身临各种不同环境的听觉感受,给用户以全新的体验。     5.1声道     5.1声道源于4.1声道,它在4.1声道的基础上又增加了一个中置声道,放在听者的正前方,作用是加强人物对白的效果。其中“.1”仍然是指低音音箱,也叫低音炮,用来播放分离的低频声音,在Dolby环绕中用来播放LFE声道。5.1声道是成本和效果的一个非常好的平衡点,可以出色的建立环绕声场,突出电影的人物对白。5.1声道是最常见的家庭影院音响形式,已广泛运用于各类家庭影院中,一些比较知名的声音录格式,譬如杜比AC-3(Dolby Digital)、DTS等都是5.1声道系统。之后的6.1声道和7.1声道都是建立在5.1声道基础之上,为数众多的声音媒体在录制的时候就采用5.1声道录制,播放时当然要以5.1声道播放。     6.1和7.1声道     6.1声道和7.1声道两者非常接近,它们都是建立在5.1声道基础上,将5.1声道的后左、后右声道放在听音者的两侧,在听音者后方加上1或者2个后环绕。其中“.1”仍然是指低音音箱,也叫低音炮,用来播放分离的低频声音,在Dolby环绕中用来播放LFE声道。和5.1声道相比,6.1和7.1声道可以获得更真实的从头顶或身边飞过的效果,具有更稳定的声像衬托电影氛围及音乐,使无论是影院还是家庭欣赏都具备更和谐的环绕效果。现在已经有越来越多的电影在录制的时候就采用6.1或者7.1声道,因此在未来,使用6.1和7.1声道的家庭影院也会越来越多。     一般来说,一套家庭影院有多少个音箱,一般也就表示这个家庭影院套装最多支持几声道,比如包括低音音箱在内有6个音箱,那么就支持5.1声道。当然,在少数情况下,家庭影院可以没有低音音箱,或者将低音音箱和前置音箱做在一起,并且也有一个声道用多个音箱播放的情况。此外,不同声道之间是兼容的,6.1声道固然可以播放2声道立体声节目,2.1声道也可以播放6.1声道节目,虽然不能实现多声道环绕效果,但不会出现无法播放的情况。 南通大学计算机应用教研室

31 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 脉冲编码调制 PCM应用 其它编码方法 南通大学计算机应用教研室

32 2.3 电子合成音乐 - MIDI 乐器数字接口MIDI(Musical Instrument Digital Interface),泛指数字音乐的国际标准,它是音乐与计算机结合的产物。 MIDI不是把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,如按了哪一个键、力度多大、时间多长等等。当需要播放这首乐曲时,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。 南通大学计算机应用教研室

33 2.3.1 MIDI术语 一、音乐合成器(Musical Synthesizer):用来产生并修改正弦波形的叠加,然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。 二、复调声音:简称为复音(Polyphony),指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。 南通大学计算机应用教研室

34 2.3.1 MIDI术语 三、多音色(Timbre):指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。
四、MIDI标准 1、MIDI电子乐器:能产生特定声音的合成器,其数据传送符合MIDI通信约定。 南通大学计算机应用教研室

35 2.3.1 MIDI术语 2、MIDI消息 ( message ) 或指令:乐谱的一种记录格式,相当于乐谱语言。
3、MIDI接口(interface):MIDI硬件通信协议 4、MIDI通道 ( channel ):共16个通道,每种通道对应一种逻辑的合成器 南通大学计算机应用教研室

36 2.3.1 MIDI术语 5、MIDI文件:由控制数据和乐谱信息数据构成
6、音序器 ( Sequencer ):用来记录、编辑和播放MIDI文件的软件。 南通大学计算机应用教研室

37 2.3.2 计算机上MIDI的产生过程 MIDI电子乐器通过MIDI接口与计算机相连。
南通大学计算机应用教研室

38 2.3.2 计算机上MIDI的产生过程 图2.4 MIDI的产生过程 南通大学计算机应用教研室

39 2.3.3 MIDI合成的产生方式 1、频率调制合成( Frequency Modulation )     通过硬件产生正弦信号,再经处理合成音乐。合成的方式是将波形组合在一起,理论上可以有无限多组波形,但实际上做不到。其泛音的合成与模拟比较困难,实际的质量不高。 2、波形表(Wavetable)合成     其原理是在ROM中已存储各种实际乐器的声音样本,需要时,调用相应样本来合成该乐器的乐音。ROM的容量越大,合成效果越好,价格也越贵。 南通大学计算机应用教研室

40 2.3.4 两种音频文件的比较 MIDI WAVE 文件内容 MIDI指令 数字音频数据 音源 MIDI乐器 Mic,磁带,CD唱盘,音响
容量 与音质成正比 效果 与声卡质量有关 与编码指标有关 适用性 易编辑 声源受限 数据量很小 不易编辑 声源不限   数据量大 表2-4 MIDI和WAVE文件的比较 南通大学计算机应用教研室

41 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 (教材第三章) 脉冲编码调制 PCM 应用 其它编码方法
语音编码 (教材第三章) 脉冲编码调制 PCM 应用 其它编码方法 南通大学计算机应用教研室

42 2.4 语音编码——实现方法 波形编码 将波形直接变换成数字码流。 参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。
特点:比特率较高、解码后质量较高、延时较小。可以分为: 时域波形编码,如PCM、ADPCM、M等; 频域波形编码,如子带编码(SBC)、自适应变换编码等。 参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。 特点:比特率较低、解码后质量较低、延时较大。如:各种声码器。 线性预测编码(LPC) 南通大学计算机应用教研室

43 2.4 语音编码——实现方法 混合编码 将以上二种方法混合, 特点:以较低的比特率获得较高的质量,延时适中,复杂。 如:GSM的语音编码。
南通大学计算机应用教研室

44 语音编码历史:数字电话(1)  波形编码  PCM原理(37年,法Alec Reeres)
电子管PCM(46年,Bell实验室) 晶体管PCM(62年,市话扩容,64kb/s) 单片IC PCM(70年代,微波、卫星、光纤)  增量编码原理(46年,法De Loraine) 自适应增量 CVSD(60年代末,军用,32、16kb/s) Continuously Variable Slope Delta Modulator 连续变化斜率增量调制器  其他编码(70年代,ADPCM、SubBand、ATC、APC等) 在16kb/s以上得到较好的话音质量。 特点:话音质量好,且编码速率高。 南通大学计算机应用教研室

45 语音编码历史:数字电话(2)  参数编码 混合编码器 特点:话音质量高、编码速率低,但算法复杂。
 波形编码通道声码器(39年,Dudly,二次大战保密电话)  LPC声码器(67年,Atal、Schroeder)  共振峰声码器(71年,Rabiner、Schafer、Elanagan)  波形插值(91年,W.B. Kleijn) 特点:编码速率低,自然度差。 混合编码器 利用线性预测、VQ、A-B-S、感觉加权、后滤波等技术。  规则脉冲激励线性预测(RPELP Deprettere、Kroon)  码本激励线性预测(CELP Manfred、Schroeder、Atal) 特点:话音质量高、编码速率低,但算法复杂。 南通大学计算机应用教研室

46 语音编码的优点  提高传输的质量  便于处理 使用灵活,便于多种媒体(视频、音频、文字、数据)相结合应用  易于加密
 适合大规模集成  可靠性高、体积功耗小  价格便宜 南通大学计算机应用教研室

47 表2.2 语音编码的应用 南通大学计算机应用教研室

48 压缩的必要性 表2.3 几种类型信号的参数 88.125KB/s (一般了解) 南通大学计算机应用教研室

49 语音压缩依据 1) 冗余度 2) 人耳听觉特性 (一般了解) 时域样点之间相关(短时、长时) 频域谱的非平坦性(谱包络、谱离散)
统计特性 2) 人耳听觉特性 人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 Masking Effect … (一般了解) 南通大学计算机应用教研室

50 语音压缩依据 说明: 对人耳听不到或感知极不灵敏的声音分量都不妨视为冗余。利用听觉心理特性…、感觉加权、量化、去除多余分量、后滤波、…。
(一般了解) 南通大学计算机应用教研室

51 语音编码性能评价(1) 1) 编码速率:(Kbps、Kb/s) 信号带宽: 可懂度、自然度、透明度。
200~3400Hz,50~7000Hz,10~20000HZ 采样速率:8KHz,16KHz,32KHz,44.1/48KHz。 编码位数:R(b/样点),总速率I(kb/s)。 (一般了解) 南通大学计算机应用教研室

52 语音编码性能评价(2) 2)重建语音质量 信噪比 分段信噪比 (一般15dB以上较好,20dB以上相当好)
客观评价: 信噪比 分段信噪比 (一般15dB以上较好,20dB以上相当好) 主观评价: MOS分(Mean Opinion Score) 5~1分: Excellent、Good、Fair、Poor、Bad 如: 4分:长途通信质量 (一般了解) 南通大学计算机应用教研室

53 语音编码性能评价(3) 3) 编解码延时(ms)  公众网(25ms)  回声控制或回声抵消  正常通话秩序  与重建质量关系
4) 算法复杂度  硬件、成本  浮点、定点 5) 其他  抗随机误码和突发误码能力  抗丢包和丢帧能力  对不同信号编码能力  级联或转接能力 (一般了解) 南通大学计算机应用教研室

54 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 脉冲编码调制 PCM应用 其它编码方法 南通大学计算机应用教研室

55 2.5 脉冲编码调制 PCM 概念:在一定的时间间隔内,连续测量信号的幅度值,并对测量值编码。 原理:(见下图) 南通大学计算机应用教研室

56 2.5 脉冲编码调制 PCM—步骤 三个步骤: 抽 样 — 即采样 量 化 — 测量采样值 编 码 — 对量化值进行处理并记录
编 码 — 对量化值进行处理并记录 南通大学计算机应用教研室

57 2.5.1 PCM - 量化概念 1、定义:将幅度连续变化的信号变成幅度离散信号的处理过程称为量化。 2、量化器的基本参数
1)量化范围 如[V1,V2],语音信号为双极性对称信号,通常量化范围是[-V,+V] 2)量化级数N,在[V1,V2]内分N个段落。 南通大学计算机应用教研室

58 2.5.2 PCM - 量化参数 3)量化间隔i,也称量阶,量化级 4)量化值 5)编码位数n,二进制编码时,需满足 2n  N
6)量化方法 均匀量化: 量化间隔相等; 非均匀量化:量化间隔不相等。 南通大学计算机应用教研室

59 2.5.3 量化器特性 1)量化器特性曲线:量化器的输入和输出之 间的关系曲线
1)量化器特性曲线:量化器的输入和输出之 间的关系曲线 2)量化器误差特性曲线:量化器的输入与量化误差之间的关系曲线。 南通大学计算机应用教研室

60 2.5.3 均匀量化器的特性曲线和误差曲线 南通大学计算机应用教研室

61 2.5.3 均匀量化的特点及其应用 特点: 1)量化信噪比与信号功率成正比 2)编码位数多。
应用:用于信号分布范围小且较均匀的场合。如遥测、遥控、仪表等方面。 结论:在通信系统中,语音信号不适合采用均匀量化编码 改进方法:采用非均匀量化。 南通大学计算机应用教研室

62 2.5.4 非均匀量化 非均匀量化 基本思想: 在对输入信号进行量化时候,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。
非均匀量化有两种方法: 1.  律压扩 2. A 律压扩 南通大学计算机应用教研室

63 2.5.4 压扩--压缩与扩展 压缩与扩张的过程如下: 1. f(x)—压缩器—均匀量化—编码 2. 译码—扩张器—f'(x)
南通大学计算机应用教研室

64 2.5 µ律压缩律 1. µ律压缩律 µ律曲线为 μ越大,小信号的压缩律越高。 南通大学计算机应用教研室

65 2.5 A律压缩律 2 . A律压缩律 A律压缩曲线为 南通大学计算机应用教研室

66 2.5 分段量化折线压缩律 由于连续曲线的压缩律电路实现较为困难,通常用折线来近似。 常用的有A13折线和µ15折线。
南通大学计算机应用教研室

67 2.5 A13折线画法 A13折线画法如下: 1) x轴采用对折方式分16份 2) y轴均匀分割16份
应用:中国,欧洲等 南通大学计算机应用教研室

68 2.5 A13折线画法 (图) 8×2条 线段 南通大学计算机应用教研室

69 2.5 µ15折线压缩律 µ15折线压缩律是在µ曲线上取坐标点,然后连成折线而得。 南通大学计算机应用教研室

70 2.5 µ15折线画法 画法如下: 1)x轴坐标点为,非均匀分割16份 2)y轴均匀分割16份 3)将x,y轴对应的坐标点连接起来,
得到16段折线。称为µ15折线。 应用:日本,美国,加拿大等。 南通大学计算机应用教研室

71 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 脉冲编码调制(PCM) PCM应用 其它编码方法 南通大学计算机应用教研室

72 2.6 PCM在通信中的应用 PCM编码早期的最重要应用就是话音通信中的多路复用。一般来说,电信网中传输媒体费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题. 提高线路利用率通常用下面两种方法: (1) 频分多路复用FDM (frequency-division multiplexing) (2)时分多路复用TDM (time-division multiplexing) 南通大学计算机应用教研室

73 2.6.1频分多路复用FDM 把传输信道的频带分成好几个窄带,每个窄带传送一路信号:
例如,一个信道的频带为1400 Hz,把这个信道分成4个子信道: Hz, Hz, Hz和 Hz,相邻子信道间相距240 Hz,用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。 南通大学计算机应用教研室

74 2.6.2 时分多路复用TDM 把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。这是数字通信的主要手段。 例如,话音信号的采样频率f=8000 Hz,它的采样周期=125 m s,这个时间称为1帧(frame)。在这个时间里可容纳的话路数有两种规格:24路制和30/32路制。 南通大学计算机应用教研室

75 24路制的重要参数如下 每秒钟传送8000帧,每帧125 m s。 12帧组成1复帧(用于同步)。
每帧由24个时间片(信道)和1位同步位组成。 每个信道每次传送8位代码,1帧有24 × 8 +1=193位(比特)。 数据传输率R=8000×193=1544 kbps。 每一个话路的数据传输率=8000×8=64 kbps。 µ律 参看:教材P32 图 3-10 南通大学计算机应用教研室

76 30路制的重要参数如下 每秒钟传送8000帧,每帧125 m s。 16帧组成1复帧(用于同步)。 每帧由32个时间片(信道)组成。
每个信道每次传送8位代码。 数据传输率:R=8000×32×8=2048 kbps。 每一个话路的数据传输率=8000×8=64 kbps。 A律 南通大学计算机应用教研室

77 应 用 时分多路复用(TDM)技术已广泛用在数字电话网中,为反映PCM信号复用的复杂程度,通常用“群(group)”这个术语来表示,也称为数字网络的等级。 PCM通信方式发展很快,传输容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路),……。 南通大学计算机应用教研室

78 本章主要内容 声音概述 声音的数字化 电子合成音乐 语音编码 (教材第三章) 脉冲编码调制 PCM 应用 其它编码方法
语音编码 (教材第三章) 脉冲编码调制 PCM 应用 其它编码方法 南通大学计算机应用教研室

79 7 .其它编码方法 DM /ADM APCM/DPCM /ADPCM LPC RPE-LTP 南通大学计算机应用教研室

80 2.7.1增量调制与自适应增量调制 由于DM编码的简单性,使它成为数字通信和压缩存储的一种重要方法,它鼓励了很多人对最早发明的DM系统做了大量的改进和提高工作。 最早的DM系统是在1946年发明的。 后来的自适应增量调制ADM系统采用十分简单的算法就能实现32 kbps至48 kbps的数据率,而且可提供高质量的重构话音,它的MOS评分可达到4.3分左右。 南通大学计算机应用教研室

81 2.7.1增量调制(DM) 增量调制也称△调制DM(delta modulation),它是一种预测编码技术,是PCM编码的一种变形。
如果实际的采样信号与预测的采样信号之差的极性为“正”,则用“1”表示;相反则用“0”表示,或者相反。 由于DM编码只须用1比特对话音信号进行编码,所以DM编码系统又称为“1比特系统” 南通大学计算机应用教研室

82 2.7.1增量调制(DM) (图) 南通大学计算机应用教研室

83 2.7.1 自适应增量调制ADM ADM定义:一种自动调节量阶的增量调制。 当信号斜率大时,量阶大, 当信号斜率小时,量阶小。
南通大学计算机应用教研室

84 2.7.2 差值脉冲编码调制(DPCM) DPCM:根据前些时刻的样值来预测现时刻的样值,只要传递预测值和实际值之差,而不需每个样值的编码都传。 举例说明DPCM过程: 南通大学计算机应用教研室

85 2.7.2 DPCM 框图 南通大学计算机应用教研室

86 2.7.2差值脉冲编码调制(DPCM)(图) 南通大学计算机应用教研室

87 2.7.2差值脉冲编码调制 (说明) 由于差值序列信息可以代替原始序列中的有效信息,二差值信号的能量远小于原样值,这就可以使量化电平数减小,从而大大地压缩了数码率。在接收端,只要把差值序列叠加在预测序列之上,即可以恢复原始信号。 南通大学计算机应用教研室

88 2.7.2 自适应DPCM系统 - ADPCM 由于DPCM系统的输入信号是随机变化的,要使DPCM系统有最好的性能,需采用自适应的方法。
自适应:语音信号的动态范围较大,只有采用自适应系统,才能得到最佳的性能。 南通大学计算机应用教研室

89 2.7.2 ADPCM ADPCM系统的自适应包含两个方面:
自适应预测:预测系数能匹配于语音信号瞬时变化最自适应调整,得到较高的预测增益G的过程。 自适应量化:量化器的量化量化间隔能随着信号的瞬时值变化做自适应调整,得到较高的信噪比。 南通大学计算机应用教研室

90 2.7.2 ADPCM 框图 南通大学计算机应用教研室

91 2.7.4线性预测编码(LPC) 基本原理: LPC通过分析话音波形来产生声道激 励和转移函数的参数。 对这些参数进行编码。
在接收端 使用这些参数重构话音。 南通大学计算机应用教研室

92 2.7.4 LPC的基本原理图 语音 语音 线性预测分析 清、浊音判别,基音提取 量化与编码 解码器 语音合成 南通大学计算机应用教研室

93 2.7.4 LPC主要缺点 1) 损失了语音的自然度 2) 抗噪声能力下降 3) 谱包络的估值可能产生很大的失真。 原因:
1)   损失了语音的自然度 2)   抗噪声能力下降 3)   谱包络的估值可能产生很大的失真。 原因: 主要是未将编码端的余数(误差)信号发送到接收端。 南通大学计算机应用教研室

94 2.7.4 改善方法 采用较复杂的激励模型代替简单的清/浊音判决模型; 另一种方法是利用一部分余数信息。 南通大学计算机应用教研室

95 2.7.5 规则脉冲激励长期预测 LPC编码(RPE—LTP)
RPE—LTC-LPC编译码系统框图 : 南通大学计算机应用教研室

96 2.7.5 RPE-LTP 与 LPC比较 LPC编码器在保证一定可懂度条件下,使编码速率在2.4~4.8Kb/s
RPE—LTC在编码速率为13Kb/s,有相当好的语音质量。 应用:目前GSM采用13Kb/s的RPE—LTC编码方案。 本章介绍的编码算法主要应用于话音编码。对于声音的编码可以应用MPEG Audio的子带编码(SBC) 南通大学计算机应用教研室

97 思考题 (1) 1、用自己的语言说出下面3种话音编译码器的基本想法。 2、什么叫做均匀量化? 什么叫做非均匀量化? 3、什么叫做µ 率压扩?
① 波形编译码器,②音源编译码器, ③混合编译码器 2、什么叫做均匀量化? 什么叫做非均匀量化? 3、什么叫做µ 率压扩? 什么叫做A率压扩? 南通大学计算机应用教研室

98 思考题 (2) 4、自适应脉冲编码调制(APCM)的基本思想是什么? 5、差分脉冲编码调制(DPCM)的基本思想是什么?
6、自适应差分脉冲编码调制(ADPCM)的两个基本思想是什么? 南通大学计算机应用教研室


Download ppt "第二章 声音和语音编码 南通大学计算机应用教研室."

Similar presentations


Ads by Google