第二章 语声信号数字化编码 第一节 语声信号编码的基本概念及分类 第二节 脉冲编码调制——PCM 第三节 差值脉冲编码调制——DPCM 第二章 语声信号数字化编码 第一节 语声信号编码的基本概念及分类 第二节 脉冲编码调制——PCM 第三节 差值脉冲编码调制——DPCM 第四节 子带编码——SBC 第五节 参量编码 第六节 GSM及IP电话系统语声编码技术的应用及标准
一、 语声信号编码的概念 第一节 语声信号编码的基本概念及分类 第一节 语声信号编码的基本概念及分类 一、 语声信号编码的概念 现以一个简单的语声信号的脉冲编码调制(PCM)的编码,解码过程说明语声信号编码的概念,示意图如图2.1所示。
图2.1 PCM编解码框图
(1) 抽样 (2) 量化 图中的A/D变换包含三个部分:抽样、量化和编码。 抽样是将模拟信号在时间上离散化的过程。 量化是将模拟信号在幅度上离散化的过程。
二、 语声信号编码的分类 (3) 编码 · 波形编码,是对信号波形进行的编码,前述PCM方式即为波形编码的一种。 编码是指将每个量化后的样值用一定的二进制代码来表示。 二、 语声信号编码的分类 语声信号的编码可划分为三大类型。 · 波形编码,是对信号波形进行的编码,前述PCM方式即为波形编码的一种。
· 参量编码是提取语声信号的一些特征参量,对其进行的编码。 · 混合编码,介于波形编码与参量编码之间的一种编码,即在参量编码的基础上,引入了一定的波形编码的特征,以达到改善自然度的目的。
第二节 脉冲编码调制——PCM 一、 概述 脉冲编码调制系统中的信号变换和处理过程如图2.2所示。 图2.2 PCM系统中的信号处理过程
二、 抽样 模拟信号数字化的第一步是在时间上对信号进行离散化处理,即将时间上连续的信号处理成时间上离散的信号,这一过程称之为抽样。 1. 抽样定义及实现抽样的电路模型 连续信号在时间上离散化的抽样过程如图2.3所示。
图2.3 连续信号抽样示意图
图2.4 抽样器及抽样波形示意
图2.5 相乘器抽样模型
图2.6 开关函数
2. 抽样定理 (1) 低通型信号抽样 设时间连续信号f(t),其最高截止频率为fM。如果用时间间隔为TS≤1/2fM的开关信号对f(t)进行抽样,则f(t)就可被样值信号fS(t)=f(nTS) 来唯一地表示。或者说,要从样值序列无失真地恢复原时间连续信号,其抽样频率应选为fS≥2fM。这就是著名的奈奎斯特抽样定理,简称抽样定理。
所谓理想抽样是指以式2.1中的开关函数ST(t)为单位高度的周期冲激脉冲序列,其波形图如图2.7所示。 图2. 7 单位冲激脉冲序列
图2.8 理想抽样样值序列频谱
图2.9 三种不同抽样频率时的样值序列频谱
至此,我们可以用下述两种被此等价的方式来表示有限能量频带受限信号的抽样定理。 ① 对于频谱分量低于fM的有限能量信号,可以用间隔小于或等于1/2fM的该信号瞬时样值来完全描述。 ② 对于频谱分量低于fM的有限能量信号,可以从抽样速率大于或等于2fM的该信号瞬时样值序列中完全地恢复,即抽样频率应为fS≥2fM。
(2) 带通型信号抽样 图2.10 带通型信号示意
图2.11 带通型信号样值序的频谱
(3) 与抽样有关的误差 前面所讨论的抽样定理是基于下列三个前提: · 对语声信号带宽的限制是充分的; · 实行抽样的开关函数是单位冲激脉冲序列,即理想抽样; · 通过理想低通滤波器恢复原语声信号。
① 抽样的折叠噪声 ② 抽样展宽的孔径效应失真 抽样定理指出,抽样序列无失真恢复原信号的条件是fS≥2fM。为了满足抽样定理,对语声信号抽样时先将语声信号的频谱限制在fM以内。为此,在抽样之前,先设置一个前置低通滤波器将输入信号的频带限制在3400Hz以下,然后再进行抽样。 ② 抽样展宽的孔径效应失真
图2.12抽样折叠噪声示意
图2.13 自然抽样与抽样展宽
图2.14 抽样展宽电路框图
图2.15 展宽孔径效应失真
三、 量化 1. 量化定义及描述 量化是把信号在幅度域上连续取值变换为幅度域上离散取值的过程。 量化过程是一个近似表示的过程,即无限个数取值的模拟信号用有限个数值的离散信号近似表示。
图2.16 量化示意图
2. 均匀量化及量化噪声计算 量化就是将幅度值为连续的信号变换为幅度值为有限个离散值的过程。 各量化分级间隔相等的量化方式即为均匀量化。 图2.17(a)所示的阶梯状特性中的一个台阶的高度称为一个量化级。如图所示,均匀量化时在整个输入信号的幅度范围内量化级的大小都是相等的。量化误差所产生的量化噪声也应有两部分:非过载量化噪声和过载量化噪声。
图2.17 均匀量化特性与量化误差特性
设量化间隔为Δ,则 Δ=2U/N 在非过载区内的最大量化误差为 emax(u)=Δ/2
图2.18 语声信号的幅度概率分布
图2.19 语声信号的分级间隔及量化值
图2.20 量化信噪比随l、Xe关系曲线
(1) 非均匀量化及实现 3. 非均匀量化及压缩扩张技术 采用均匀分级量化时其量化信噪比随信号电平的减小而下降。 非均匀量化的特点是:信号幅度小时,量化间隔小,其量化误差也小;信号幅度大时,量化间隔大,其量化误差也大。
图2.21非均匀量化特性及量化误差
图2.22 非均匀量化实现框图
图2.23 压缩扩张特性
(2) μ律和A律压缩特性 ① μ律压扩特性 ② A律压扩特性
图2.24
图2.25 A=87.6时(S/Nq)dB(A)曲线
③ A律13折线压扩特性 具体实现的方法是:对X轴在0~1(归一化)范围内以1/2递减规律分成8个不均匀段,其分段点是1/2、1/4、1/8、1/16、1/32、1/64和1/128。
图2.26 8段折线的分段示意
图2.27 A律13折线压缩特性
图2.28 A律13折线量化信噪比
四、 编码与解码 1. 二进制码组及编码的基本概念 目前使用的二进制码组的编码关系有3种: · 一般二进制码编码 · 循环码编码 · 折叠二进制码编码
图2.29 几种编码方案的误码信噪比
图2.30 天平称重示意图
2. 线性编码与解码 (1) 级联逐次比较型编码电路 级联逐次比较型编码器就是参照前述的天平称重的原理构成的。
图2.31 级联逐次比较编码器原理框图
(2) 反馈型线性编码器 反馈型线性编码器原理框图如图2.32所示。 反馈型编码器是采用样值与本地解码输出逐次比较的方法进行编码的,每一比特比较一次并编出一个码元,这种编码器的编码过程是逐次逼近的。
图2.32反馈型线性编码器原理框图
图2.33 编码过程波形
(3) 加权求和解码网络 解码网络的作用是把PCM数字码组转换成相应的电压或电流幅度。前述反馈型线性编码器中本地解码所用的解码网络是电流相加型解码网络,它是加权求和解码网络的变型。
图2.34 加权求和解码网络
图2.35 电流相加型解码网络
3. 非线性编码与解码 (1) A律13折线编码的码字安排 具有均匀量化特性的编码叫做线性编码,与之对应的具有非均匀量化特性的编码就叫做非线性编码。 (1) A律13折线编码的码字安排 前述已说明A律13折线的分段是对输入信号归一化范围(0~1)分为8个不均匀段,故要表示不同的段落号就需要有三位码。
采用A律13折线编码时所需的码位数是8,其具体安排是: a1 a2a3a4 a5a6a7a8 极性码 段落码 段内电平码 a1=1,表示正极性;a1=0,表示负极性; a2a3a4为000~111共有8种组合,分别表示对应的8个分段,即第1段至第8段; a5a6a7a8为0000~1111共有16种组合,表示每段的16个分级。
(2) A律13折线编码方法 ① 判定值的确定规律和提供方法 极性码的判决: 极性码的判定值为零,它根据输入信号IS(以电流表示)的极性来决定,即 IS≥0时,a1=“1”码; IS<0时,a1=“0”码。
段落码的判决: 对A律13折线编码是将编码电平范围(归一化0~1)以量化段或量化级为单位,逐次对分,对分点的电流(或电压)即为判定值IR。 段内电平码的判决: 当段落码确定之后,接着确定出该量化段的起始电平IBi和该量化段的量化间隔Δi,由此,就可以进行段内电平码的判决了。
图2.36 段落码码字的判决过程
② 编码方法 A律13折线编码采用逐次反馈编码。 ③ 逐次渐近型编码器 · 比较判决和码形成电路 · 判定值的提供电路——本地解码器
图2.37 逐次渐近型编码器原理框图
图2.38 D1~D8时序关系
④ 编码端量化误差的分析 ⑤ A律13折线解码 · 增加了极性控制部分 · 数字扩张部分由7/11变换变为7/12变换 · 增加了读出控制电路
图2.39 A律13折线解码器方框图
五、 单片集成PCM编解码器 · 发送部分 发送部分包括:输入运放、带通滤波器、抽样保持和DAC(数模转换)、比较器、逐次逼近寄存器、输出寄存器以及A/D控制逻辑、参考电源等。
图2.40 2914功能框图
· 接收部分 接收部分包括:输入寄存器、D/A控制逻辑、抽样保持和DAC、低通滤波器和输出功放等。 · 控制部分 控制部分主要是一个控制逻辑单元,通过PDN(低功耗选择)、CLKO(主时钟选择)、LOOP(模拟信号环回)三个外接控制端控制芯片的工作状态。
图2.41 2914典型实用电路
第三节 差值脉冲编码调制 ——DPCM 一、 DPCM原理及实现 差值编码一般是以预测的方式来实现的。
图2.42 实现预测的横截滤波器
图2.43是DPCM实现的原理框图。如前面所述,DPCM方式的发送端就是将现有样值与预测值之差进行量化编码的方式来实现的,而在接收端为了恢复原信号也必须进行与发送端相同的预测。
图2.43DPCM系统原理框图
——ADPCM 二、 自适应差值脉冲编码调制 自适应量化的基本思想是:让量化间隔Δ(t)的变化,与输入信号方差相匹配,即量化器阶距随输入信号的方差而变化,它正比于量化器输入信号的方差。
图2.44前馈自适应量化ADPCM
图2.45反馈自适应量化ADPCM
图2.46 固定和自适应DPCM系统性能
三、 32kbit/sADPCM系统 1984年ITU-T公布了G.721 32kbit/s ADPCM标准,并于1986年做了进一步的修改。
图2.47G.721 32kbit/s ADPCM工作原理框图
(1) 技术特点 四、 单片集成ADPCM编解码器 1. MC145532 ADPCM代码转换器 · 满足ITU-T建议G.721—1988; · 全双工、单信道工作; · 选择引脚μ律或A律编码; · 同步或异步工作;
(3) 应用电路 (2) MC145532引脚符号与功能 · 容易与摩托罗拉的PCM编解码器、滤波器等接口; · 串行PCM和ADPCM数据传输速率为64kbit/s~5120kbit/s; · 省电能力用于低电流的消耗; · 简单时隙分配定时用于代码转换器; · 单5V电源。 (2) MC145532引脚符号与功能 (3) 应用电路
图2.48 MC145532引脚排列图
图2.49 MC145532ADPCM应用电路
(1) 技术特点 2. MC145540ADPCM编/解码器 · 单电源工作(2.7~5.25V); · 3V时典型功耗为60mW,省电时为15μW; · 最小噪音的差分模拟电路设计; · 完全μ律或A律压扩PCM编解码器滤波器;
(2) MC145540引脚符号与功能 (3) 应用电路 · 64,32,24和16kbit/s数据率ADPCM代码转换器; · 通用可编程双音频发生器; · 可编程发送增益、接收增益和侧音增益; · 用于与话筒接口的低噪声、高增益、三端输入运算放大器; (2) MC145540引脚符号与功能 (3) 应用电路
图2.50 MC145540引脚排列图
图2.51 MC14550手持机应用电路
第四节 子带编码——SBC 一、 子带编码的基本概念及工作原理 子带编码是首先将输入信号分割成几个不同的频带分量,然后再分别进行编码,这类编码方式称为频域编码。 把语声信号分成若干子带进行编码主要有两个优点。
子带编码实现的原理框图如图2.52所示。在子带编码中,用带通滤波器将语声频带分割为若干个子带,每个子带经过调制将各子带变成低通型信号(图中未画出)。这样就可使抽样速率降低到各子带频宽的两倍。
图2.52 子带编码原理方框图
二、 子带编码的比特分配及编码速率 ΔBk=ΔB=B/m 在子带编码中,各子带的带宽ΔBk可以是相同的,也可以是不同的。前者称为等带宽子带编码,后者称为变带宽子带编码。等带宽子带编码的优点是易于用硬件实现,也便于进行理论分析。在这种情况下带宽ΔBk等于 ΔBk=ΔB=B/m 式中,k=1,2,3,…m,m是子带总数,B是编码信号总的带宽。
三、 子带的划分 四、 16、24、32kbit/s电话语声子带编码 语声信号各子带的带宽应考虑到各频段对主观听觉贡献相等的原则做合理的分配。 四、 16、24、32kbit/s电话语声子带编码 该标准采用三种编码速率,即48、56及64kbit/s。输入语声信号带宽为50~7000Hz,分成两个等宽的子带。
第五节 参量编码 参量编码的原理和设计思想与波形编码完全不同。波形编码的基本思路是忠实地再现话音的时域波形,为了降低比特率,可充分利用抽样点之间的信息冗余性对差分信号进行编码,在不影响话音质量的前提下,比特率可以降至32kbit/s。
一、 语声形成机理及语声信号分析 语声形成的大致过程可如图2.54所示。 从语声信号分析可知,音素分为两类:伴有声带振动的音称为浊音;声带不振动的音称为清音。
图2.54 语声形成过程
1. 浊音与基音 浊音又称有声音,语声发声时声带在气流的作用下激励起准周期的声波,如图2.55所示。由图可见浊音声波具有明显的准周期特性,这一准周期音称为基音,其基音周期为4~18ms相当于基音频率在50~250Hz范围内。
图2.55 波音声波波形图
图2.56 浊音频谱示意
2. 清音 清音又称无声音。 图2.57 清音波形图
清音没有周期特性,典型的清音波形频谱如图2.58所示。从清音的频谱分析可知,清音中不含具有周期或准周期特性的基音及其谐波成分。 图2.58 清音频谱示意
3. 语声信号产生模型 图2.59 语声信号产生模型
二、 线性预测编码(LPC)的基本概念 在发送端,原始语声输入A/D变换器,以8kHz速率抽样并变换成数字化语声。然后以每180个样值为一帧(帧周期22.5ms),以帧为处理单元逐帧进行线性预测系数分析,并作相应的清/浊音判决和基音提取,最后把这些参量进行量化、编码并送入信道传送。
图2.60 线性预测LPC编译码方框图
在接收端,经参量解码分出参量{ai}、G、P和u/v等。G、P以及u/v用作语声信号的合成产生,{ai}用作形成合成滤波器的参数。最后将合成产生的数字化语声信号再经D/A变换即还原为接收端合成产生的语声信号。 图2.61所示是简化的LPC原理框图。
图2.61 简化LPC原理框图
三、 线性预测合成分析编码 1. 结构原理 激励生成器产生的激励信号经线性预测器后得到重构的话音信号(i),线性预测器模拟声道特性,加强了激励信号的某些频率域,减弱了另一些频率域,体现了语声信号的短时相关性。激励信号则体现了语声信号的长时相关性,输入线性预测器的激励信号是量化后的增益和基音信号。
图2.62 LPAS声码器原理结构
2. 激励信号生成及表示 激励信号的产生有如下几种: (1) 多脉冲激励(MPE) (2) 规则脉冲激励(RPE)
(3) 码本激励 激励信号最终要量化后以二进制的形式发送出去。量化有两种类型。一种是标量量化,也就是对每个参数独立地进行量化,然后通过组合确定参数集。另一种是矢量量化,也就是将所有参数组合起来作为一个整体进行量化,在数学上就用矢量来表示参数的组合。
第六节 GSM及IP电话系统语声编码技术的应用及标准 G.728是16kbit/s的LPAS声码器,采用低时延码本激励线性预测(LD-CELP)方式。 1. G.728编码器 G.728的LD-CELP编码器的简化结构如图2.63所示。
图2.63 G.728编码器结构
2. G.728解码器 图2.64G.728解码器结构
二、 G.729声码器 1. G.729声码器性能特点 2. G.729编码器 G.729是8kbit/s的LPAS声码器,线性预测采用前馈型前向自适应技术。 2. G.729编码器 G.729编码器如图2.65所示。模拟话音信号经话带滤波后,按8kHz频率抽样并变换成16bit线性PCM信号,这就是图中编码器的输入话音信号。
图2.65 G.729编码器结构
3. G.729解码器 图2.66 G.729解码器结构
三、 G.723.1声码器 G.723.1是双速率LPAS声码,低速率的编码比特率为5.3kbit/s,高速率为6.3kbit/s,线性预测也是采用前馈型前向自适应,并使用了预视技术。