第2章 语音信号基础知识 人类的语言器官 语音产生过程 语音信号产生的数字模型 语音信号的特性 人类的听觉功能 1、浊音与元音发音的机理有什么不同? 2、何谓共振峰? 3、F1、F2、F3有什么区别? 4、语音信号产生的数字模型由哪几部分组成?5、声道模型的级联模型有什么缺点?6、为什么有的语谱图能看到横纹有的不能?
概述 为了对语音信号进行数字处理,需要建立一个能够精确描述语音产生过程和语音全部特征的数学模型。 语音学是研究言语过程的一门科学,可分为: 1、发音语音学:研究语音产生机理 2、声学语音学:研究语音传递阶段的声学特征 3、听觉语音学:研究语音感知阶段的生理和心理过程
1. 人类的语言器官 声音是一种波,能被人耳听到,它的振动频率在20~20 000 Hz之间。语音的振动频率最高可达15000Hz. 1、人类的语言器官 1. 人类的语言器官 声音是一种波,能被人耳听到,它的振动频率在20~20 000 Hz之间。语音的振动频率最高可达15000Hz. 人类能以语言沟通,进而累积知识,形成文化,其中一个主要的原因,就是人类具有较其它生物优越的发音器官。语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。 Fant于1960年提出的线性模型是模拟语音主要特征的较成功的模型之一。该模型以人类语音的发音生理过程和语音信号的声学特性为基础,成功地表达了语音的主要特征,在语音编码、语音识别和语音合成等领域得到了广泛应用。这是本章所要介绍的模型,也是以后各章讨论的基础。 语言交际是通过连结说话人大脑和听话人大脑的一连串心理、生理和物理的转换过程实现的,这个过程分为“发音—传递—感知”三个阶段。因此现代语音学发展为与此相应的三个主要分支:发音语音学、声学语音学、听觉语音学。
1. 人类的语言器官 人类生成语音的过程可分为神经和肌肉的生理学阶段,产生语音波和传递语音波的物理阶段。 1、人类的语言器官 1. 人类的语言器官 人类生成语音的过程可分为神经和肌肉的生理学阶段,产生语音波和传递语音波的物理阶段。 人体发音器官—肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:咽、鼻腔 、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。
1. 人类的语言器官 1、人类的语言器官 图2-1 人类的发音器官 注:喉部以上的部分统称为声道;气管和肺在声门以下 鼻腔(nasal cavity) 口腔(oral cavity) 齿(teeth) 舌(tongue) 咽(pharynx) 喉(larynx) 齿龈(alveolar ridge) 硬颚(hard palate) 软颚(velum) 小舌头(uvula) 声门(glottis) 唇(lips) 图2-1 人类的发音器官 注:喉部以上的部分统称为声道;气管和肺在声门以下
1. 人类的语言器官 1、人类的语言器官 图2-2 最重要的发音器官之一:声带 (a)闭合状态 (b)张开状态 图2-2 最重要的发音器官之一:声带 thyroid甲状腺, 甲状软骨 vocal fold[解]声襞 glottal slit声门 arytenoid cartilage杓状软骨 (a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带
2.语音产生过程 2、语音信号产生过程 声音 肺 声带 声道 嘴唇 说话时,声门处气流冲击声带产生振动,空气流激励声道最后 直流气流 交流气流 速度波 声压波 声音 肺 声带 声道 嘴唇 能源 激励源 谐振源 辐射源 产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流, 说话时,声门处气流冲击声带产生振动,空气流激励声道最后 从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来产生语音。
2、语音信号产生过程 声门气流和嘴部声压
2、语音信号产生过程 物理模型 Time variation filter 时变滤波器
2.语音产生过程 语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 2、语音信号产生过程 2.语音产生过程 语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 浊音(Voiced sounds) :声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o; 清音(Unvoiced or Fricative sounds) :声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d; 爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放 ,如b,p。
2. 语音产生过程 2、语音信号产生过程 语音的两个重要声学特性: 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。 声道具有一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度.共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要,越多越精确。
2、语音信号产生过程 口腔对声源频谱的调制——共振峰
共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。
前三个共振峰的频率范围 2、语音信号产生过程 频率范围/Hz 成年男子 成年女子 带宽 F1 200~800 250~1 000 40~70 600~2 800 700~3 300 50~90 F3 1 300~3 400 1 500~4 000 60~180
2. 语音产生过程 谐振频率发生在500Hz的奇数倍 2、语音信号产生过程 理想状态下共振峰的计算:假设声道截面是均匀的(此 时可把声道看作一个粗细均匀的圆筒),从喉到唇的距 离L=17 cm,音速c=340 m/s,则共振峰将发生在: 谐振频率发生在500Hz的奇数倍
3. 语音信号产生的数字模型 3、语音信号产生的数字模型 在研究了发声器官和语音的产生过程以后,便可以建立 一个离散时域的语音信号产生的数字模型,它将是我们 将数字信号处理技术应用于语音信号的基础。下图是一 个完整的语音信号产生的数字模型:
语音产生模型(Speech Production/Generation Model) 4、语音信号的特性 语音产生模型(Speech Production/Generation Model) neuro神经 Vocal 声
4、语音信号的特性 语音信号(Speech Signal) pitch period [计] 音调周期
数字语音信号表示(Representations of Speech Signals) 4、语音信号的特性 数字语音信号表示(Representations of Speech Signals) Pitch音调 transient [计] 瞬变过程spectral [计] 频谱 articulatory [计] 关节的
3、语音信号产生的数字模型 (1)激励模型 由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
(1)激励模型 3、语音信号产生的数字模型 (a)浊音激励 由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。 由于人类语音的频率范围主要集中在300Hz~3400Hz,数字模型中的信号取样率一般为8KHz。
单个三角波的数学表达式为 其中:N1为斜三角波的上升时间 N2为其下降时间
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
(1)激励模型 周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式 3、语音信号产生的数字模型 (1)激励模型 周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式 (2-5) 所以整个激励模型可表示为 (2-6)
(1)激励模型 (b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 3、语音信号产生的数字模型 (1)激励模型 (b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。
(2) 声道模型 3、语音信号产生的数字模型 (2)声道模型 两种建模方法:(a)声管模型(b)共振峰模型 无损声管模型:是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波。
通常用A表示声管的截面积,在短时间内,各段管子的截面积是常数,设第m段和第m+1段声管的截面积分别为 ,称 为“面积差和比”,其取值范围为【-1,1】,实际是LPC中的反射系数
共振峰模型将声道视为一个谐振腔,共振峰就是这个腔体的谐振频率,按共振峰理论导出。 基于各种音素发音的不同谐振特点可建 立起三种实用的共振峰模型: (a)级联型 (b)并联型 (c)混合型
(2) 声道模型 3、语音信号产生的数字模型 这是一个全极点模型,极点就是这个多项式的根: (a)级联型: 适用于一般单元音,认为声道是一组串联的二阶谐振器: 这是一个全极点模型,极点就是这个多项式的根: 若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:
(2) 声道模型 3、语音信号产生的数字模型 F=1/T -- 取样频率 i/ -- 共振峰的频宽。 Fi是 -- 共振峰(formant)的中心频率 这样分解则每一个二阶因式均对应一个共振峰,其幅频 特性是典型的二阶谐振特性,谐振中心频率值等于共振 峰。若把语音的各个共振峰所对应的二阶系统级联起来 就形成了一个完整的级联型声道模型,且具有明显的谐 振特性。 (框图、二阶流图、二阶谐振频谱) p19图2-15
(2) 声道模型 3、语音信号产生的数字模型 通常P>R,假设分子与分母无公因 子且分母无重根,则此式可分解为 (b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型: 通常P>R,假设分子与分母无公因 子且分母无重根,则此式可分解为 以下部分分式之和的形式: p19图2-16 这就是并联型共振峰模型,每一个二阶因式对应一个共 振峰。每个二阶谐振器的幅度可单独控制。
3、语音信号产生的数字模型 (2) 声道模型 前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取3到5级。级联型结构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。
(2) 声道模型 3、语音信号产生的数字模型 (c)混合型 我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB,这是专为一些频谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特性。
(3) 辐射模型 3、语音信号产生的数字模型 在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这 段过程,声音信号会衰减,而且有高通滤波的特性,我们常用一个 一阶的数字高通滤波器模拟这个现象,这个滤波器又叫做辐射模型 (radiation model),其数学式如下
预加重处理
2.4.4 完整的语音信号数字模型 完整的数字模型的系统函数由激励模型、声道模型和辐射模型的级联来表示: 上式模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。另外,这种模型是短时的,其中G(z)、R(z)保持不变,而基音频率、清音或浊音的幅度,清\ 浊音判决,声道参数ak,P是时变的,但发音器官的惯性使这些参数的变化速度受到限制。
根据语音产生模型以及上面的分析,可以得出语音信号 的数字模型如下图所示:
总结: 3、语音信号产生的数字模型 1. 到此为止组成语音产生的数字模型的三个组成部分己介绍完毕。 此模型并非最完备的模型,因为它对一些音是不适用的如浊音中的 摩擦音,这种音要有发浊音和清音的两种激励,而不是简单的叠加 关系,对这些音我们可用更精确的模型来模拟。 2. 语音产生的数字模型中增益控制(对Av或AN)代表了输出语音 的音响强度;时变线性系统主要用来模拟声道的特性; 3. 数字语音处理中两个基本问题,即语音分析和语音合成,都是 基于这个模型来实现的; 4. 此数字模型的特点: 系统参数固定不变—短时分析; 全极点性质—零点可由多个极点逼近; 激励源和声道互相独立—适用于大多数数字语音处理。
4、语音信号的特性 4. 语音信号的特性 语音学和语言学概要 语音的声学特性 语音的时间波形和频谱特性 语音信号的统计特性
4.1语言学和语音学概要 对语音学和语言学的详尽讨论对我们来讲离题 太远,但是对语音信号加以处理以改善或提取 4、语音信号的特性 4.1语言学和语音学概要 对语音学和语言学的详尽讨论对我们来讲离题 太远,但是对语音信号加以处理以改善或提取 信息时,如果我们对语音信号的结构(信号中信 息编码的方法)有尽可能多的知识则是很有帮助 的。 1. 语言学:是以人类的语言为研究对象的一门 科学,主要对控制语音中各个音的排列规则及 其含义进行研究。语言(Language)是从千百万个 人的言语(Speech)中概括总结出来的规律性的符 号系统。所以,研究语言首先要了解一下人的 言语(说话)过程。
4.1语言学和语音学概要 4、语音信号的特性 图3-1 人的说话过程分为五个阶段 (4)接收阶段:听话 者从外耳收集到的 声波信息,经过中 耳的放大作用,到 达内耳,经内耳基 底内膜振动转化为 耳蜗内的毛细胞的 电位变化,由听觉 神经传给大脑。 (3)传送阶段:说出 来的话语是一连串 的声波,凭借空气 为媒介传到听话者 耳中。 (2)说出阶段:由 上阶段中枢的决 策,以脉冲形式 向发音器官发出 指令,使它们各 自相关的肌肉协 调地动作发出声 音来。另外还开 动另一个“反馈系 统”即讲话者的听 觉系统,来帮助 修正语音。 (1)想说阶段:人 的说话首先是客 观现实在大脑中 的反映,经大脑 的决策产生了说 话的动机;接着 讲话神经中枢选 择恰当的单词、 短语以及按语法 规则的组合,以 表达他想说的内 容和情感。这个 阶段与大脑中枢 的活动有关。 (5)理解阶段:讲话 者大脑听觉神经中 枢收到脉冲信息 后,辨认出说话的 人及其所说的信 息,从而听懂讲话 者的话。 图3-1 人的说话过程分为五个阶段
4.1语言学和语音学概要 语言是从言语中概括出来的一个符号系统。包括形 4、语音信号的特性 从五个阶段来看,言语的过程包含着相当复杂的因 素,其中有心理的、生理的、物理的以及个人的和社会 的因素。这里,个人的因素还指讲活者的口音和用词造 句的特色以及听话者的听音和理解能力;社会的因素则 是指讲话者和听话音对用于进行交际的手段有共同的理 解的社会基础。 语言是从言语中概括出来的一个符号系统。包括形 式和内容两个方面,即语音的形式和语义的内容。将这 两个基本要素相结合起来,可以构成语言的语素、词、 短语和句子等的不同层次的单位;这个构成规则就是语 法。目前我们可以利用语法和语义信息减小语音识别中 搜索匹配范围,提高语音识别率。
4.1语言学和语音学概要 2.语音学:研究语音中各个音的物理特征和分类的学科。从某种意义上讲,语音学与语音信号处理这门学科联系更紧密。 4、语音信号的特性 4.1语言学和语音学概要 2.语音学:研究语音中各个音的物理特征和分类的学科。从某种意义上讲,语音学与语音信号处理这门学科联系更紧密。 大多数语言包括汉语在内可以用一组不同的音即音素来加以描述。对于汉语来说约有六十四个音素,包括元音、复合元音和辅音。研究语音学的途径有很多种,例如语言学家研究音素的不同特性或特征。而对我们来讲,只要研究不同的声学特征就够了,这包括发音的部位、姿态、波形和这些声音的频谱即语谱特征。本章后面几个话题均以语音学为基础。
4.2 语音的声学特性 1. 物理属性—音色、音调、音强和音长; 4、语音信号的特性 4.2 语音的声学特性 1. 物理属性—音色、音调、音强和音长; 音色:也叫音质,是一种声音区别于另一种声音的基本特征,是由声道的位置和形状决定。 音调:声音的高低,决定于声波的频率的高低,而声波频率的高低又由语音的基音频率F0所决定。F0高则音调高,低则音调低。一般说来,老年男性音调偏低,小孩和青年女性音调偏高。 音强:声音的强弱,由声波的振幅所决定。 音长:声音的长短,取决于发音时间的长短。 语音除了上述物理特性外,还有一个重要的特性,语音总是用一定的含义。
4.2 语音的声学特性 4、语音信号的特性 2. 语音的构成—音节(syllable) 、音素 音素(phoneme):语音的最小、最基本的组成单位。 音素的分类: (1)国际标准分类 清音:发清音时声带不振动。浊音:发浊音时声带振动。 (2)我国传统分类 元音(韵母):是当声带振动发出的声音气流在声道中 不受阻碍,这种情况下产生的语音称为元音。元音属于浊 音。 辅音(声母):从声门呼出的声音气流,在声道通路中 某一部分封闭起来或受到阻碍不能畅通,为克服发音器 官的这种阻碍而产生的语音称为辅音。发辅音时如果声带 不振动,称为清辅音,如果声带振动,称为浊辅音
4.2 语音的声学特性 音节:说话时一次发出的,具有一个响亮的中 心,并被明显感觉到的语音片段。一个音节可 4、语音信号的特性 4.2 语音的声学特性 音节:说话时一次发出的,具有一个响亮的中 心,并被明显感觉到的语音片段。一个音节可 由一个音素或几个音素构成。音节最典型的结 构,就是以一个元音或双元音(diphthong)为主 体,其前面或后面可能连接一个或多个辅音。 3. 汉语语音的特点—声、韵、调,音节在汉语 中占有主要地位,它是由声母、韵母和声调按 一定的方式构成的,是语言的最小使用单位; 音节结构简单,与其它语言相比汉语语音音节 和音素都很少。
4、语音信号的特性 4.2 语音的声学特性 4. 语义:语音总是和一定的意义相联系着,一定的语音要表达一定的思想和意义;另外,语音还能表达出一定的语气、情感,甚至表达许多“言外之意”。 5.元音的共振峰特性:元音构成一个音节的主干,无论从发音长度还是从能量看,元音在音节中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者说研究其频谱特性。
4.2 语音的声学特性 影响元音共振峰特性的发音机制: (1)舌头的形状; (2)舌头在口腔中的位置,简称舌位; (3)嘴唇的形状,即口形; 4、语音信号的特性 4.2 语音的声学特性 影响元音共振峰特性的发音机制: (1)舌头的形状; (2)舌头在口腔中的位置,简称舌位; (3)嘴唇的形状,即口形; 其中由舌位的高低前后位置改变,可以发 出不同的音素,也就是说舌位与元音的共 振峰特性有密切关系。
4.2 语音的声学特性 4、语音信号的特性 图4-1 汉语单元音舌位梯形图 (1)F1与舌位高低有 关,舌位越高F1越 低;由于舌位越低嘴 张得越大,也称舌位 高低为开口度。 (2)F2与舌位前后密切 相关,舌位越靠前F2 就越高。 (3)F1、F2和嘴唇的 圆展程度有关,嘴唇 越圆,F1、F2越低。 (4)F3与舌位关系不 密切,但受舌尖活动 影响;舌尖抬高卷起 时F3就明显下降。 (3)对于同一个音,嘴唇越圆F1、F2越低 图4-1 汉语单元音舌位梯形图
4.3 语音的时间波形和频谱特性 语音可以直接用它的时间波形来表示,根据时 间波形可以看出语音信号的一些主要特性。就 4、语音信号的特性 4.3 语音的时间波形和频谱特性 语音可以直接用它的时间波形来表示,根据时 间波形可以看出语音信号的一些主要特性。就 其本性而言,语音波形是时间的连续函数,是 随时间而变化的,但比较缓慢
4、语音信号的特性 4.3语音的时间波形和频谱特性 语音的频谱特性由声道的形状和尺寸决定,随 时间变化——短时谱;语谱图
4.3语音的时间波形和频谱特性 4、语音信号的特性 左图中的u(n)就 是前面所讲的声 音激励ug(n), 由 于声门波脉冲模 极点,故在语音 信号约0.8至1.0 kHz以上的频率 造成12db/倍频程 的衰减 窗函数w(n,τ)对语音序列进行加窗是为了便于分析语音信号(短时平稳性),u (n)= w(n,τ).[g(n)*x(n)]
4、语音信号的特性 4.3语音的时间波形和频谱特性 图4-2 声音的语谱图
4.3语音的时间波形和频谱特性 4、语音信号的特性 窄频带的语谱图(narrowband spectrograms) 语谱图的产生是用傅里叶转换(Fourier transform),当我们用较长的分析窗口(analysis windows),约20ms,对应频宽约为45 Hz,得到的频率分辨率较高,频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0) 。 宽带和窄带语谱图的实现主要在于所加移动窗w(n,τ)的长短不同,宽带语谱图的加窗宽度小于一个基音周期,而窄带语谱图的加窗宽度为至少2个基音周期。
4.3语音的时间波形和频谱特性 4、语音信号的特性 宽频带的语谱图(wideband spectrograms) 若是在转换演算时用较少的取样点,分析窗口大约 3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分, 在语谱图上看不到等距的黑白相间。频率分辨率较低, 反而是时轴上的分辨率较高,看到明显的垂直线条。
4.3语音的时间波形和频谱特性 4、语音信号的特性 共振峰(formant) 在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。 如果是发辅音,而且声带不振动,就看不到谐振频率。通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。 若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。
4.4语音信号的统计特性 语音信号可以看成是一个遍历性随机过程的样本函数; 4、语音信号的特性 4.4语音信号的统计特性 语音信号可以看成是一个遍历性随机过程的样本函数; 语音信号的统计特性可以用它的振幅概率密度函数和一些平均量(均值和自相关函数)来描述——概率密度的估算、逼近方法及意义;自相关函数的估计及影响因素(语音段和滤波情况); 语音信号的统计特性也可以用功率谱来描述——长期平均功率谱可以用周期图来估计; 简化分析, 并可找出语音信号的重要特征。
4、语音信号的特性 语音信号时域波形
4、语音信号的特性 语音信号的波形与频谱
4、语音信号的特性 基频变化范围
5、语音感知 5. 人类的听觉功能 用语言作沟通,就是说话的人能让对方听懂他在说些什么,双方用说与听来达成信息交换与感情交流。而语言的学习过程,更是不断地听,然后学习会说,所以语言与听觉有密切的关联性。 本节将说明人类听觉器官的构造,以及如何听声音。并且对于人耳在听觉上的一个重要特性,听觉掩蔽效应做了简要叙述,这是语音处理中常常会用到的听觉特性。
语音通信Speech Communication 5、语音感知 语音通信Speech Communication
5、语音感知 听觉系统中声音表示框图
5、语音感知 听觉器官
语音感知模型(Speech Perception Model) 5、语音感知 语音感知模型(Speech Perception Model)
5、语音感知 5. 人类的听觉功能 外耳 从耳翼(pinnas)到鼓膜(eardrum)这一段叫做外耳。耳翼的功能在帮助判断声音的来源方向,它对于听者前方来的声音比较敏感。 耳翼到鼓膜之间的通道叫做耳道(meatus) ,这是一个长约2.7公分直径约0.7公分的通道。对于声波的传播而言,这条通道等于是一个四分之一波长的共振腔,它的第一个共振频率大约是3 kHz,这个共振作用将3~4.5kHz的声波放大15dB左右,因此使得我们的听觉对于3~4.5kHz的频率范围比较敏感。
5、语音感知 5. 人类的听觉功能 中耳 在鼓膜与耳蜗之间有一个大约6立方公分的小空间,称之为中耳。在这个小空间内,有三块小骨头,分别是槌骨(hammer,或称为malleus), 砧骨(anvil或称为incus)与镫骨(stapes,或称为stirrup)。 槌骨黏接在鼓膜上,声波造成的空气振动会使鼓膜振动,进而推动槌骨的振动,镫骨贴在耳蜗的椭圆形窗(oval window)上,槌骨的振动经过砧骨与镫骨的传递,将振动信号传到耳蜗内的淋巴液,所以中耳可以看成是声波到淋巴液的信号转换,在此转换过程中,对于1 kHz以上的信号做了-15 dB/10倍频程的衰减,可以看成是一个低通滤波器(low pass filter)。
5、语音感知 5. 人类的听觉功能 人类在分辨声音时,是取决于频域上的分辨率,听觉器官等于是将时域的声音波形转换成在频域的频谱,能否听到声音或分辨声音,是取决于音强(intensity)与频谱(spectrum)。 一般人的听觉器官可以感知频率范围16Hz到18kHz的声音,动态范围约1000倍。 超出人类听觉感知范围,如20kHz以上的声波,我们称之为超音波(ultrasonic)。 人耳对于1kHz到5kHz的声音最为敏感,但是对于1kHz以下与5kHz以上的声音,就要较大的音强才听得到。
5、语音感知 5. 人类的听觉功能 图5-4人类听觉的范围 噪声声强,触觉声强
5. 人类的听觉功能 5、语音感知 掩蔽效应(masking effect) 当一个声音存在时,它会将另一个声音的感知临界值提高,也就是说当某一频率的声音,有一特定音强存在时,另一个不同频率的声音要将音强提高才会被听到,这就是听觉掩蔽效应。 同时存在的声音,常常是低频的声音倾向于掩蔽掉高频的声音,这是一种频率掩蔽(frequency masking)的现象。 某一段时间存在一个声音,在此声音刚结束的一小段时间内,其它的声音会听不见这种掩蔽现象叫做时间掩蔽(temporal masking)。 这个现象也会发生在此存在声音之前,这是由于声音在听觉器官中传递时延迟所造成的。
听 阈 •听阈定义成在一频率下刚刚能被听到的纯音的强度级 –听阈≈0dB,在1000Hz –感觉阈≈120dB –痛阈≈140dB 5、语音感知 听 阈 •听阈定义成在一频率下刚刚能被听到的纯音的强度级 –听阈≈0dB,在1000Hz –感觉阈≈120dB –痛阈≈140dB –直接损伤≈160dB •阈值随频率变化,因人而异 •最大灵敏点在大约3000Hz
5、语音感知 响度与响度级 响度(Loudness,L)是一种主观心理量,人类主观感觉到的声音强弱程度。一般说,声音频率一定时,声强越强则响度越大,但响度与频率有关,相同声强,频率不同时响度也可能不同,响度可以像声强一样用相对值表示,即响度级(Loudness Level,LL)。它以1000Hz纯音的声强级来表示。 响度级是表示响度的主观量,它是以 1000 赫兹的纯音作为基准,其噪声听起来与该纯音一样响时,就把这个纯音的声压级称为该噪声的响度级,单位为方( phon )。例如一个噪声与声压级是 85 分贝的 1000 赫兹纯音一样响,则该噪声的响度级就是 85 方。 响度级是一个相对量,不能直接进行加减运算,为了计算绝对值和百分比,引入一个响度单位宋( Sone )。 1 宋是频率为 1000 赫兹、声压级为 40 分贝的纯音的感觉反应量,即: 40 方为 1 宋。响度级每增加 10 方,响度相应改变 1 倍, 50 方为 2 宋, 60 方为 4 宋,等等。
听觉系统与语音感知小结 5、语音感知 •耳朵的行为如一个声道,传感器,频谱分析器 •耳蜗类似于一个多通道的,对数间隔的,恒定Q值的滤波器组 •频率和沿基底膜的位置被内耳细胞传感成事件来表示,这些事件再由脑处理,因此使声音非常鲁棒于噪声及回波 •听觉从听阈到痛阈横跨巨大的范围,感知属性尺度和物理属性有很大的不同,如loudness, pitch •掩蔽能隐藏纯音或噪声,形成感知编码的基础(MP3) •感知和可懂度是难于量化的概念,但他们对理解语音处理系统的性能又是非常关键 •人耳能感知声音频谱,还有声音方向(双耳效应,cocktail patty effect)
作 业 语音信号的数学模型由哪些部分组成,各部分如何表示,并画出语音信号产生的数学模型框图? 清音,浊音各是如何产生的? 基音频率,共振峰是什么含义?