第二章 语音信号处理的基础知识 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析
§2.2 语音和语言 一、语音与语言的关系 二、语音的基本声学特性 三、音节与音素 四、英语和汉语的音节构成
一、语音与语言的关系 1.语音:人们讲话时发出的话语叫语音。是一种声音,是人们进行信息交流的声音,是组成语言的声音/带有语言信息的声音。 语音(Speech)=声音(Acoustic)+语言(Language) 语音是由一连串的音组成语言的声音。
语音:人与人的沟通介面
2. 对语音的研究包括两个方面 (1)语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为语言学(linguistics)。 (2) 语音中各个音的物理特性和分类的研究称为语音学(phonetics) 。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。
3. 人类的说话过程分五个阶段 想说 说出 传送 接收 理解 人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。
4. 语言(Language) 人与人之间的沟通工具,是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。 Phoneme(音素) Word formation Grammar Text (Option)
5. 语言学和语音信号处理的关系 语言学是语音信号处理的基础。 例如:可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。
6. 语音学和语音信号处理的关系 语音学和语音信号处理联系更加紧密。 如:运用现代信号处理技术建立发音的数学模型,确定发音方法;用声学和非平稳信号分析理论来解释各种语音现象;语音信息的存储形式等。
二、语音的基本声学特性 语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。 ●音色: 又称为音质,是一种声音区别于另一种声音的基本特性。 ●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决定 ●音长:发音时间的长短
三、音节与音素 句子的最小单位为单词,单词的最小单位为音节。 音节:发音时,被明显感觉到的语音片段为音节。 音素:是发音的最小单位,一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的主干,从长度和能量来看,在音节中占主要位置;辅音只是出现在音节的前端或后端或前后两端,它们的时长和能量较小。
1.元音 元音的一个重要的声学特性 基频和共振峰 元音的一个重要的声学特性 基频和共振峰 人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔)响应(引起共振特性)变成语音,由于发不同音时,声带的振动情况(基频)和声道的形状不同(谐振频率或共振峰频率),所以构成不同的声音。
语音的产生
发音机理 人的前方 甲状软骨 当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。 声门 声带 环形软骨 喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架,前方稍高处的软骨称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。 当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。 人的前方 甲状软骨 声门 声带 环形软骨 喉的生理结构
当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。 声带靠拢 声带的开启和闭合称为振动。这一振动过程周而复始,形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的[a]、[i]、[u]和[o]等。 Tp 基音周期
女声汉语拼音a的时域波形
基音频率(Fundamental Frequency) F0 ☆ F0 =1/Tp,基音频率,由声带的质量来决定。 ☆ F0的大小决定了声音的高低,称为音高。 ☆ 男性的F0大致分布在: 60~200Hz ☆ 女性和儿童的F0大致分布在:200~450Hz
讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。 讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。 声带振动频率 输出气流的频率 声道的谐振特性
(声道的横截面是均匀的,发元音e时,声道近似是均匀的。) 谐振频率的计算 17cm 8.5cm 13cm 声道的无损模型 鼻端 2n-1 谐振频率发生在:Fn= (声道的横截面是均匀的,发元音e时,声道近似是均匀的。) c 4L 嘴唇 L=17cm,声道的长度 n=1,2,3 … 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ,… c=340m/s
女声英文a的时域波形
女声英文a的频谱
总结 不同人的声道大小不同,共振峰不同 同一人,发不同音,共振峰也不同 共振峰 成年男子 成年女子 带宽 一种声道形状对应一套共振峰 不同人的声道大小不同,共振峰不同 同一人,发不同音,共振峰也不同 共振峰 成年男子 成年女子 带宽 f1 200~800 250~1000 40~70 f2 600~2800 700~3300 50~90 f3 1300~3400 1500~4000 60~180 前三个共振峰的大致范围(Hz)
鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。 鼻腔的作用 在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如[n]、[ng]为鼻音韵母,[m]、[n]、[l]为鼻音声母。 鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。
发元音的三个条件 (1)声带振动 (2)声道不发生极端的狭窄,维持稳定的形状 (3)和鼻腔不发生耦合,声音只是从口腔中辐射出去。
2.辅音 发元音的三个条件中,缺少任何一个时,发出的音就是辅音。分为塞音、鼻音、摩檫音和颤音等。
由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。 语音产生的另一种方式 清音 声门完全封闭,声道不受声门周期脉冲气流的激励,而是利用口腔内存有的空气释放出来而发声。 由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。 如声母[s]、[sh]、[h]、[x]和[f]等为清音。
男声汉语拼音声母s的时域波形
男声汉语拼音声母s的频谱
利用MATLAB 产生的高斯噪声
3.元音、辅音和浊音、清音的关系 元音一定是浊音。 辅音包括浊音和清音。
四、英语和汉语的音节构成 英语中:由元音和辅音(这些都是音素)构成音节,由几个音节构成一个词。 汉语中:汉语中由元音和辅音构成声母和韵母,结合声调构成一个音节,一个音节就是一个字。
话音的分类 ☆浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。 ☆清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 ☆爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。
§2.3 汉语语音学 一、汉语语音的特点 二、语音的拼音方法 三、汉语音节的一般结构
一、汉语语音的特点 (1)音系简单,在汉语中一个字就是一个音节,由一般为2~3个音素组成,而且具有音素少、音节少。英语中一个单词由若干个音节组成,一般为2~3个,一个音节由若干个音素组成,一般为1~4个。 (2)清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。 (3)有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。
二、语音的拼音方法 在汉语中,由音素构成声母和韵母。 声母:一个音节开始的辅音,声母完全由辅音充当,但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾。 b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r
韵母:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。 a、o、e、i、u、ü、ê 单韵母(元音) ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei 、üe 复韵母 an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、 üan、ün 鼻韵母 i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。
区别不同韵母的重要参数 韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数。
三、汉语音节的一般结构 声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调(音调)。声调是1个音节在念法上的高低升降的变化,汉语中有4个声调,即阴平(-)、阳平( ′)、上声( )、和去声(‵)。
声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法”,用一条竖线表示声音的高低,从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。 阴平 5 高 4 半高 阳平 3 中 2 半低 上声 1 低 去声 调类 阴平 阳平 上声 去声 调值 55 35 214 51
音节 声母 韵母 单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。 鼻音段 声母辅音段 元音段 送气段 前过渡段 后过渡段 无声段
§2.4 语音生成系统和语音感知系统 一、语音发音系统 二、语音听觉系统
一、语音发音系统(发音器官及其作用) ●肺:能源; ●喉:振动源,包括声带和声门; ●声道(声门到嘴唇的呼气通道):谐振腔; ●其他发音器官:包括唇、齿、舌、面颊等,使谐振腔改变形状。
二、语音听觉系统(一个十分巧妙的音频信号处理器) 人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。
正常人的听觉系统是极为灵敏的,可听声的范围为0.02Hz-20kHz。 可听声的最小声压级(dB)称为听阈。-5 130dB,对低频和高频是不敏感的,听阈为60dB,在1kHz附近最敏感。
声源 声压/Pa 声压级/dB 飞机附近 200 140 织布车间 20 100 地铁 0.63 90 繁华街道 0.063 70 普通谈话 0.02 60 安静房间 0.002 40 耳语 0.00063 30 树叶沙沙声 0.0002 农村静夜 0.000063 10
1. 耳的结构(外耳、中耳和内耳)和功能 外耳:对声源定位和对声音放大的作用,由耳廓和外耳道组成。 ☆耳廓呈漏斗型,其作用是收集声音。 ☆外耳道直至鼓膜,其中充满空气,是一谐振腔,使谐振频率附近的频率成分有某些放大作用,导致声音有某些失真。
外耳道 外耳道的长度为2.5cm,对波长为其4倍作用的声波能起到较好的放大作用,即有:42.5=10cm, 3000-4000Hz声波的波长为8.5cm-11.41cm,因此外耳道对这部分频率的信号有扩音作用,10dB左右。
中耳 ★ 结构:总容量为2立方厘米,内含三块听小骨,锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触。 ★ 作用:进行阻抗变换,将中耳两端的声阻抗匹配起来;保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。
内耳 ★ 结构:主要部分是耳蜗,耳蜗长约3.5cm,呈螺旋状盘绕2.5-2.75圈,是一个密闭的管子,内部充满了淋巴液。 基底膜 前庭窗 镫骨
★ 作用:将振动变换为神经冲动。当声音传入中耳时,镫骨的运动经过前庭窗引起耳蜗内液体压强的变化,从而引起行波沿基底膜的传输,引起基底膜的振动。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变,引起神经冲动,传递给大脑,产生听觉。
如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这种作用称为人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。
人工耳蜗 人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。
人工耳蜗的工作原理 麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。
2.声音传入内耳的途径 由空气传导,称为气导,其过程为: 声波 耳廓 鼓膜 听骨 内耳 基底膜上 毛细胞电位改变 神经冲动 声波 耳廓 鼓膜 听骨 内耳 基底膜上 毛细胞电位改变 神经冲动 由骨传导,称为骨导,其过程为: 声波 颅骨 外淋巴振动 内耳 基底膜上毛细胞电位改变 神经冲动
3. 人耳的两个重要特性 (1)耳蜗对声信号的时频分析特性 (2)人耳的掩蔽效应 人耳的掩蔽(masking phenomenon)效应:在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。
掩蔽阈值 被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(masking threshold),在这个掩蔽阈值以下的声音将被掩蔽掉。 掩蔽效应分为同时掩蔽(频域掩蔽)和短时掩蔽(时域掩蔽)。同时掩蔽是指存在一个弱信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值,就会导致弱信号变得不可闻。
图形描述 20dB 4dB 3dB 1dB 1kHz的听阈 可闻声 不可闻声
数学描述 同时出现的A声和B声,若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声,A声称为被掩蔽声。掩蔽量为68dB-50dB=18dB。
掩蔽效应的作用 当只有A声时,必须将声压级在50dB以上的声音信号传送出去,50dB以下的声音是听不到的。当同时出现了B声,由于掩蔽效应,使得A声中的68dB以下的声音是听不到了,可以不予传送,只是传送50dB以上的信号。 同时掩蔽时,掩蔽声越强,掩蔽作用越大;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显,当频率相同时,掩蔽效果最大。
短时掩蔽 前向掩蔽和后向掩蔽 前向掩蔽:若被掩蔽声A出现后,相隔(0.05s,2s)之内出现了掩蔽声B,对A起掩蔽作用,因为A声尚未被人所反应接收而强大的B声已来临。 后向掩蔽:掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约(0.5s,2s),这时由于人耳的存储效应所致。
§2.5 语音信号生成的数学模型 一、激励模型 二、声道模型 三、辐射模型 四、完整的语音信号的数学模型
语音信号的短时分析技术 语音信号处理的复杂性源于语音信号是非平稳的随机过程,其特性随时间变化的,但这种变换很缓慢。在实际处理中,一般对其加窗,截取10-30ms内的信号(1帧)进行处理。我们将这种技术称为短时分析技术。 第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧 t
为什么取10-30ms,因为根据人的发声生理结构变化的连续性,在此时间段内,声带、声道、口腔的特性几乎不变,语音信号近似平稳。
各帧之间有0~1/2的重叠,由窗函数的定义决定的。 分帧技术 加窗 加矩形窗 第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧 t 加汉宁窗 hanning 各帧之间有0~1/2的重叠,由窗函数的定义决定的。 w(n)=0.5*[1-cos(2n/(N-1))] 第n帧 第n+1帧 第n+2帧 第n+3帧
数学模型 激励 声道 辐射 数学模型的特点: 是一个终端模拟的近似模型,其内部结构与语音产生的物理过程并不一致,只是在输出端等效。
一、激励模型 浊音激励 Av Au 清音激励 冲激序列 声门脉冲 发生器 模型G(z) uG(n) 清/浊音开关 基音周期TP 随机噪声
1.浊音激励 发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。 最后形成一个以基音周期为周期的斜三角波形。
单位脉冲串 单位脉冲串及幅值的Z变换形式:
声门脉冲滤波器 N2 N1
斜三角波形u(n) 2.清音激励 清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。
将声激励分为两种情况,与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力,然后除去这种障碍,使压力迅速释放,产生一种瞬时的激励。在上面的声学模型中未考虑。 应将两种激励按一定比例进行叠加,更符合实际情况。
二、声道模型( 共振峰模型) 线性系统 声道V(z) uG(n) ul(n) 语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在20-30ms内语音信号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。
1.级联型(元音) 声道是一组串连的二阶谐振器(一个谐振腔对应1个共振峰频率)。 V1 V2 V3 V4 V5 传输函数 N为极点个数,G是增益参数,ak为常系数。 T为采样周期
传输函数是一个全极点的IIR滤波器,这些极点确定了声管的共振峰。若N取偶数,V(z)一般有N/2对共轭极点,rkexp(±j2FkT),k=1~N/2。 各个wk值分别与语音的共振峰相互对应。 N的取值一般为8~12。 ai z-1 bi ci
2.并联型(大部分辅音) V1 V2 V3 V4 V5 传输函数,零极点IIR滤波器
3. 混合型(根据需要进行模型的切换) V1 V2 V3 V4 V5 V1 V2 V3 V4 V5
唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。 三、辐射模型 ul(n) 线性系统 唇辐射R(z) pl(n) 唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。 Pl(z)=R(z)Ul(z) R(z)=R0(1-z-1)
四、完整的语音信号的数学模型 Av AN 传输函数 冲激序列 声门脉冲 发生器 模型G(z) 线性系统 辐射模型 清/浊音开关 声道V(z) R(z) 清/浊音开关 基音周期TP 随机噪声 发生器 AN 传输函数
传输函数的具体表达式:
数学模型的特点 在这个模型中,TP、 Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化,在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。 对于激励信号而言,大部分情况下,这一结论也是正确的,但有些音变化速度特别快,爆破音,取5ms比较更为恰当。
§2.6 语音信号的特性分析 一、语音信号的时域波形和频谱特性 二、语音信号的语谱图 三、语音信号的统计特性
一、语音信号的时域波形和频谱特性 时域波形:幅度-时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。 女声汉语拼音a的时域波形
频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。 女声英文a的频谱
二、语音信号的语谱图 语音的时域分析和频域分析是语音分析的两种重要的方法,但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域特性中又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合,将时间依赖于傅立叶分析的显示图形称作为语谱图,横坐标为时间,纵坐标为频率,谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点,明显得展示了语音频谱随时间的变化情况。
欢迎使用微软中国研究院中文语音合成系统 的时域波形和语谱图
“毕业”
三、语音信号的统计特性 语音信号振幅分布的概率密度有两种逼近方法: 修正伽玛(Gamma)分布概率密度函数: 拉谱拉斯(Laplace)分布概率密度函数:
THANKS