第二章 语音信号处理的基础知识 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统

Slides:



Advertisements
Similar presentations
探究问题 1 、观察任意一 质点,在做什么运动? 动画课堂 各个质点在各自的平衡 位置附近做机械振动,没 有随波迁移。 结论 1 :
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2 、 5 的倍数特征 集合 2 的倍数(要求) 在百数表上依次将 2 的倍数找出 并用红色的彩笔涂上颜色。
第二章:语音. 第一节 语音概说 学习要点: 了解语音的三大属性 掌握语音的四要素:音高、音强、音长、音色 熟悉发音器官的基本构造 掌握语音单位的基本概念:音素、音节、声母、 韵母、 声调、音位 了解汉语拼音方案的内容和作用 一般了解国际音标。
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
听觉基础知识 中龙听语科技(北京)有限公司 毕靖雅
第 3 章 聽覺 每章扉頁 3.1 聽覺 3.2 人類耳朵的反應 3.3 聽覺缺陷.
导入新课 想一想 我们生活的世界充满了各种丰富多彩的声音,人们凭借人体的什么器官听到声音呢?
第一章 声现象 第一章 声现象.
第一部分 中考基础复习 第一章 声现象.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第二章 语音概说 泰山学院中文系 于亚楠.
听觉器官、前庭器官 Auditory Organ and Vestibular Organ 湖南医药学院生理学教研室.
第三章 语音和音系 【课程内容】: 3.1 语音和音系的区别与联系 3.2 从声学看语音 3.3 从发音生理看语音 3.4 音位与音系
第三章综合练习题 一、单选 1.汉语普通话中,[ ʦ ʦ‘ s]一组辅音的发音部位是 ③ ① 唇齿 ② 舌面 ③ 舌尖前 ④ 舌尖后
语音概说.
第三章 人耳听觉特性 3.1声音与音质 声音就是声波作用于人的耳脑系统所产生的一种主观感觉。 图3-1人耳的听觉机理
语音合成(speech synthesis)
现代汉语语音的性质及记音符号 现代汉语声母、韵母的性质与特点 现代汉语声调及古今声调的变异 现代汉语音节的分析 现代汉语的音变现象
浅谈提高海防民办大学 非汉语专业生汉语发音策略 (以汉语基础一为例)
第二章 语 音 第一节 语音概说 一、什么是语音? 1.语音是语言的物质外壳,语音是由人的发音器官发出的,表示一定意义的声音。
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
English Pronunciation and Intonation
基础越南语(1) 第七课.
光学谐振腔的损耗.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第一章 语音基础知识.
实验四 滤波器传输函数的零点和极点 对滤波特性的影响
计算机数学基础 主讲老师: 邓辉文.
小朋友,我们一起来复习拼音吧! 广州市荔湾区海中小学 龙老师.
音名与音组 许昌市十二中教育集团 执教人:冯胜华.
第十章 方差分析.
实验六 积分器、微分器.
§7.4 波的产生 1.机械波(Mechanical wave): 机械振动在介质中传播过程叫机械波。1 2 举例:水波;声波.
汉语变音现象初探.
四川大学 计算机学院 陈 虎 多媒体技术基础 四川大学 计算机学院 陈 虎
计算.
字母e在单词中的发音 扬州市汶河小学 顾秋霞.
English Pronunciation and Intonation
晶体管及其小信号放大 -单管共射电路的频率特性.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
语音信号的短时分析技术 对语音信号采用分段(或称分帧处理),称为短时分析。 短时平均能量 短时能量分析 窗口形状的选择 窗口的长度
晶体管及其小信号放大 -单管共射电路的频率特性.
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
激光器的速率方程.
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
音频处理及数字化.
2019/5/11 实验三 线性相位FIR滤波器的特性 05:31:30.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第六课 ɑo ou iu 教学.
静定结构位移计算 ——应用 主讲教师:戴萍.
课题五 频率变换电路 调幅波的基本性质 调幅电路 检波器 混频器.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
多媒体技术 中南大学信息科学与工程学院 黄东军.
φ=c1cosωt+c2sinωt=Asin(ωt+θ).
信号发生电路 -非正弦波发生电路.
Continuous Authentication for Voice Assistants
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
FH实验中电子能量分布的测定 乐永康,陈亮 2008年10月7日.
本底对汞原子第一激发能测量的影响 钱振宇
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
《智能仪表与传感器技术》 第一章 传感器与仪表概述 电涡流传感器及应用 任课教师:孙静.
第2章 语音信号基础知识 人类的语言器官 语音产生过程 语音信号产生的数字模型 语音信号的特性 人类的听觉功能
入侵检测技术 大连理工大学软件学院 毕玲.
混沌保密通讯 实验人 郝洪辰( ) 李 鑫( ).
9.6.2 互补对称放大电路 1. 无输出变压器(OTL)的互补对称放大电路 +UCC
Presentation transcript:

第二章 语音信号处理的基础知识 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.2 语音和语言 §2.3 汉语语音学 §2.4 语音生成系统和语音感知系统 §2.5 语音信号生成的数学模型 §2.6 语音信号的特性分析

§2.2 语音和语言 一、语音与语言的关系 二、语音的基本声学特性 三、音节与音素 四、英语和汉语的音节构成

一、语音与语言的关系 1.语音:人们讲话时发出的话语叫语音。是一种声音,是人们进行信息交流的声音,是组成语言的声音/带有语言信息的声音。 语音(Speech)=声音(Acoustic)+语言(Language) 语音是由一连串的音组成语言的声音。

语音:人与人的沟通介面

2. 对语音的研究包括两个方面 (1)语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究称为语言学(linguistics)。 (2) 语音中各个音的物理特性和分类的研究称为语音学(phonetics) 。它考虑的是语音产生、语音感知等过程和各个音的特征和分类。

3. 人类的说话过程分五个阶段 想说 说出 传送 接收 理解 人类的说话交流是通过联结说话人和听话人的一连串心理、生理和物理的转换过程实现的。

4. 语言(Language) 人与人之间的沟通工具,是从人们的话语中概括总结出来的规律性的符号系统。包括构成语言的语素、词、短语和句子等的不同层次的单位,以及词法、句法和文脉等语法和语义内容。这些构成语言学的研究内容。 Phoneme(音素) Word formation Grammar Text (Option)

5. 语言学和语音信号处理的关系 语言学是语音信号处理的基础。 例如:可以利用句法和语义信息减少语音识别中搜索匹配范围,提高正确识别率。

6. 语音学和语音信号处理的关系 语音学和语音信号处理联系更加紧密。 如:运用现代信号处理技术建立发音的数学模型,确定发音方法;用声学和非平稳信号分析理论来解释各种语音现象;语音信息的存储形式等。

二、语音的基本声学特性 语音是发声器官发出的一种声波,具有一定的音色、音调和音强和音长。 ●音色: 又称为音质,是一种声音区别于另一种声音的基本特性。 ●音调:声音的高低,取决于声波的频率 ●音强:声音的强弱,它由声波的振动幅度所决定 ●音长:发音时间的长短

三、音节与音素 句子的最小单位为单词,单词的最小单位为音节。 音节:发音时,被明显感觉到的语音片段为音节。 音素:是发音的最小单位,一个音节由一个音素或几个音素构成。分为元音和辅音。元音是构成音节的主干,从长度和能量来看,在音节中占主要位置;辅音只是出现在音节的前端或后端或前后两端,它们的时长和能量较小。

1.元音 元音的一个重要的声学特性 基频和共振峰 元音的一个重要的声学特性 基频和共振峰 人在说话时,空气由肺部压入,由嘴唇呼出,声门由此开启和闭合,构成声带振动,然后通过声道(喉腔、咽腔和口腔)响应(引起共振特性)变成语音,由于发不同音时,声带的振动情况(基频)和声道的形状不同(谐振频率或共振峰频率),所以构成不同的声音。

语音的产生

发音机理 人的前方 甲状软骨 当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。 声门 声带 环形软骨 喉位于气管的上端,实际上是气管末端一圈软骨构成的一个框架,前方稍高处的软骨称为甲状软骨,前后方环成一圈的称为喉部环形软骨,喉中两片肌肉称为声带,声带之间的空隙为声门。 当声带张开时,声门打开,空气可自由呼出,正常呼吸就处于这种情况;当声带闭合,声门关闭。 人的前方 甲状软骨 声门 声带 环形软骨 喉的生理结构

当说话时,声带在软骨的作用下相互靠近但不完全闭合,声门变成一条窄缝,当气流通过窄缝时压力减小,外界压力大,从而两片声带完全闭合使得气流不能通过,当气流阻断时压力恢复正常,推开两片声带,声门再次打开,气流再次流过。 声带靠拢 声带的开启和闭合称为振动。这一振动过程周而复始,形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的[a]、[i]、[u]和[o]等。 Tp 基音周期

女声汉语拼音a的时域波形

基音频率(Fundamental Frequency) F0 ☆ F0 =1/Tp,基音频率,由声带的质量来决定。 ☆ F0的大小决定了声音的高低,称为音高。 ☆ 男性的F0大致分布在: 60~200Hz ☆ 女性和儿童的F0大致分布在:200~450Hz

讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射,期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。 讲话时,由于舌和唇的连续运动,使声道形状改变,随即改变谐振频率,使得发不同的音。声道的不同的形状,对应不同的谐振频率。 声带振动频率 输出气流的频率 声道的谐振特性

(声道的横截面是均匀的,发元音e时,声道近似是均匀的。) 谐振频率的计算 17cm 8.5cm 13cm 声道的无损模型 鼻端 2n-1 谐振频率发生在:Fn= (声道的横截面是均匀的,发元音e时,声道近似是均匀的。) c 4L 嘴唇 L=17cm,声道的长度 n=1,2,3 … 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ,… c=340m/s

女声英文a的时域波形

女声英文a的频谱

总结  不同人的声道大小不同,共振峰不同  同一人,发不同音,共振峰也不同 共振峰 成年男子 成年女子 带宽  一种声道形状对应一套共振峰  不同人的声道大小不同,共振峰不同  同一人,发不同音,共振峰也不同 共振峰 成年男子 成年女子 带宽 f1 200~800 250~1000 40~70 f2 600~2800 700~3300 50~90 f3 1300~3400 1500~4000 60~180 前三个共振峰的大致范围(Hz)

鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。 鼻腔的作用 在软腭的帮助下,可使空气经过鼻腔排除人体外,由此产生的语音称为鼻音。如[n]、[ng]为鼻音韵母,[m]、[n]、[l]为鼻音声母。 鼻腔是一个谐振腔,由于形状固定,故其共振峰频率是确定的。

发元音的三个条件 (1)声带振动 (2)声道不发生极端的狭窄,维持稳定的形状 (3)和鼻腔不发生耦合,声音只是从口腔中辐射出去。

2.辅音 发元音的三个条件中,缺少任何一个时,发出的音就是辅音。分为塞音、鼻音、摩檫音和颤音等。

 由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。 语音产生的另一种方式 清音  声门完全封闭,声道不受声门周期脉冲气流的激励,而是利用口腔内存有的空气释放出来而发声。  由于该气流通过一个狭窄通道时在口腔中形成湍流,因而具有随机噪声的特点。发出的音称为清音。  如声母[s]、[sh]、[h]、[x]和[f]等为清音。

男声汉语拼音声母s的时域波形

男声汉语拼音声母s的频谱

利用MATLAB 产生的高斯噪声

3.元音、辅音和浊音、清音的关系 元音一定是浊音。 辅音包括浊音和清音。

四、英语和汉语的音节构成 英语中:由元音和辅音(这些都是音素)构成音节,由几个音节构成一个词。 汉语中:汉语中由元音和辅音构成声母和韵母,结合声调构成一个音节,一个音节就是一个字。

话音的分类 ☆浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。 ☆清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 ☆爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。

§2.3 汉语语音学 一、汉语语音的特点 二、语音的拼音方法 三、汉语音节的一般结构

一、汉语语音的特点 (1)音系简单,在汉语中一个字就是一个音节,由一般为2~3个音素组成,而且具有音素少、音节少。英语中一个单词由若干个音节组成,一般为2~3个,一个音节由若干个音素组成,一般为1~4个。 (2)清辅音多,在听感上有清亮、高扬和舒服、柔和的感觉。 (3)有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。

二、语音的拼音方法 在汉语中,由音素构成声母和韵母。 声母:一个音节开始的辅音,声母完全由辅音充当,但辅音不等于声母,因为辅音还可以作为韵尾放在音节的末尾。 b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、z、c、s、r

韵母:在音节中占主要部分,音节中除了头上的声母以外的部分,由单、双元音、元音带上辅音等几种不同的形式组成。所有元音都是浊音。 a、o、e、i、u、ü、ê 单韵母(元音) ai、ei、ao、ou、ia、ie、iao、iou、ua、uo、uai、uei 、üe 复韵母 an、en、ang、eng、ong、ian、in、iang、ing、iong、uan、uen、uang、ueng、 üan、ün 鼻韵母 i表示3个韵母,即韵母、舌尖前韵母和舌尖后韵母。

区别不同韵母的重要参数 韵母是由单、双元音、元音带上辅音等几种不同的形式组成。不同的元音有不同的基音频率和共振峰模式,它们是区别不同韵母的重要参数。

三、汉语音节的一般结构 声母、韵母和声调是汉语语音的三要素。汉语语音的1个不同于其他语言的是它具有声调(音调)。声调是1个音节在念法上的高低升降的变化,汉语中有4个声调,即阴平(-)、阳平( ′)、上声(  )、和去声(‵)。

声调的变化就是浊音基音周期的变化,为了将调值描写地具体一些,一般采用“五度标记法”,用一条竖线表示声音的高低,从上而下用1、2、3、4、5依次表示低、半低、中、半高、高。 阴平 5 高 4 半高 阳平 3 中 2 半低 上声 1 低 去声 调类 阴平 阳平 上声 去声 调值 55 35 214 51

音节 声母 韵母 单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。 鼻音段 声母辅音段 元音段 送气段 前过渡段 后过渡段 无声段

§2.4 语音生成系统和语音感知系统 一、语音发音系统 二、语音听觉系统

一、语音发音系统(发音器官及其作用) ●肺:能源; ●喉:振动源,包括声带和声门; ●声道(声门到嘴唇的呼气通道):谐振腔; ●其他发音器官:包括唇、齿、舌、面颊等,使谐振腔改变形状。

二、语音听觉系统(一个十分巧妙的音频信号处理器) 人类接收语音由人耳来完成,空气振动由耳廓收集,经外耳道而抵达鼓膜,鼓膜随之振动,使鼓室中的空气和听骨链也发生振动,听骨链的振动经前庭窗(卵圆窗)激励前庭淋巴,变为液波,液波使位于基底膜上的螺旋器受到刺激,将神经冲动经听神经传到中枢而产生听觉。

正常人的听觉系统是极为灵敏的,可听声的范围为0.02Hz-20kHz。 可听声的最小声压级(dB)称为听阈。-5 130dB,对低频和高频是不敏感的,听阈为60dB,在1kHz附近最敏感。

声源 声压/Pa 声压级/dB 飞机附近 200 140 织布车间 20 100 地铁 0.63 90 繁华街道 0.063 70 普通谈话 0.02 60 安静房间 0.002 40 耳语 0.00063 30 树叶沙沙声 0.0002 农村静夜 0.000063 10

1. 耳的结构(外耳、中耳和内耳)和功能 外耳:对声源定位和对声音放大的作用,由耳廓和外耳道组成。 ☆耳廓呈漏斗型,其作用是收集声音。 ☆外耳道直至鼓膜,其中充满空气,是一谐振腔,使谐振频率附近的频率成分有某些放大作用,导致声音有某些失真。

外耳道 外耳道的长度为2.5cm,对波长为其4倍作用的声波能起到较好的放大作用,即有:42.5=10cm, 3000-4000Hz声波的波长为8.5cm-11.41cm,因此外耳道对这部分频率的信号有扩音作用,10dB左右。

中耳 ★ 结构:总容量为2立方厘米,内含三块听小骨,锤骨、砧骨、镫骨,其中锤骨与鼓膜相接触,镫骨则与内耳的前庭窗相接触。 ★ 作用:进行阻抗变换,将中耳两端的声阻抗匹配起来;保护内耳。在一定声强范围内,听小骨实现声音的线性传递,而在特强声时,实现非线性传递。

内耳 ★ 结构:主要部分是耳蜗,耳蜗长约3.5cm,呈螺旋状盘绕2.5-2.75圈,是一个密闭的管子,内部充满了淋巴液。 基底膜 前庭窗 镫骨

★ 作用:将振动变换为神经冲动。当声音传入中耳时,镫骨的运动经过前庭窗引起耳蜗内液体压强的变化,从而引起行波沿基底膜的传输,引起基底膜的振动。不同频率的声音产生不同的行波,其峰值出现在基底膜的不同位置上。基底膜的振动导致沿基底膜分布的毛细胞的电位发生改变,引起神经冲动,传递给大脑,产生听觉。

如果信号是一个多频率的信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度,从这个意义上讲,耳蜗就像一个频谱分析仪,将复杂信号分解成各种频率分量,这种作用称为人耳的时频分析特性。耳蜗在语音接收过程起着重要的作用。

人工耳蜗 人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者获得或重新恢复听觉。它代替病变受损的听觉器官,把声音转换成编码的电信号传入内耳耳蜗,刺激分布在那里的听神经,再由大脑产生听觉。

人工耳蜗的工作原理 麦克风接收声音,并通过导线将其传至言语处理器;言语处理器对声音进行数字化、滤波编码等处理,并将编码信号经导线传至传输线圈;传输线圈将编码信号通过耦合传至皮下的接收器;接收器对编码信号进行解码;按信号选择一定位置的电极,刺激耳蜗内的听神经纤维,使其产生兴奋,将信号传入大脑,产生听觉。

2.声音传入内耳的途径 由空气传导,称为气导,其过程为: 声波 耳廓 鼓膜 听骨 内耳 基底膜上 毛细胞电位改变 神经冲动 声波 耳廓 鼓膜 听骨 内耳 基底膜上 毛细胞电位改变 神经冲动 由骨传导,称为骨导,其过程为: 声波 颅骨 外淋巴振动 内耳 基底膜上毛细胞电位改变 神经冲动

3. 人耳的两个重要特性 (1)耳蜗对声信号的时频分析特性 (2)人耳的掩蔽效应 人耳的掩蔽(masking phenomenon)效应:在一个强信号附近弱信号将变得不可闻,被掩蔽掉了。

掩蔽阈值 被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(masking threshold),在这个掩蔽阈值以下的声音将被掩蔽掉。 掩蔽效应分为同时掩蔽(频域掩蔽)和短时掩蔽(时域掩蔽)。同时掩蔽是指存在一个弱信号和一个强信号,当其频率接近时,强信号会提高弱信号的阈值,就会导致弱信号变得不可闻。

图形描述 20dB 4dB 3dB 1dB 1kHz的听阈 可闻声 不可闻声

数学描述 同时出现的A声和B声,若原来A声的阈值为50dB,由于另一个频率不同的B声的存在使得A声的阈值提高了68dB,则B声称为掩蔽声,A声称为被掩蔽声。掩蔽量为68dB-50dB=18dB。

掩蔽效应的作用 当只有A声时,必须将声压级在50dB以上的声音信号传送出去,50dB以下的声音是听不到的。当同时出现了B声,由于掩蔽效应,使得A声中的68dB以下的声音是听不到了,可以不予传送,只是传送50dB以上的信号。 同时掩蔽时,掩蔽声越强,掩蔽作用越大;掩蔽声和被掩蔽声的频率越接近,掩蔽效果越明显,当频率相同时,掩蔽效果最大。

短时掩蔽 前向掩蔽和后向掩蔽 前向掩蔽:若被掩蔽声A出现后,相隔(0.05s,2s)之内出现了掩蔽声B,对A起掩蔽作用,因为A声尚未被人所反应接收而强大的B声已来临。 后向掩蔽:掩蔽声B即使消失后,其掩蔽作用仍将持续一段时间,约(0.5s,2s),这时由于人耳的存储效应所致。

§2.5 语音信号生成的数学模型 一、激励模型 二、声道模型 三、辐射模型 四、完整的语音信号的数学模型

语音信号的短时分析技术 语音信号处理的复杂性源于语音信号是非平稳的随机过程,其特性随时间变化的,但这种变换很缓慢。在实际处理中,一般对其加窗,截取10-30ms内的信号(1帧)进行处理。我们将这种技术称为短时分析技术。 第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧 t

为什么取10-30ms,因为根据人的发声生理结构变化的连续性,在此时间段内,声带、声道、口腔的特性几乎不变,语音信号近似平稳。

各帧之间有0~1/2的重叠,由窗函数的定义决定的。 分帧技术 加窗 加矩形窗 第n帧 第n+1帧 第n+2帧 第n+3帧 第n+4帧 t 加汉宁窗 hanning 各帧之间有0~1/2的重叠,由窗函数的定义决定的。 w(n)=0.5*[1-cos(2n/(N-1))] 第n帧 第n+1帧 第n+2帧 第n+3帧

数学模型 激励 声道 辐射 数学模型的特点: 是一个终端模拟的近似模型,其内部结构与语音产生的物理过程并不一致,只是在输出端等效。

一、激励模型 浊音激励 Av Au 清音激励 冲激序列 声门脉冲 发生器 模型G(z) uG(n) 清/浊音开关 基音周期TP 随机噪声

1.浊音激励 发浊音时,声激励是一个准周期的单位脉冲串,Av为增益参数;为了使浊音的激励信号具有声门振动气流脉冲的实际波形,需将冲激序列通过一个声门脉冲模型滤波器(实际上是一个斜三角波形)G(z)。 最后形成一个以基音周期为周期的斜三角波形。

单位脉冲串 单位脉冲串及幅值的Z变换形式:

声门脉冲滤波器 N2 N1

斜三角波形u(n) 2.清音激励 清音激励模拟为随机噪声,实际中一般使用均值为0、方差为1的白噪声。

将声激励分为两种情况,与实际不完全相符。例如爆破音是气流在声门完全闭合处的下方建立起压力,然后除去这种障碍,使压力迅速释放,产生一种瞬时的激励。在上面的声学模型中未考虑。 应将两种激励按一定比例进行叠加,更符合实际情况。

二、声道模型( 共振峰模型) 线性系统 声道V(z) uG(n) ul(n) 语音信号是一个非平稳信号,激励和声道的谐振特性随时间变化。但在20-30ms内语音信号是平稳的,即激励和声道的特性几乎不变,因此认为在此时间段内系统是线性的。

1.级联型(元音) 声道是一组串连的二阶谐振器(一个谐振腔对应1个共振峰频率)。 V1 V2 V3 V4 V5 传输函数 N为极点个数,G是增益参数,ak为常系数。 T为采样周期

传输函数是一个全极点的IIR滤波器,这些极点确定了声管的共振峰。若N取偶数,V(z)一般有N/2对共轭极点,rkexp(±j2FkT),k=1~N/2。 各个wk值分别与语音的共振峰相互对应。 N的取值一般为8~12。 ai z-1 bi ci

2.并联型(大部分辅音) V1 V2 V3 V4 V5 传输函数,零极点IIR滤波器

3. 混合型(根据需要进行模型的切换) V1 V2 V3 V4 V5 V1 V2 V3 V4 V5

唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。 三、辐射模型 ul(n) 线性系统 唇辐射R(z) pl(n) 唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。 Pl(z)=R(z)Ul(z) R(z)=R0(1-z-1)

四、完整的语音信号的数学模型 Av AN 传输函数 冲激序列 声门脉冲 发生器 模型G(z) 线性系统 辐射模型 清/浊音开关 声道V(z) R(z) 清/浊音开关 基音周期TP 随机噪声 发生器 AN 传输函数

传输函数的具体表达式:

数学模型的特点 在这个模型中,TP、 Av、AN、清/浊音开关的位置以及声道滤波器的参数都是随时间而变化,在10-30ms的时间间隔内是保持不变的。这种特性称为短时性。 对于激励信号而言,大部分情况下,这一结论也是正确的,但有些音变化速度特别快,爆破音,取5ms比较更为恰当。

§2.6 语音信号的特性分析 一、语音信号的时域波形和频谱特性 二、语音信号的语谱图 三、语音信号的统计特性

一、语音信号的时域波形和频谱特性 时域波形:幅度-时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。 女声汉语拼音a的时域波形

频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。 女声英文a的频谱

二、语音信号的语谱图 语音的时域分析和频域分析是语音分析的两种重要的方法,但是这两种方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域特性中又没有语音信号随时间的变化关系。因此人们致力于研究将时域分析和频域相结合,将时间依赖于傅立叶分析的显示图形称作为语谱图,横坐标为时间,纵坐标为频率,谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点,明显得展示了语音频谱随时间的变化情况。

欢迎使用微软中国研究院中文语音合成系统 的时域波形和语谱图

“毕业”

三、语音信号的统计特性 语音信号振幅分布的概率密度有两种逼近方法: 修正伽玛(Gamma)分布概率密度函数: 拉谱拉斯(Laplace)分布概率密度函数:

THANKS