第12章 语音合成
目录 1 概述 2语音合成原理 3共振峰合成 4线性预测合成 5语音合成的关键技术 6专用语音合成硬件及语音合成器芯片 7语音合成的应用 2.1语音合成的方法 2.2语音合成系统的特性 3共振峰合成 3.1共振峰合成原理 3.2共振峰合成实例 4线性预测合成 5语音合成的关键技术 6专用语音合成硬件及语音合成器芯片 7语音合成的应用
概述 人与人、人与计算机之间的语音信息流程图
音节和音素 语音信号的最基本组成单位是音素,音素可以分为浊音和清音,在短时分析的基础上可以判断一段语音属于哪一类。 浊音短时谱的特点: 概述 音节和音素 语音信号的最基本组成单位是音素,音素可以分为浊音和清音,在短时分析的基础上可以判断一段语音属于哪一类。 浊音短时谱的特点: 具有明显的周期性起伏结构 具有明显的凸起点,称为“共振峰”(formant) 清音短时谱的特点:随机噪声
概述 音节 音节是发声的最小单位,一个音节由元音和辅音构成,“辅音-元音”
声道 不同的韵母是由于声道形状的不同造成的,声道可以用一段变截面积的声管来表示。 声道形状主要取决于三个方面: 概述 声道 不同的韵母是由于声道形状的不同造成的,声道可以用一段变截面积的声管来表示。 声道形状主要取决于三个方面: 舌在口腔中的前后位置不同,造成收紧点(面积最小点)的位置不同 舌位的高低,舌位越高嘴张的越大,也称开口度大 唇的圆展程度
元音(汉语中称为韵母) 单韵母5个,[a],[i],[u],[ü], [e],[o] 概述 元音(汉语中称为韵母) 单韵母5个,[a],[i],[u],[ü], [e],[o] 复韵母14个,[ai],[ei],[au],[ou],[ia],[ie],[ua],[uo] ,[üe] ,[iao] ,[uai] ,[uei] 鼻韵母16 个 ,[an] ,[ian] ,[uan] , [üan] ,[en] ,[in] ,[uen] ,[ün] ,[ang] ,[iang] ,[uang] ,[eng] ,[ing] ,[ueng] ,[ong] ,[iong]
舌位的前后主要影响第二共振峰,舌位靠前,收紧点靠前,第二共振峰越高。 舌位上下即开口度主要影响第一共振峰,开口度越小,第一共振峰越低。 概述 舌位的前后主要影响第二共振峰,舌位靠前,收紧点靠前,第二共振峰越高。 舌位上下即开口度主要影响第一共振峰,开口度越小,第一共振峰越低。 唇的圆展程度对第一共振峰和第二共振峰都有影响
单韵母发音及频谱特点 概述 韵母 典型字的韵母 收紧点 开口度 F1 F2 [a] 巴、大 后 大 850 1300 [i] 一、希 前 小 2300 [u] 乌、路 350 650 [ü] 玉、居 2000 [e] 特、哥 中 520 1200 [o] 迫、魔 570 840
声母 汉语普通话声母的划分 不送气塞音 [b],[d],[g] 送气塞音[p],[t],[k] 概述 声母 汉语普通话声母的划分 不送气塞音 [b],[d],[g] 送气塞音[p],[t],[k] 清擦音[s],[sh],[x],[f],[h] 不送气塞擦音[z],[zh],[j] 送气塞擦音[c],[ch],[q] 鼻音[m],[n] 边音[l] 卷舌音[r]
语音合成 语音合成是讨论如何使机器说出人的语言,以满足人类的各种需要的问题。 语音合成原理 语音合成 语音合成是讨论如何使机器说出人的语言,以满足人类的各种需要的问题。 从指导思想上来说,要使得机器说话有两类方法:一类可以称为“分析-存储-合成”。这里存储是核心,也就是说只要事先将语音存储起来,然后在需要机器说话时只要再取出来就可以得到语音了。在数字语音合成中,为了便于存储,必须先进行分析或变换,因而在取出合成前还必须进行相应的反变换,最简单的变换是模数变换和数模变换,或称为PCM波形合成法。这种方法合成语音,其词汇量不能很大,所需的存储空间太大。如要让机器讲1秒钟的语音,就需要64kbit以上的存储容量。 为了节约存储量,必须先对语音信号进行各种分析,得到诸如线性预测系数、线谱对参数或共振峰参数等有限个参数,以压缩存储容量,这种方法称为参数合成法。
语音合成 但应该指出,在目前的技术水平下,要想合成任意一语种的无限词汇量的语音,仅采用上述的“分析-存储-合成”法是不可能的。 语音合成原理 语音合成 但应该指出,在目前的技术水平下,要想合成任意一语种的无限词汇量的语音,仅采用上述的“分析-存储-合成”法是不可能的。 甚至对于以音节为基础,且字汇量较少的汉语,若以音节字为合成基元,也有1300个音节字,即使使用参数存储也将是很困难的。 因此国际上都在努力开发另一类无限(全)词(字)汇量的语音合成方法,这第二类法就是所谓“按语言学规则的从文本至语言”的语言合成法(Test- to –Speech Synthesis by Rule)。
语音合成 在波形合成法中,也可以使用波形编码技术(如ADPCM, APC等)略微压缩一些存储量。 语音合成原理 语音合成 在波形合成法中,也可以使用波形编码技术(如ADPCM, APC等)略微压缩一些存储量。 通常情况下,波形合成法可以合成的语音词汇量约在500以下,而参数合成法则可以达到数千左右。 当然,在参数合成时,由于抽取参数或编码过程中,难免存在逼近误差,所以合成的语音质量(清晰度)也就比波形合成法要差一些了。 在语音合成中,另一个重要问题就是合成基元的选择问题,也就是存储的语音基元的选择问题。显然,合成词汇量越大,必须采用越小的基元,否则存储量就太大了;反之,合成词汇量越小,可用较大的基元。 例如在英语中,词的数量有千千万万,但是音素质有成百个。因此存储全部词的容量远远大于存储全部音素的容量。 但是我们知道,基元越大,合成的语音自然度就越好。例如存储的是整个句子的语音波形或参数,则合成的语音在该句范围内,合成语音的自然度就接近于原始语音,不会有那种不连贯的机器味。 通常,在波形合成法中,由于合成的是有限长度的语音,甚至可以用整个句子作为合成基元,但是在参数合成法中,则不得不用字至多也只能用词作为合成基元。
语音合成 我国的汉语,在无限字(词)汇量的语音合成,具有得天独厚的优越性。 汉语的句子是由词组成的,而词又是由音节字组成的。 语音合成原理 语音合成 我国的汉语,在无限字(词)汇量的语音合成,具有得天独厚的优越性。 汉语的句子是由词组成的,而词又是由音节字组成的。 虽然存在一音多字的问题,但是对于机器讲话、人听话的语音合成情况来说,这个同音字问题是不必考虑的。因为人在听话时会自然的理解这些同音字,也就是说,汉语合成时只是要求机器讲出音节字(拼音字)就可以了。 汉语的全部音节字只有1300个左右,即使不用更小的声母、韵母作为基元就用音节字作为基元,其语音库也不算太大。
语音合成(Speech Synthesis) 语音合成原理 语音合成(Speech Synthesis) 语音合成技术可以分为四类: 波形编码合成方法 (Waveform Coding Synthesis) 参数式分析合成方法(Parametric Analysis Synthesis) 规则合成方法(Synthesis by Rule) 文-语转换(Text to Speech Conversion System) 无论波形合成法或是参数合成法,其原理都等同于语音通信的语音编码或声码器中的接收端的工作过程,只是现在没有从信道送来的参数与编码的序列,而代之以从分析或变换得到的存储在语音库中的参数或码序列。
语音的波形编码方法 这种方式以语句、短语、词或音节为合成单元,这些单元分别被录音后直接进行数字编码,经过适当的数据压缩,组成一个合成语音库。 语音合成原理 语音的波形编码方法 这种方式以语句、短语、词或音节为合成单元,这些单元分别被录音后直接进行数字编码,经过适当的数据压缩,组成一个合成语音库。 重放时,根据待输出的信息,在语音库中取出相应单元的波形数据,串接或编辑在一起,经过解码还原出语音,这种合成方法也叫录音编辑合成。 合成单元越大, 合成的自然度越好,系统结构简单,价格低廉,合成语音的数码率较大,存储量也大,因而合成的词汇有限。 在自动报时、报号、报站或报警等装置中,多采用这种技术,现有多种合成芯片可供选用。
语音的参数式分析合成 这种合成方法多以音节、半音节或音素为合成单元。 语音合成原理 语音的参数式分析合成 这种合成方法多以音节、半音节或音素为合成单元。 首先按照语音理论,对所有合成单元的语音进行分析,一帧一帧提取有关语音参数,这些参数经编码后组成一个合成语音库。 输出时,根据待合成的语音的信息,从语音库中提取出相应的合成参数, 经编辑和连接顺序送入语音合成器中,在合成器中合成参数的控制下,一帧一帧的重新还原语音波形。 主要的合成参数有:控制音强的幅度、控制音高的基频和控制音色的共振峰参数。 这种方式的速码率比波形编辑方式小的多,但是系统结构也复杂些,合成音质也差些。目前已有专用的芯片和界线板
语音合成原理 语音的规则合成 这种合成方法以通过语音学规则来产生任何语音为目的,规则合成系统存储的是较小的语音单位的声学参数以及由音素组成音节,再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动将它们转换为连续的语音声波。 由于语音中存在协同发声效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以合成规则是在分析每一语音单元出现在不同环境中的协同发音后,归纳其规律而制定的如共振峰的频率规则、时长规则、声调和语调规则等。 与分析合成方法相比,规则合成方法的语音库的存储量更小,这是以牺牲音质为代价的,这种方式涉及到许多语音学和语音学模型,系统结构复杂。目前合成规则还不完善,合成音质一般较差。
语音合成原理 语音合成--文-语合成 文-语合成的指导思想是:挖掘出人在讲话时,是按照什么规则来组织语音单元的,并将这些规则的知识赋予机器,因而机器在合成语音时,只要输入合成基元,机器就应该会按照所赋给的规则来合成出与人讲话是相同的语音来。 应该指出,所使用的文本的合成基元越小,合成规则就越多越复杂,当然所用的存储量也就越小。因此在选择文本的合成基元时应该折衷考虑。 目前英语中多用音素、双音素为文本的合成基元,因为对于西方语言,用词作为基元的按规则合成几乎是不可能的。而汉语可以用声母和韵母,甚至直接用音节字作为文本基元,以减少规则的知识。这时就不必靠与音素有关的规则,而只需用到音节字之间的有关规则就可以了。
语音合成原理 文-语转换系统 这是一种以文字串为输入的规则合成系统,其输入的文字串是通常的文本字串,系统中的文本分析器首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等,这样,文字串就变换为代码串,规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。 文-语转换系统除了依赖各种规则(包括语义规则,词规则,语音学规则)外,还必须对文字内容有正确的理解,也就是自然语言理解问题,所以真正的文-语转换系统实际上是一个人工智能系统。迄今为止,还没有开发出一套相当满意的文-语转换系统。
三种语音合成方式特征比较 语音合成原理 波形合成法 参数合成法 规则合成法 基本信息 波形 特征参数 语言的符号组合 语音质量 可懂度 高 中 自然度 低 词汇量 小(500字以下) 大(数千字) 无限 合成方式 PCM、ADPCM、APC LPC、线谱对LSP、共振峰 数码率 9.6~64 kbit/s 2.4~9.6 kbit/s 50~75 bit/s 1 Mbit可合成的语音长度 15~100 s 100s~7分钟 合成单元 音节,词组,句子 音素、音节 装置 简单 比较复杂 复杂 硬件主体 存储器 存储器和微处理器 微处理器
关于语音合成的基本术语-合成单元(Synthesis Unit) 语音合成原理 关于语音合成的基本术语-合成单元(Synthesis Unit) 合成单元也称为合成单位,是语音合成系统所处理的最小的语音学基本单位,待合成词语的合成语音库就是所有合成单元的集合。 按由小到大的顺序排列,语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元,合成单元越大,合成语音音质越好,但合成语音的数量及其数码率也越大。 在波形编码合成方式中,合成单元较大,多为词、短语或句子。 在参数式分析合成和规则合成方式中,英语或日语的合成多采用音素,辅音加元音和元音加辅音等合成单元,汉语的合成单元多采用音节和声、韵母作合成单元。
关于语音合成的基本术语-合成参数(Synthesis Parameters) 语音合成原理 关于语音合成的基本术语-合成参数(Synthesis Parameters) 在参数式分析合成和规则合成方式中,控制语音合成器以输出所需语音的一组参数。 合成参数分为两类: 音色参数 韵律参数 音色参数又称为音段参数,常用的有:共振峰频率,线性预测系数,LSF系数和生理发音参数。 韵律参数又称为超音段参数,主要有控制音强的幅度参数,控制音高的基频参数,控制音长的时间参数等。
关于语音合成的基本术语-合成参数(Synthesis Parameters) 语音合成原理 关于语音合成的基本术语-合成参数(Synthesis Parameters) 在参数式分析合成方式中,每个合成单元的每帧合成参数直接取自该合成单元实际录音的分析数据。 在规则合成方式中,每个合成单元的合成参数是对大量语音材料进行声学分析后,经反复调试归纳得出的,合成参数的选取和调试对合成音质关系极大。
关于语音合成的基本术语-合成语音库(Database for Synthesis ) 语音合成原理 关于语音合成的基本术语-合成语音库(Database for Synthesis ) 在语音合成系统中,所有合成单元的编码数据或合成参数数据的集合称为合成语音库。 对于波形编码合成方式,语音库中存储的是合成单元的波形编码 对于参数式分析合成方式,语音库中存储的是各合成单元逐帧的合成系数 在规则合成方式中,语音库中存储的是各合成单元的声学参数和一系列合成规则
关于语音合成的基本术语-语音合成器(Speech Synthesizer ) 语音合成原理 关于语音合成的基本术语-语音合成器(Speech Synthesizer ) 在参数式分析合成和规则合成系统中,将语音合成参数转变为语音波形的软件和硬件系统就是语音合成器。 语音合成器是按照语音产生的声学模型构成的,它模拟了语音产生的三个过程:声源激励、声道(即口腔、鼻腔和咽腔的总和)共鸣和口鼻辐射,其中模拟声道共鸣特性的数字滤波器尤为关键。 依据控制语音音色的合成参数和数字滤波器的构造的不同,语音合成器可分为共振峰合成器、线性预测合成器、线谱对合成器和发音参数合成器等类别。
关于语音合成的基本术语-合成音质(Quality of Synthetic Speech ) 语音合成原理 关于语音合成的基本术语-合成音质(Quality of Synthetic Speech ) 合成音质是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面来进行主观评价。 清晰度是正确听辨有意义词语的百分率 自然度用来评价合成语音音质是否接近人说话的声音,合成词语的语调是否自然 连贯性用来评价合成语音是否流畅。
共振峰式语音合成器 音色各异的语音具有不同的共振峰模式,因此以每个共振峰频率及其带宽为参数,可以构成一个共振峰滤波器,用若干个这种滤波器的组合来模拟声道的传输频响,对激励源发出的信号进行调制,再经过辐射即可得到合成语音。 早期的共振峰滤波器是用模拟电路来实现的,现在都用数字滤波器来实现。
共振峰式语音合成器 在采样周期一定的情况下,滤波器的传输频响是由共振峰频率和带宽唯一决定的。如果在所需的频率范围内,一次配置几个这样的滤波器,使其谐振频率分别对应于各共振峰频率即可逼近整个声道的传输特性。 共振峰合成器又两种基本构成方式:级联(串联)式和并联式。 级联式共振峰滤波器首尾相接,并联式中,输入信号首先分别通过幅度调节,在加到每一共振峰滤波器上,各路的输出再叠加起来。 对于合成声源位于声道末端的语音,级联式合乎语音产生的声学理论,且无需为每一滤波器分设幅度调节。 对于合成声源位于声道中间的语音(大多数清擦音和塞音),并联式比较合适,但其幅度调节很复杂。
共振峰式语音合成器 共振峰语音合成原理如下: ①浊音和清音分别采用不同的激励源。 ②发不同语音对应不同声道路径和滤波器。 ③发不同语音对应不同幅值控制和频率控制。 ④共振峰和基频是语音信号的2个主要特征。 Vortax公司推出的Computalker是一种典型的语音合成产品——最早进入计算机业余爱好者市场。采用的便是共振峰语音合成原理。
共振峰式语音合成器 激励源对合成语音的自然度有明显的影响,激励源有三种类型: 合成浊音语音时用周期冲激序列, 合成清音语音时用伪随机噪声, 图12-1共振峰合成系统 激励源对合成语音的自然度有明显的影响,激励源有三种类型: 合成浊音语音时用周期冲激序列, 合成清音语音时用伪随机噪声, 合成浊擦音时用周期冲激调制的噪声
共振峰式语音合成器 发浊音时: 最简单的是三角波脉冲,但这种模型不够精确,可以采用其他更为精确的形式。 图12-1共振峰合成系统 发浊音时: 最简单的是三角波脉冲,但这种模型不够精确,可以采用其他更为精确的形式。 对于高质量的语音合成,激励源的脉冲形状是十分重要的。 但是事实上,按规则语音合成中,合成参数不精确对语音音质的影响要远大于激励源脉冲的影响;因此,在按规则合成中也常采用三角波激励源。
共振峰式语音合成器 合成清音时: 激励源一般使用白噪声,实际上用伪随机数发生器来代替。 图12-1共振峰合成系统 合成清音时: 激励源一般使用白噪声,实际上用伪随机数发生器来代替。 清音激励源的频谱应该是平坦的,波形样本幅度服从高斯分布。而伪随机数发生器产生的序列具有平坦的频谱,但幅度为均匀分布。 根据中心极限定理,互相独立具有相同分布的随机变量之和服从高斯分布。因此,将若干个(典型值为16)的随机数叠加起来,可以得到近似高斯分布的激励源。
共振峰式语音合成器 图12-1共振峰合成系统 浊辅音: 尤其是其中的浊擦音,声带振动产生的脉冲波和湍流同时存在,这时噪声的幅度被声带振动周期性地调制,因此应考虑这种情况。
共振峰式语音合成器 图中,使用了两种声道模型: 图12-1共振峰合成系统 图中,使用了两种声道模型: 一种是将其模型化为二阶数字谐振器的级联 另一种是将其模型化为并联形式。 级联型结构可模拟声道谐振特性,能很好地逼近元音的频谱特性。这种形式结构简单,每个谐振器代表了一个共振峰特性,只需用一个参数来控制共振峰的幅度。 采用二阶数字滤波器的原因是因为它对单个共振峰特性提供了良好的物理模型;同时在相同的频谱精度上,低阶的数字滤波器量化的bit数较小,所以在计算上也十分有效。
共振峰式语音合成器 高级的共振峰合成器要求前四个共振峰频率以及前三个共振峰带宽都随时间变化;再高频率的共振峰参数变化可以忽略。 对于要求简单的场合,则只改变共振峰频率F1、F2、F3,而带宽是固定的。例如,前三个共振峰的带宽保持在60Hz、100Hz、120Hz。固定的共振峰带宽会影响合成语音的音质,这在合成鼻音时显得更为突出。 目前采用的模型中,声源和声道间是相互独立的,不考虑它们之间的相互作用。
共振峰式语音合成器 理想的方法是从自然语音样本出发,通过调整共振峰合成参数,使合成出的语音和自然语音样本在频谱的共振峰特性上最佳地匹配,即误差最小,此时的参数作为控制参数,这就是分析-合成法。
对于比较稳定的音素,如元音、摩擦音等,控制参数可以由孤立的发音来提取; 共振峰式语音合成器 为了避免连读时邻近音素的影响: 对于比较稳定的音素,如元音、摩擦音等,控制参数可以由孤立的发音来提取; 而对于瞬态的音素,如塞音,其特性受前后音素影响很大,其参数值应对不同连接情况下的自然语句取平均。
图12-2Computalker共振峰语音合成原理框图 共振峰式合成器实例 图12-2Computalker共振峰语音合成原理框图 中间的信号传输通道对应于口腔的发音,这是主要声道路径。元音和部分辅音通过此路径发音。 口腔语音不用鼻腔,而鼻音用口腔和鼻腔发音。因此发鼻音时要附加一并联于口腔的鼻腔,图中以一个鼻腔共振峰滤波器来模拟。 部分辅音如摩擦音的发音虽然也用口腔,但其共振峰不同,因此发这部分辅音时,用一摩擦音共振峰滤波器来模拟它。
图12-2Computalker共振峰语音合成原理框图 共振峰式合成器实例 图12-2Computalker共振峰语音合成原理框图 AN和AV为浊音的幅值控制,其中AN为鼻腔的幅值控制,而AV为非鼻音的浊音幅度控制。 AH和AF为清音的幅值控制,其中AH是送气音的幅值控制,而AF为摩擦音的幅值控制。 发送气音时(AH≠0)AV=0,AN=0。因为在生理学上,发浊音和发送气音是不会同时发生的。
图12-2Computalker共振峰语音合成原理框图 共振峰式合成器实例 图12-2Computalker共振峰语音合成原理框图 对于平均长度约为17cm的声道(男性),在3kHz范围内大致包含三个或四个共振峰,而在5kHz范围内包含四个或五个共振峰。高于5kHz的语音能量很小。 语音合成的研究表明:表示浊音最主要的是前三个共振峰,只要用前三个时变共振峰频率就可以得到可懂度很好的合成浊音。根据上述结论,主声道用三个共振峰滤波器
图12-2Computalker共振峰语音合成原理框图 共振峰式合成器实例 图12-2Computalker共振峰语音合成原理框图 发鼻音时,除用主声道(口腔)外,还附加(并联)一鼻音共振峰滤波器。 对某一特定人来说,鼻腔的外形和大小是相对不变的(时不变),因此没有对它的频率控制。 FF为摩擦音的共振峰频率控制,可根据不同的摩擦音,调节FF得到不同的摩擦音共振峰频率。 FV为对激励的频率控制,可根据不同的讲话者,调节FV得到不同的激励的基频。
共振峰式合成器 共振峰合成的优点 共振峰合成的缺点 由于它是对声道的一种比较准确的模拟,因此可以合成自然度比较高的语音。 参数不好控制,从而对声道的模拟不精确,会影响合成语音的质量和自然度
线性预测编码(LPC)参数合成 线性预测编码(LPC)参数合成是一种基于波形拼接的合成技术,主要从波形的直接录制和播放得到启发,本质上是一种时间波形的编码技术,主要是为了降低时间域信号的传输速率 LPC参数合成的优点: 简单直观,由于波形拼接技术的合成单元是语音的波形数据,保存了语音的全部数据,因此对每个合成单元的自然度较高。 LPC参数合成的缺点 只是简单进行波形拼接,语音生硬。
线性预测编码(LPC)参数合成 线性预测特点: 除了基音周期外,它可提取语音信号的全部谱特性,如共振峰频率、带宽和振幅等。 图12-3线性预测分析和合成系统 线性预测特点: 除了基音周期外,它可提取语音信号的全部谱特性,如共振峰频率、带宽和振幅等。 把具有音高和振幅的激励源和控制音素发音的声道滤波器分离开来,即把语音的许多韵律特性从分段语音信息中分离出来。 提供了由单词连接产生声音所需的总音调轮廓,增强了语音存储的灵活性,也容易进行已存储语音的合成。
线性预测编码(LPC)参数合成 线性预测合成器的原理是以全极点数字滤波器模型来模拟声道,而全极点滤波器的参数通过线性预测方程求解。 LPC全极点滤波器是一个无限滤波器( IIR滤波器) ,可以用各种不同的结构来实现。 线性预测合成器大大压缩了合成语音的数据量。 多脉冲线性预测合成器(MPLPC合成器):不论浊音还是清音,统一用一组脉冲去激励,简化了系统,提高了合成语音的自然度和顽健性。
线性预测编码(LPC)参数合成 线性预测合成的形式有两种: 一种是用预测器系数ai直接构成的递归型合成滤波器。这种结构简单而直观,为了合成一个语音样本,需要进行P次乘法和P次加法。 另一种是采用反射系数ki构成的格型合成滤波器。合成一个语音样本需要(2P-1)次乘法和(2P-1)次加法。 无论选用哪一种滤波器结构形式,LPC合成模型中所有的控制参数,都必须随时间不断修正。 预测系数的直接形式滤波器结构的优点是简单、易于实现,所以曾广泛被采用;其缺点是合成语音样本需要很高的计算精度。这是因为这种递归结构对系数的变化非常敏感,其微小变化可导致滤波器极点位置的很大变化,甚至出现不稳定现象。 采用反射系数ki的格型合成滤波器结构,虽然运算量大于直接型结构,却具有一系列优点:具有|ki|<1的性质,因而滤波器是稳定的;与直接结构形式相比,它对有限字长引起的量化效应灵敏度较低。
线性预测编码(LPC)参数合成 图12-4LPC系数构成的直接递归型合成滤波器
线性预测编码(LPC)参数合成 图12-5格型法合成波形示意图 由图可见,利用ki的合成方式,语音可以被近似原样合成出来,因而ki合成方式具有相当显著的优越性能。被公认为目前最好的合成方法,它已成功地应用于语音系统中,实用语音合成产品中绝大多数都采用格型滤波器结构。
线性预测编码(LPC)参数合成 P级分析格型和P级合成格型波波器整体结构图。 分析格型链上通道的末端与合成格型链上通道的始端相连接。 图12-6分析-合成格型滤波器整体结构 P级分析格型和P级合成格型波波器整体结构图。 分析格型链上通道的末端与合成格型链上通道的始端相连接。 两个格型链的下通道不相连,但分析链下通道的输出信号等于合成链下通道的输出信号。 两个格型链具有相同的反射系数k1,k2,…,kp,但反射系数排列的次序倒过来了,从中间向两边看,分析级和合成级成对出现。
线性预测编码(LPC)参数合成 格型滤波器用于语音分析和合成的参量有: ① 浊音、清音标志; ② 音高; ③ 总体振幅水平; ④ 反射系数。 前三个参量是关于激励源的,其中音高是关于格型滤波器的。 第三个参量是误差信号的平均振幅,就是总增益。 第四个参量是关于格型滤波器的。线性预测系数不适于进行量化,每一对系数的量化至少需要8~10bit。而ki适于进行量化,每一系数需要5~6bit。而进行存储的反射系数的个数等于线性预测的阶数。10阶常常只能得到低质量的语音,15阶才能得到高质量的语音。
语音合成关键技术 按照实现的功能来分,语音合成可分为两个档次: 有限词汇的计算机语音输出 基于语音合成技术的文字语音转换(Text To Speech) 语音合成系统一般应该有三个主要的组成部分: 文本分析模块、韵律分析模块、语音生成模块
语音合成关键技术 文本分析的主要功能: 文本分析的主要方法: 文本分析的主要工作步骤: 基于规则的方法 基于统计的方法 基于神经网络的方法 认识文字,进而知道要发什么音、怎样发音、哪些是词、哪些是短语或句子、以及停顿等问题。 文本分析的主要工作步骤: 将输入的文本规范化 分析文本中的词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符 根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的转换以及不同音的轻重方式 将输入的文字转换成计算机能够处理的内部参数 文本分析的主要方法: 基于规则的方法 基于统计的方法 基于神经网络的方法
语音合成关键技术 韵律生成 韵律生成方法 必要性:人类发音具有不同的声调,语气和停顿方式、发音的长短也不同 基于规则的方法 基于神经网络的方法
语音合成关键技术 语音生成 主要目的:根据韵律建模的结果,从原始语音库中取出相应的语音单元,利用特定的语音合成技术对语音单元进行韵律特性的调整和修改,最终合成符合要求的语音 语音生成方法 共振峰合成 线性预测编码参数合成 基音同步叠加合成
专用语音合成硬件及语音合成器芯片 语音合成面临的基本问题是: ① 如何取样以精确地抽取人类发音的主要特征。 ② 寻求什么样的网络特性以综合声道的频率响应。 ③ 输出合成声音的质量如何得到保证。 目前语音合成研究中针对的主要问题是: ① 自然度。合成语音的形成是机器根据要求,通过指定网络形成的。当最终输出特定内容的合成语音时,不可避免地会存在“机器音”的现象。 ② 音调。音调对语音自然度的影响是非常明显的,尤其是对于决定音调的基音的适当处理是一项困难的工作。“走调”,即基音周期不准,这在由机器输出合成语音过程时也是不可避免的。 ③ 辅音。辅音的处理在合成语音时是比较困难和复杂的。
专用语音合成硬件及语音合成器芯片 TMS 5220有二种用法: 一种是由CPU将存储在EPROM或ROM等存储器中的语音数据送入TMS 5220中; 另一种是TMS 5220直接使用专用存储器中所存储的语音数据。显然前者要灵活得多。 CPU可在二种方式下与TMS 5220协同工作: 一种是监控器件状态的工作方式 另一种是由TMS 5220产生的中断服务请求的响应方式。
专用语音合成硬件及语音合成器芯片 TMS 5220的关键部分是一个模拟人的发音声道的十阶格型LPC数字滤波器。这个滤波器有一个阵列乘法器,协助进行这项工作。滤波器的参数和激励信号都按帧刷新。 TMS 5220设计成每秒40帧,每帧50 bit,每一帧包括13个参数数据,其比特数分配如下: ① 能量4 bit; ② 重复帧标识参数1 bit; ③ 10个ki系数,其中k1、k2各5 bit,k3~k7各4 bit,k8~k10各3 bit,。
专用语音合成硬件及语音合成器芯片 TMS 5220的主要性能如下: ① 微机系统控制的高质量语音通信; ② 低数据率LPC编码; ③ 28脚双列直插式DIP集成器件; ④ 低成本PMOS工艺; ⑤ +5 V、-5 V电源; ⑥ 中断服务请求; ⑦ TTL电平兼容。
专用语音合成硬件及语音合成器芯片 图12-7TMS 5220的结构框图
专用语音合成硬件及语音合成器芯片 微处理器的任务是: ① 根据外部任务要求,选择需要合成的词或短语; ② 所需单词数据的起始地址的定位; 图12-8一个TMS 5220语音合成系统 微处理器的任务是: ① 根据外部任务要求,选择需要合成的词或短语; ② 所需单词数据的起始地址的定位; ③向TMS 5220的VSP发出外部讲话或内部讲话命令; ④ 在发出命令同时,控制从ROM或VSM取出所需的数据供VSP的语音合成器使用。
语音合成的应用 基于PC的办公、教学和娱乐等多媒体软件 声讯服务领域的智能电话查询,包括:股市查询、工商信息电话查询、电话银行等。
语音合成技术的应用 工商信息电话查询系统 本系统的功能是让用户可以通过电话查询到某一企业在工商局的注册信息。用户主要通过输入注册号、统一代码或者企业电话号码等来查询相应的企业信息。科大讯飞公司与IBM公司合作,采用电话语音识别技术来实现语音选择。用户只需口述企业名称(包括带一定模糊概念的口述,如“科大讯飞”或“讯飞”均可识别),即可直接得到该企业的一系列信息。与过去的按键听取相比,不仅方便了用户,还从很大程度上提高了查询效率,节约了用户的宝贵时间。另一方面,查询结果除了可以通过电话直接听取外,还可通过传真机接收到相关企业的详细信息(包括图像信息)。
语音合成技术的应用 电话银行系统 电话银行是一种金融电话服务,客户只要拨通专线电话,即可在语音提示下,享用查询、转账、挂失和更改密码等多项服务。目前,大多数电话银行系统都存在两大不足之处:(1)各种金额数目的报读不够流利、自然;(2)菜单选择通过按键完成,用户不便记忆,听语音提示较费时。 中科大讯飞公司开发的电话银行系统,通过采用与中国科大人机语音通信实验室合作研究的语音合成技术,有效地克服了上述第一个缺点,使金额数目的报读声音清晰、语流自然,避免了用户听错数目的可能,提高了用户的满意度。该公司正在与IBM合作,计划采用最新的电话语音识别技术来实现菜单的语音选择,使用户只要口述功能名(如“转账”、“查询余额”等),即可直接进入系统的服务流程,而不必层层听取语音提示再加按相应的键。这将极大地方便用户的使用,提高用户操作的准确度,并节约用户宝贵的时间。
语音合成技术的应用 股市查询系统 目前,股民了解股市行情,主要通过以下方式: 电台、电视等媒体—不够实时与方便; 股票机 电脑等个人终端—需要硬件投资且有地点限制; 股票交易所的大屏幕、查询终端—要求用户亲临现场。 股市查询系统使用户只要通过普通双音频电话,即可随时得到最新的股市行情。用户拨通查询台,根据语音提示选择相应的功能,即可获得所需的各种股市信息。同时,如果采用电话语音识别技术来实现个股的语音选择,用户只要口述个股名称,即可直接得到该股票的最新行情,而不必通过按键输入代号,从而方便用户使用,并节约用户的时间。
语音合成技术的应用 民航保单查询系统 语音合成技术可以起到很好的防伪效果。例如当旅客拿到一张民航保单时,如何确定它不是伪造的呢?他可以打电话到民航系统向服务小姐询问。语音合成技术完全可以取代服务小姐的工作,并提供更加快捷、准确的信息。旅客可以拨通某一个电话号码,在语音提示下,输入保险单号,则他就能听到用语音合成技术合成的该保单对应的航班号、被保险人姓名、乘机日期等语音信息,以验证该民航保单的真实性。根据电话号码的唯一性和语音合成技术的复杂性来确保民 航保单查询的可靠性。
语音合成的未来发展方向 提高合成语音的自然度 丰富合成语音的表现力 降低语音合成技术的复杂度 多语种文语合成
谢谢!