语音合成(speech synthesis) 概述 共振峰合成法 线性预测合成法 TTS合成技术
概述 一、语音合成定义 二、语音合成技术的应用 三、语音合成的方法
一、语音合成定义 解决如何让机器象人说话的问题。其目的:能将任意文本实时地转换为自然语音输出,且输出的语音清晰可懂。
二、语音合成技术的应用 语音是信息传播的一大媒介。近年来,提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术,由于这种方法必须对信息文本事先进行录音,并存为声音文件,因此,所占用的存储空间很大。另外,一个更大的缺点是不能实时反映信息的更新,应用范围有很大的局限性。
传统的语音系统 回放 输入语音 录音 wav 恢复语音 语音 压缩编码
现在的语音合成技术,无需对大量的信息进行录音,极大地减少了工作量和节省了存储空间,尤其是在信息内容需要经常变动的动态查询场合,如股市行情查询、有声Email系统,都是传统的预录音技术无法代劳的。结合其他技术,语音合成技术可以广泛应用于金融、邮电、工商、 政府机关、交通、教育、游戏等领域。
工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。 几个语音合成技术的应用实例 1. 电话查询系统 工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。
2.教育与娱乐软件 普通话教学软件是帮助想学普通话的用户, 以往的普通话教学软件只是将预先录好音的单词逐个读给用户听,有了语音合成技术,可以将任意文本中的整句话、整段话读给用户听,学习效率明显提高。
游戏软件 现在计算机游戏中的人物,或者不会说话,或者只会“ 播放”已经录好的声音。利用语音合成, 游戏中的人物可以说出任意的话语,不同的人物可以通过选用不同的音库而形成不同的说话风格。增加了游戏的趣味性和互动性
三、语音合成技术方法 1. 语音信号的波形合成(录音合成技术) 采用数字存储技术存储基本的语音信息。 在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。
直接录放流程 录音 wav 回放 语音 压缩编码
波形合成方法 语音库 (语音单元) 语音的波形 编码 挑选 组合 回放 输入语音 合成语音
2. 语音信号的参数合成 根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语音参数库。输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。
3. 语音信号的规则合成 将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术 text-to-speech (TTS)。 系统中存储的是音素的声学参数,以及由音素组成音节、由音节组成词、由词组成句子的规则;控制音调、轻重音等韵律的各种规则。
给出待合成的字母或文字后,根据语义规则和语音规则,确定每个字的音素的组成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及语调,其中包括各种停顿等,这样,文字串就变成了代码串。 声学处理就利用规则将代码串转换成连续的语音波。
欢迎使用微软中国研究院中文语音合成系统 采用TTS技术合成语音 http://research. Microsoft.com/speech/tts
We can read of things that happened 5,000 years ago in the Near East,where people first learned to write.
Guilin university of electronic technology
§8.2 共振峰合成法 一、共振峰合成的原理 二、共振峰合成的方法
一、共振峰合成的原理 Av 辐射 线性系统 模型 声道V(z) R(z) 基音周期TP AN 语音的生成模型 冲激序列 声门脉冲 发生器 模型G(z) Av 线性系统 声道V(z) 辐射 模型 R(z) 清/浊音开关 基音周期TP 随机噪声 发生器 AN 语音的生成模型
利用语音信号的生成模型,将声道视为一个谐振腔,利用腔体的谐振特性,共振峰频率及其带宽,为此构造一个共振峰滤波器。对激励信号进行处理,可到合成语音。 冲激序列 发生器 声门脉冲 模型G(z) Av 共振峰滤波器 清/浊音开关 基音周期TP 随机噪声 发生器 AN
二、共振峰合成方法 浊音激励 清音激励 鼻腔 共振峰 滤波器 AN AV FV 第一 共振峰 滤波器 第二 共振峰 滤波器 第三 共振峰 AH 清音激励 LF1 LF2 LF3 AF 摩擦音 共振峰 滤波器 FF
可控制的参数共有10个: (1)4个幅值控制AV、AN、 AH、 AF (2)5个频率控制FV(浊音基频)、LF1、LF2、LF3、FF (3)1个清/浊音开关
§8.3 线性预测合成法(LPC编码) 将语音生成模型简化,将辐射、声道和声门激励进行组合,用一个时变数字滤波器来表示。 u(n) x(n) 冲激 序列 发生器 u(n) x(n) 随机 噪声 发生器
格型滤波器语音合成技术框图 k1 k2 线性 预测 分析 参数 输入语音x(n) kp 合成 基音频率 合成 语音 基音频率 清/浊音判别 清/浊音标志 G
§8.4 TTS合成技术 一、TTS合成技术的应用 二、TTS合成系统的构成 三、文本分析 四、韵律控制 五、语音合成方法
一、TTS合成技术的应用 1.可以用于各种智能系统,如信息查询系统、自动售票系统或残疾人的辅助交流工具。 2.可以用于通信设备或一些数字产品,这样传递的信息不是语音,而是文字,在通信设备的终端将文字信息转换为语音即可,由于每个文字占用两个字节,因而极具有价值
二、TTS系统的构成 韵律控制 合成模块 输出 文本 文本分析 语音数据库 对输入文本进行分析切割出字词以后,通过语音合成方法把这些字词的发音合成出来,并串接起来,通过韵律调整,就可以得到较为自然的语句的发音。
三.文本分析 1.文本分析的主要功能: 主要功能是使计算机能够识别文字,并根据文本的上、下文关系在一定程度上对文本进行理解,将发音的方式告诉计算机;另外,还要让计算机知道文本中哪些是短语、句子,发音时到哪应该停顿,停顿多长等等。
2.文本分析工作的三个主要步骤: (1)将输入的文本规范化,处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符滤掉; (2)分析文本中的词或短语的边界,确定文字的读音。 (3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式。
3.文本分析系统的基本框图 自动分词 系统词库 多音字处理 多音字词库 声调判断 变调规则库 特殊声调调整 特殊声调 规则 特殊符号 停顿处理
自动分词 对句子以系统词库为模板用最大匹配的方法进行分词,从系统词库中提取相应的读音、声调和时长信息作为控制参数。
多音字处理 对自动分词处理后的句子中余下的字,首先查找多音字表,若不是多音字,则检索标准字库,取得该字的读音和声调;若是多音字,则根据在多音字库中得到的信息从特征词库中读取相应的信息,选择恰当的读音和声调。
声调调整 根据变调规则库中的规则,对每个字的声调做一些调整,在词与词之间加入适当的停顿信息。
4.文本分析的输出 常见的文本分析方法:二元文法、HMM和神经网络法等。 将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母+韵母+声调),便于后续模块进一步处理并生成相应的信息。 常见的文本分析方法:二元文法、HMM和神经网络法等。
四、语音合成方法 1. 语音合成部分的主要功能: 首先合成字的声母,再合成它的韵母,然后将韵母的声调调整到所需要的声调上,然后将声母和韵母连接起来得到最终合成的语音。
音节 声母 韵母 单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。 鼻音段 声母辅音段 元音段 送气段 前过渡段 后过渡段 无声段
2.语音数据库 (1)汉字拼音库: 每个汉字的拼音信息是一个二进制文件,其形式为:声母+韵母+声调标号。 (2)声母表:22个声母的波形 (3)韵母表:38个韵母的波形(基音同步帧、过渡音和鼻音) (4)声调曲线:不同声调的声调曲线 。
3.语音合成步骤 拼音信息 声母 韵母 声调 基音同步帧、 过渡音和鼻音库 声母库 声调曲线库 合成韵母 幅度调整 叠接 合成语音
五、韵律控制 韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数来体现,通过控制这些参数达到对韵律的控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。
基音同步帧周期的调整 把原始的基音周期调整为指定的基音周期,调整后的基音同步帧波形要与原始基音同步帧相似,幅度要基本相等。
THANKS