语音合成(speech synthesis)

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

关于中国色情产业合法化的伦理学讨论 张雅萱 周嘉言 史翔瑞 詹智超.
牙刷十大創意行銷企劃 指導老師:簡南山老師 4A 劉家汶 4A 楊雅涵 4A 許晉嘉 4A 何怡蓁 4A 莊倖怡 0A20F144 王珮.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
教務處註冊組 /7 (二) 10 : 00 至 15 : 00 止 ★ 6/8 彙整報名資料後, 6/9 向高中承 辦學校報名 ★ 因校內作業時間緊迫,逾時恕不 受理。 校內報名時間.
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
2016夏季成人主日學課程 洛麗華人基督教會 林牧師 8/14/2016
三水区安监局 企业安全用电 2013年4月.
梦想启航 ——大学生活与职业规划专题讲座.
河北保定外国语学校 高三家长会.
企业价值收益法评估 ----财务报表调整 主讲人:阮咏华 1.
申請赴大陸姊妹校 擔任交換學生 簡介及流程 朝陽科技大學 Chaoyang University of Technology.
广西师范大学教科院马佳宏 电 话 0773- (O) 高校教师资格认定考试的若干事项 广西师范大学教科院马佳宏 电 话 0773- (O)
以信息化带动教育现代化,打造教育的“南山质量”
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
一个中国孩子的呼声.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
2016年道德讲堂 慈善知识讲座 主讲人:田睿. 2016年道德讲堂 慈善知识讲座 主讲人:田睿.
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
职 业 礼 仪 讲师:刘巍女士.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
李建民 教授 北京百川健康科学研究院 脊柱健康技术研究中心
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
欢迎南京市政治学科的教研同仁 光临指导.
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
律师公司业务实务 北京市嘉润道和律师事务所 龚志忠 2011年10月21日.
第35届北京青少年科技创新大赛 网上申报 北京青少年科技中心 2014年12月8日 李佳熹.
新高考研究介绍 湖北省教育考试院项目研究组.
如东中专 学校文化课现状及提升举措的思考
三大自然区的内部差异 地理 全日制普通高级中学教科书(选修) 第二册 人民教育出版社地理社会室 编著 人民教育出版社 关于.
第3讲 时间管理.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
采购控制程序 2008年9月.
单位:十堰离退休职工服务中心 时间:2016年2月1日
中国家电企业如何打造全球化品牌 黄 辉.
企業政策作業-電影魔球分析 姓名:曾怡靜 班級:企三甲 學號:4A0F0094.
四川信托-汇誉10号集合资金信托计划.
《现代大学 英语》 说课程 公共课部 臧朝晖 益阳医学高等专科学校.
保大人还是保小孩 ---产房里的伦理学问题 小组成员 蔡婷 基础医学系 郭灵飞 基础医学系
超星尔雅 tsk.erya100.chaoxing.com 网络通识课程学习指导.
中药学 第十一章 祛风湿药.
形势与政策 2016年上.
幼儿园班务管理实践.
中 医 内 科 学 第一章 第一节 感冒.
授課大綱 第一章 緒 論 第一節 應用文的意義 第二節 應用文的種類 第二章 書 信 第一節 書信的種類 第二節 書信的結構 第三章 便 條
第三章 人类社会及其发展规律.
摩擦力.
小太陽兒童人文藝術學院兒童畫展 地點:住院大樓9F、11F外走道( )
團體衛生教育護理創意競賽 報告者:護理科 計畫主持人邱馨誼講師
如何检索统计申请与在研项目(科研人员) “科研之友”技术支持小组
新竹縣108學年度第1次國小以上 特殊教育鑑定安置說明會
進修學院與我.
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
慈惠醫護管理專科學校圖書館 館際合作使用方法.
“上海市教师教育课程资源共享管理平台” 学分银行操作指南
统计学 第7章 参数估计 教师:张文利.
义务教育课程标准实验教科书 小学语文 四年级 下册
「同根同心」- 交流計劃 廣州及珠三角經濟發展兩天考察團 2016
第12章 语音合成.
Presentation transcript:

语音合成(speech synthesis) 概述 共振峰合成法 线性预测合成法 TTS合成技术

概述 一、语音合成定义 二、语音合成技术的应用 三、语音合成的方法

一、语音合成定义 解决如何让机器象人说话的问题。其目的:能将任意文本实时地转换为自然语音输出,且输出的语音清晰可懂。

二、语音合成技术的应用 语音是信息传播的一大媒介。近年来,提供语音服务的语音系统迅速发展起来。传统的语音系统一般采用预录音回放技术,由于这种方法必须对信息文本事先进行录音,并存为声音文件,因此,所占用的存储空间很大。另外,一个更大的缺点是不能实时反映信息的更新,应用范围有很大的局限性。

传统的语音系统 回放 输入语音 录音 wav 恢复语音 语音 压缩编码

现在的语音合成技术,无需对大量的信息进行录音,极大地减少了工作量和节省了存储空间,尤其是在信息内容需要经常变动的动态查询场合,如股市行情查询、有声Email系统,都是传统的预录音技术无法代劳的。结合其他技术,语音合成技术可以广泛应用于金融、邮电、工商、 政府机关、交通、教育、游戏等领域。

工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。 几个语音合成技术的应用实例 1. 电话查询系统 工商信息电话查询系统、银行电话查询系统、股票查询系统、交通信息查询系统、考试成绩查询系统等。

2.教育与娱乐软件   普通话教学软件是帮助想学普通话的用户, 以往的普通话教学软件只是将预先录好音的单词逐个读给用户听,有了语音合成技术,可以将任意文本中的整句话、整段话读给用户听,学习效率明显提高。

游戏软件 现在计算机游戏中的人物,或者不会说话,或者只会“ 播放”已经录好的声音。利用语音合成, 游戏中的人物可以说出任意的话语,不同的人物可以通过选用不同的音库而形成不同的说话风格。增加了游戏的趣味性和互动性

三、语音合成技术方法 1. 语音信号的波形合成(录音合成技术) 采用数字存储技术存储基本的语音信息。 在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩。

直接录放流程 录音 wav 回放 语音 压缩编码

波形合成方法 语音库 (语音单元) 语音的波形 编码 挑选 组合 回放 输入语音 合成语音

2. 语音信号的参数合成 根据语音产生的数学模型,利用短时平稳性,提出每帧语音信号的参数,这些参数经编码后组成一个语音参数库。输出时,从语音参数库中取出相应的参数,利用语音产生的数学模型恢复语音。共振峰合成和线性预测合成是该类合成技术中的重要方法。

3. 语音信号的规则合成 将任意文本转换成声音的系统。包括语言学和声学处理。合成的词汇不是事先确定。常见的就是文语转换合成技术 text-to-speech (TTS)。 系统中存储的是音素的声学参数,以及由音素组成音节、由音节组成词、由词组成句子的规则;控制音调、轻重音等韵律的各种规则。

给出待合成的字母或文字后,根据语义规则和语音规则,确定每个字的音素的组成和句子的低层结构。为每一个词、每一个音节确定重音等级和语句结构及语调,其中包括各种停顿等,这样,文字串就变成了代码串。 声学处理就利用规则将代码串转换成连续的语音波。

欢迎使用微软中国研究院中文语音合成系统 采用TTS技术合成语音 http://research. Microsoft.com/speech/tts

We can read of things that happened 5,000 years ago in the Near East,where people first learned to write.

Guilin university of electronic technology

§8.2 共振峰合成法 一、共振峰合成的原理 二、共振峰合成的方法

一、共振峰合成的原理 Av 辐射 线性系统 模型 声道V(z) R(z) 基音周期TP AN 语音的生成模型 冲激序列 声门脉冲 发生器 模型G(z) Av 线性系统 声道V(z) 辐射 模型 R(z) 清/浊音开关 基音周期TP 随机噪声 发生器 AN 语音的生成模型

利用语音信号的生成模型,将声道视为一个谐振腔,利用腔体的谐振特性,共振峰频率及其带宽,为此构造一个共振峰滤波器。对激励信号进行处理,可到合成语音。 冲激序列 发生器 声门脉冲 模型G(z) Av 共振峰滤波器 清/浊音开关 基音周期TP 随机噪声 发生器 AN

二、共振峰合成方法 浊音激励 清音激励 鼻腔 共振峰 滤波器 AN AV FV 第一 共振峰 滤波器 第二 共振峰 滤波器 第三 共振峰 AH 清音激励 LF1 LF2 LF3 AF 摩擦音 共振峰 滤波器 FF

可控制的参数共有10个: (1)4个幅值控制AV、AN、 AH、 AF (2)5个频率控制FV(浊音基频)、LF1、LF2、LF3、FF (3)1个清/浊音开关

§8.3 线性预测合成法(LPC编码) 将语音生成模型简化,将辐射、声道和声门激励进行组合,用一个时变数字滤波器来表示。 u(n) x(n) 冲激 序列 发生器 u(n) x(n) 随机 噪声 发生器

格型滤波器语音合成技术框图 k1 k2 线性 预测 分析 参数 输入语音x(n) kp 合成 基音频率 合成 语音 基音频率 清/浊音判别 清/浊音标志 G

§8.4 TTS合成技术 一、TTS合成技术的应用 二、TTS合成系统的构成 三、文本分析 四、韵律控制 五、语音合成方法

一、TTS合成技术的应用 1.可以用于各种智能系统,如信息查询系统、自动售票系统或残疾人的辅助交流工具。 2.可以用于通信设备或一些数字产品,这样传递的信息不是语音,而是文字,在通信设备的终端将文字信息转换为语音即可,由于每个文字占用两个字节,因而极具有价值

二、TTS系统的构成 韵律控制 合成模块 输出 文本 文本分析 语音数据库 对输入文本进行分析切割出字词以后,通过语音合成方法把这些字词的发音合成出来,并串接起来,通过韵律调整,就可以得到较为自然的语句的发音。

三.文本分析 1.文本分析的主要功能: 主要功能是使计算机能够识别文字,并根据文本的上、下文关系在一定程度上对文本进行理解,将发音的方式告诉计算机;另外,还要让计算机知道文本中哪些是短语、句子,发音时到哪应该停顿,停顿多长等等。

2.文本分析工作的三个主要步骤: (1)将输入的文本规范化,处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符滤掉; (2)分析文本中的词或短语的边界,确定文字的读音。 (3)根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同音的轻重方式。

3.文本分析系统的基本框图 自动分词 系统词库 多音字处理 多音字词库 声调判断 变调规则库 特殊声调调整 特殊声调 规则 特殊符号 停顿处理

自动分词 对句子以系统词库为模板用最大匹配的方法进行分词,从系统词库中提取相应的读音、声调和时长信息作为控制参数。

多音字处理 对自动分词处理后的句子中余下的字,首先查找多音字表,若不是多音字,则检索标准字库,取得该字的读音和声调;若是多音字,则根据在多音字库中得到的信息从特征词库中读取相应的信息,选择恰当的读音和声调。

声调调整 根据变调规则库中的规则,对每个字的声调做一些调整,在词与词之间加入适当的停顿信息。

4.文本分析的输出 常见的文本分析方法:二元文法、HMM和神经网络法等。 将输入的文字转换成计算机能够处理的内部参数(每个词的发音声母+韵母+声调),便于后续模块进一步处理并生成相应的信息。 常见的文本分析方法:二元文法、HMM和神经网络法等。

四、语音合成方法 1. 语音合成部分的主要功能: 首先合成字的声母,再合成它的韵母,然后将韵母的声调调整到所需要的声调上,然后将声母和韵母连接起来得到最终合成的语音。

音节 声母 韵母 单独发声的一个音节或是语音流中的任何一个音节都可能由7部分组成。 鼻音段 声母辅音段 元音段 送气段 前过渡段 后过渡段 无声段

2.语音数据库 (1)汉字拼音库: 每个汉字的拼音信息是一个二进制文件,其形式为:声母+韵母+声调标号。 (2)声母表:22个声母的波形 (3)韵母表:38个韵母的波形(基音同步帧、过渡音和鼻音) (4)声调曲线:不同声调的声调曲线 。

3.语音合成步骤 拼音信息 声母 韵母 声调 基音同步帧、 过渡音和鼻音库 声母库 声调曲线库 合成韵母 幅度调整 叠接 合成语音

五、韵律控制 韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数来体现,通过控制这些参数达到对韵律的控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。

基音同步帧周期的调整 把原始的基音周期调整为指定的基音周期,调整后的基音同步帧波形要与原始基音同步帧相似,幅度要基本相等。

THANKS