关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.

Slides:



Advertisements
Similar presentations
xīn yuàn 心 愿 夜深了,月亮透过窗帘,看见一个小女孩睡在 床上,身旁有个背包,里面装着水果和点心。 月亮自言自语地说: “ 明天孩子们去郊游,得去 跟太阳公公商量商量,让明天有个好天气。 ” 月亮又来到另一家的窗前,只见一个小女孩正在 照顾生病的妈妈。 妈妈说: “ 珍珍,早点儿睡吧,不要太累了,明.
Advertisements

lián n ǚ b è i zhu ā ng qì 帘 女 背 装 气 lìng gù bìng t ài lèi 另 顾 病 太 累 yī qi ā o lí hù 医 悄 离 户.
女 累 背 离 户 另 顾 太 悄 病 装 气 医 帘 lián nǚ bèi zhuāng qì 帘 女 背 装 气 lìng gù bìng tài lèi 另 顾 病 太 累 qiāo lí hù yī 悄 离 户 医.
绿色圃中小学教育网 xīn yuàn 心 愿 绿色圃中小学教育网 月亮.
窗帘 背包 服装 天气 女孩 照顾 生病 太累 医生 悄悄 离开 家家户户 另眼相看 我会读.
亮 明亮 漂亮 她又一双明亮的眼睛。 li á n n ǚ b ē i zhu ā ng qì 窗帘 女孩 背包 装着 天气 lìng gù bìng t à i 另一个 照顾 生病 太阳 lèi yī qi ā o lí hù 太累了 医生 悄悄 离开窗户.
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
小学六年级语文下册 《学 弈》《学 弈》《学 弈》《学 弈》 三人行,必有我师。读书百遍,其义自见。温故而知新。学而时习之。 1. 你怎样理解这些警句? 2. 跟我们平时所用的书面语言比较一下, 这些警句有什么特点? 读一读.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
莲 :荷花 芙蓉 芙蕖 晓出净慈寺送林子方 (宋) 杨万里 毕竟西湖六月中, 风光不与四时同。 接天莲叶无穷碧, 映日荷花别样红。
世界读书日 4月23日.
小蝌蚪找妈妈.
聆听美的声音 第一篇 听雨轩 表达意志和理想的诗,一般都显得壮阔铿锵,而描写乡愁和爱情的作品,一般都显得细腻而柔绵。 阅读领航第3小组
寻人启事 我是小蝌蚪,当我看到别的小动物们欢快地和自己的妈妈一起玩耍时,我多羡慕呀!可我不知道我的妈妈是谁?它在哪?听说咱们班的小朋友是最聪明的,请你们帮我找找妈妈吧!
古诗鉴赏 (常用答题方法 ).
第三课 氓.
二、信用工具和外汇.
设想有一天你身处这样的困境: 你该怎么办?
(语文).
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
第三讲 语音合成概述 背景 目标 基本问题 技术历程 典型系统.
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
作文训练: 突出中心.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
《就英法联军远征中国给巴特勒上尉的信》 说课教案 说课教师:孝义二中 李丹.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
公务卡使用说明.
贴近教学 服务师生 方便老师.
财务知识培训 杨 秀 玲 2014年10月.
小池 杨万里 泉眼无声惜细流, 树阴照水爱晴柔。 小荷才露尖尖角, 早有蜻蜓立上头.
爱 莲 说 周敦颐 爱 莲 说 周敦颐 水陆草木之花,可爱者甚蕃。晋陶渊明独爱菊。自李唐来,世人甚爱牡丹。予独爱莲之出淤泥而不染,濯清涟而不妖,中通外直,不蔓不枝,香远益清,亭亭净植,可远观而不可亵玩焉。 予谓菊,花之隐逸者也;牡丹,花之富贵者也;莲,花之君子者也。噫!菊之爱,陶后鲜有闻。莲之爱,同予者何人?牡丹之爱,宜乎众矣。
第一章会计技能的内容 1.1会计技能的重要性.
我的四季 张洁.
2008秋季四年级 语文期末笔试卷质量分析 主讲人:华美英
义务教育课程标准实验教科书二年级下册 玲玲的画 山东滨州市无棣县棣丰街道中心小学 曹雪敏. 生活中有些事真有意思!要是肯动 脑筋,坏事也能变成好事;要是肯动脑 筋,看来不可能办成的事也能办成。碰 到问题,我们要认真想想,找到解决问 题的办法,做个善于思考的孩子。
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
第三章 古代汉语语法 3—1古汉语语法及其研究 一、《马氏文通》以前的《古汉语研究》
樱花.
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
鸿门宴 临朐县职业教育中心学校 郭法春.
四季之歌 SIJIZHIGE 日月经天,江河行地,春风夏雨,秋霜冬雪。多姿多彩的大自然,陶冶了人们爱美的心灵,吸引了人们寻觅美、赞赏美的双眸,众多文人墨客高唱赞歌留下了无数千古绝唱。 今天,我们就一起来欣赏散文大家朱自清的名篇《春》。
词 五 首.
秋天的雨.
郢 人 《庄子》.

一、走进文本 1、《春》的作者是_______,字_____,号_____。原籍浙江绍兴人,现代的_______ ,______。他的______,________都是脍炙人口的名篇。 朱自清 佩弦 秋实 散文家 诗人 《背影》 《荷塘月色》
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
陈情表 忠则《出师》, 孝则《陈情》。.
1 Introduction Prof. Lin-Shan Lee.
学习报告 —语音转换(voice conversion)
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
31 女娲补天.
29 父亲和鸟.
  你喜欢鸟吗?这些鸟可爱吗?.   你喜欢鸟吗?这些鸟可爱吗?   自己读通课文,不认识的字借助拼音读准,把课后“我会认”里出现的字多读几遍。   小组内的同学互相指读课文和生字。比一比,看谁读得准确。
一九九四年九月五日.
The First Course in Speech Lab
闖關卡 恭喜你通過所有的考驗! 你是超級厲害的棒! 三年 班 號 姓名: 有色眼鏡 占心數 九九神功 你真棒! 神奇敲敲樂 魔陣密碼
1 Introduction Prof. Lin-Shan Lee.
API文档分析 张静宣 大连理工大学 2017年11月3日.
延安纺车抒怀 吴伯箫 纺线.
维吾尔语音合成技术研究报告 艾斯卡尔·艾木都拉 博士 教授 新疆大学信息科学与工程学院 新疆大学多语种信息技术重点实验室
西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉
网页推荐 数学之美 系列一 — 统计语言模型 By 吴军, Google 研究员.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
高级大数据人才培养丛书之一,大数据挖掘技术与应用
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-数据库构建 数据库的作用 合成单元 训练数据 前端模型 后端模型 annotated corpus prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型

关键技术-数据库构建 数据库的作用 数据库的设计,TTS系统技术路线的体现 合成单元 训练数据 覆盖所有基本单元及其变体 前端模型 后端模型 prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型 数据库的设计,TTS系统技术路线的体现 覆盖所有基本单元及其变体 音位变体 韵律变体

关键技术-数据库构建 数据库的作用 数据库的设计,TTS系统技术路线的体现 数据库加工 合成单元 训练数据 覆盖所有基本单元及其变体 prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型 数据库的设计,TTS系统技术路线的体现 覆盖所有基本单元及其变体 音位变体 韵律变体 数据库加工 录音 标注

数据库的设计 系统目标分析-数据库任务分析 通用系统数据库 基本单元确定 规模 内容 文本设计 具体指标 来源 - 文本数据库 覆盖 - 基本单元,语境分类 指标 - 累积频度 具体指标 基本单元: 音节,100%覆盖 语境音节(SV: Syllable Vector):左、右声调,左、右音位类别 评价指标:语境音节累积频度 实施:基于文本数据库统计的句子的挑选

文本设计结果

数据库加工 录音 标注 韵律标注实施 – 人工 加快数据加工进程 音段 韵律 标注内容 流程定义 质量:准确性、一致性 流程标准化 手段自动化 韵律的自动标注 – 文本+声学信息

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-文本处理 从文字到发音描述 如何描述发音-韵律 发什么音,音位预测 如何发音,音位变体及韵律预测 从语用的角度描述韵律,即韵律事件(初敏、施勤的工作) 从功能的角度,韵律的交际功能(许毅的工作)

关键技术- 文本处理-韵律描述 韵律层级结构:韵律词、韵律短语、语调短语 其它的韵律现象:语调、重音、情感

关键技术-文本处理 从文字到发音描述 如何描述发音-韵律 韵律事件预测建模 发什么音,音位预测 如何发音,音位变体及韵律预测 从语用的角度描述韵律,即韵律事件 韵律事件预测建模 任务:利用分词、词性、字长等信息计算出输入文字最大可能的韵律状态分布 技术:DP (Dynamic Programming), DT (Decision Tree)

关键技术-文本处理-韵律事件预测建模 数学描述 求解 wn待合成的词序列 xn对应的语言学特征 an对应的韵律边界-层级结构 DP+DT 词典词,词长 POS an对应的韵律边界-层级结构 求解 DP+DT PW -> PP -> IP

韵律事件预测 – 实例 Input lexical word layer: 他(rn) 靠(pg) 打工(vgo) 买来(vgn) 旧(ag) 乒乓球(ng) 桌(ng) ,(w2) 拚(vg) 命(ng) 练习(ng) ,(w2) 是(vy) 日本(npr) 体坛(ng) 公认(vgo) 的(usde) 勤奋(ag) 者(kn) 。(w1) OutPut PWord Layer: 他靠 rm_pg 打工 vg 买来 vg 旧 ag 乒乓球桌 ng , w2 拚命vg 练习 ng , w2 是 vg 日本 ng 体坛 ng 公认的 ag 勤奋者 ag_ng 。 w1 OutPut PPhrase Layer: 他靠打工 买来旧乒乓球桌 , 拚命练习 , 是日本体坛 公认的勤奋者 。 OutPut IPhrase Layer: 他靠打工买来旧乒乓球桌 ,拚命练习 , 是日本体坛公认的勤奋者 。

参考文献 [1] Zhu Weibin, “CORPUS BUILDING FOR DATA-DRIVEN TTS SYSTEMS”, IEEE 2002 Speech Synthesis Workshop [2] Li Haiping, “The Context Variation Unit Vector”, ICSLP 2002 [3] Shi Qin, “Statistic Prosody Structure Prediction Based on Annotated Corpus”, IEEE 2002 Speech Synthesis Workshop [4] Shi Qin, “COMPARISONS AMONG FOUR STATISTICS BASED METHODS OF PROSODY STRUCTURE PREDICTION”, NCMMSC 2003

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-声学建模 从发音描述到语音声学参数 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化

关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征

关键技术-声学建模-韵律声学参数 图中绿色为预测值,红色实际计算值 韵律声学参数 音高(F0), 音高斜率(Slope),时长(Duration)

关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 韵律声学预测建模 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征 韵律声学预测建模 任务:利用输入的韵律描述信息,计算每个基本单元的韵律声学参数分布概率 技术:决策树(Decision Tree), GMM (Gaussian Mixture Model)

DT and GMM 决策树的结构 聚类样本的概率分布-GMM 某叶子样本集F0分布 韵律状态问题集Q: { 声调、 q1 样本库 q2 左右声调、 边界、 左右边界、 。。。} q1 样本库 q2 q3 q4 q5 q6 q7 1 1.5 2 2.5 10 20 30 40 50 Mean GMM 叶子 聚类样本 某叶子样本集F0分布

关键技术-声学建模-韵律声学预测建模 韵律声学预测建模训练 两类模型 声学参数预测 基于决策树将数据库中所有样本依据韵律声学参数分类 由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM 两类模型 目标模型 转移模型 声学参数预测 利用输入的韵律描述信息,通过回答决策树每个节点关于韵律描述信息的问题,得到对应的叶子所关联的GMM

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-最优搜索 最佳候选样本序列序列搜索 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP)

关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP) Search Target Stream Occurrences Target Cost Transition Occurrence Stream

References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理

关键技术-波形处理 两种情形 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理

关键技术-波形处理 两种情形 技术 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理 PSOLA (Pitch Synchronous OverLap Add) 加窗

关键技术-波形处理-PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短

State-of-the-Art 通用系统, 5千句录音 个人系统, 326 句录音 英语系统, 8k 句录音 这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 个人系统, 326 句录音 英语系统, 8k 句录音 Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.