Download presentation
Presentation is loading. Please wait.
Published bySimon Carlsen Modified 5年之前
1
网页推荐 http://googlechinablog.com/2006/04/blog-post.html
数学之美 系列一 — 统计语言模型 By 吴军, Google 研究员
2
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
3
关键技术-声学建模 从发音描述到语音声学参数 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化
4
关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 语境变化带来音位变体,音段参数变化
韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征
5
关键技术-声学建模-韵律声学参数 图中绿色为预测值,红色实际计算值 韵律声学参数
音高(F0), 音高斜率(Slope),时长(Duration)
6
关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 韵律声学预测建模 语境变化带来音位变体,音段参数变化
韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征 韵律声学预测建模 任务:利用输入的韵律描述信息,计算每个基本单元的韵律声学参数分布概率 技术:决策树(Decision Tree), GMM (Gaussian Mixture Model)
7
DT and GMM 决策树的结构 聚类样本的概率分布-GMM 某叶子样本集F0分布 韵律状态问题集Q: { 声调、 q1 样本库 q2
左右声调、 边界、 左右边界、 。。。} q1 样本库 q2 q3 q4 q5 q6 q7 1 1.5 2 2.5 10 20 30 40 50 Mean GMM 叶子 聚类样本 某叶子样本集F0分布
8
关键技术-声学建模-韵律声学预测建模 韵律声学预测建模训练 两类模型 声学参数预测 基于决策树将数据库中所有样本依据韵律声学参数分类
由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM 两类模型 目标模型 转移模型 声学参数预测 利用输入的韵律描述信息,通过回答决策树每个节点关于韵律描述信息的问题,得到对应的叶子所关联的GMM
9
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
10
关键技术-最优搜索 最佳候选样本序列序列搜索 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间
依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列
11
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间
依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述
12
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间
依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP)
13
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间
依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP) Search Target Stream Occurrences Target Cost Transition Occurrence Stream
14
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
15
关键技术-波形处理 两种情形 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理
16
关键技术-波形处理 两种情形 技术 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理
PSOLA (Pitch Synchronous OverLap Add) 加窗
17
关键技术-波形处理-PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短
18
State-of-the-Art 通用系统, 5千句录音 个人系统, 326 句录音 英语系统, 8k 句录音
这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 个人系统, 326 句录音 英语系统, 8k 句录音 Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.
19
References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005
20
课程报告 语音合成专题 报告二,专题报告 (提交:4-14) 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称
四个专题选一: 数据库、文本分析、韵律模型、波形拼接/合成器 具体算法 篇幅要求:2页(5号字) 文件命名:学号_姓名_报告名称
Similar presentations