关键技术数据库构建文本处理声学建模最优搜索波形处理.

关键技术数据库构建文本处理声学建模最优搜索波形处理

关键技术-数据库构建数据库的作用合成单元训练数据前端模型后端模型 annotated corpus prosodic event
phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用合成单元训练数据前端模型后端模型

关键技术-数据库构建数据库的作用数据库的设计，TTS系统技术路线的体现合成单元训练数据覆盖所有基本单元及其变体前端模型后端模型
prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用合成单元训练数据前端模型后端模型数据库的设计，TTS系统技术路线的体现覆盖所有基本单元及其变体音位变体韵律变体

关键技术-数据库构建数据库的作用数据库的设计，TTS系统技术路线的体现数据库加工合成单元训练数据覆盖所有基本单元及其变体
prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用合成单元训练数据前端模型后端模型数据库的设计，TTS系统技术路线的体现覆盖所有基本单元及其变体音位变体韵律变体数据库加工录音标注

数据库的设计系统目标分析-数据库任务分析通用系统数据库基本单元确定规模内容文本设计具体指标
来源 - 文本数据库覆盖 - 基本单元，语境分类指标 - 累积频度具体指标基本单元: 音节，100%覆盖语境音节（SV: Syllable Vector）：左、右声调，左、右音位类别评价指标：语境音节累积频度实施：基于文本数据库统计的句子的挑选

文本设计结果

数据库加工录音标注韵律标注实施 – 人工加快数据加工进程音段韵律标注内容流程定义质量：准确性、一致性流程标准化
手段自动化韵律的自动标注 – 文本+声学信息

关键技术-文本处理从文字到发音描述如何描述发音-韵律发什么音，音位预测如何发音，音位变体及韵律预测
从语用的角度描述韵律，即韵律事件（初敏、施勤的工作）从功能的角度，韵律的交际功能（许毅的工作）

关键技术- 文本处理-韵律描述韵律层级结构：韵律词、韵律短语、语调短语其它的韵律现象：语调、重音、情感

关键技术-文本处理从文字到发音描述如何描述发音-韵律韵律事件预测建模发什么音，音位预测如何发音，音位变体及韵律预测
从语用的角度描述韵律，即韵律事件韵律事件预测建模任务：利用分词、词性、字长等信息计算出输入文字最大可能的韵律状态分布技术：DP (Dynamic Programming), DT (Decision Tree)

关键技术-文本处理-韵律事件预测建模数学描述求解 wn待合成的词序列 xn对应的语言学特征 an对应的韵律边界-层级结构 DP+DT
词典词，词长 POS an对应的韵律边界-层级结构求解 DP+DT PW -> PP -> IP

韵律事件预测 – 实例 Input lexical word layer:
他(rn) 靠(pg) 打工(vgo) 买来(vgn) 旧(ag) 乒乓球(ng) 桌(ng) ，(w2) 拚(vg) 命(ng) 练习(ng) ，(w2) 是(vy) 日本(npr) 体坛(ng) 公认(vgo) 的(usde) 勤奋(ag) 者(kn) 。(w1) OutPut PWord Layer: 他靠 rm_pg 打工 vg 买来 vg 旧 ag 乒乓球桌 ng ， w2 拚命vg 练习 ng ， w2 是 vg 日本 ng 体坛 ng 公认的 ag 勤奋者 ag_ng 。 w1 OutPut PPhrase Layer: 他靠打工买来旧乒乓球桌，拚命练习，是日本体坛公认的勤奋者。 OutPut IPhrase Layer: 他靠打工买来旧乒乓球桌，拚命练习，是日本体坛公认的勤奋者。

参考文献 [1] Zhu Weibin, “CORPUS BUILDING FOR DATA-DRIVEN TTS SYSTEMS”, IEEE 2002 Speech Synthesis Workshop [2] Li Haiping, “The Context Variation Unit Vector”, ICSLP 2002 [3] Shi Qin, “Statistic Prosody Structure Prediction Based on Annotated Corpus”, IEEE 2002 Speech Synthesis Workshop [4] Shi Qin, “COMPARISONS AMONG FOUR STATISTICS BASED METHODS OF PROSODY STRUCTURE PREDICTION”, NCMMSC 2003

关键技术-声学建模从发音描述到语音声学参数语境变化带来音位变体，音段参数变化韵律变化带来基本单元韵律声学参数的变化

关键技术-声学建模从发音描述到语音声学参数如何“声学地”刻画韵律语境变化带来音位变体，音段参数变化
韵律变化带来基本单元韵律声学参数的变化如何“声学地”刻画韵律基于每个基本单元韵律声学参数，表现整个语句的韵律声学特征

关键技术-声学建模-韵律声学参数图中绿色为预测值，红色实际计算值韵律声学参数
音高(F0), 音高斜率(Slope)，时长(Duration)

关键技术-声学建模从发音描述到语音声学参数如何“声学地”刻画韵律韵律声学预测建模语境变化带来音位变体，音段参数变化
韵律变化带来基本单元韵律声学参数的变化如何“声学地”刻画韵律基于每个基本单元韵律声学参数，表现整个语句的韵律声学特征韵律声学预测建模任务：利用输入的韵律描述信息，计算每个基本单元的韵律声学参数分布概率技术：决策树（Decision Tree）， GMM (Gaussian Mixture Model)

DT and GMM 决策树的结构聚类样本的概率分布－GMM 某叶子样本集F0分布韵律状态问题集Q: { 声调、 q1 样本库 q2
左右声调、边界、左右边界、。。。｝ q1 样本库 q2 q3 q4 q5 q6 q7 1 1.5 2 2.5 10 20 30 40 50 Mean GMM 叶子聚类样本某叶子样本集F0分布

关键技术-声学建模-韵律声学预测建模韵律声学预测建模训练两类模型声学参数预测基于决策树将数据库中所有样本依据韵律声学参数分类
由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM 两类模型目标模型转移模型声学参数预测利用输入的韵律描述信息，通过回答决策树每个节点关于韵律描述信息的问题，得到对应的叶子所关联的GMM

关键技术－最优搜索最佳候选样本序列序列搜索每个基本单元（音节）在数据库中有多个样本，构成合成样本搜索空间
依据预测模型，综合目标预测和转移预测概率，计算具有最大可能性的样本序列，构成合成样本序列

关键技术－最优搜索最佳候选样本序列序列搜索数学描述每个基本单元（音节）在数据库中有多个样本，构成合成样本搜索空间
依据预测模型，综合目标预测和转移预测概率，计算具有最大可能性的样本序列，构成合成样本序列数学描述

关键技术－最优搜索最佳候选样本序列序列搜索数学描述技术每个基本单元（音节）在数据库中有多个样本，构成合成样本搜索空间
依据预测模型，综合目标预测和转移预测概率，计算具有最大可能性的样本序列，构成合成样本序列数学描述技术动态规划（DP）

关键技术－最优搜索最佳候选样本序列序列搜索数学描述技术每个基本单元（音节）在数据库中有多个样本，构成合成样本搜索空间
依据预测模型，综合目标预测和转移预测概率，计算具有最大可能性的样本序列，构成合成样本序列数学描述技术动态规划（DP） Search Target Stream Occurrences Target Cost Transition Occurrence Stream

References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005

关键技术－波形处理两种情形挑选样本距离预测值较远，需韵律调整两拼接端点不吻合，需平滑处理

关键技术－波形处理两种情形技术挑选样本距离预测值较远，需韵律调整两拼接端点不吻合，需平滑处理
PSOLA (Pitch Synchronous OverLap Add) 加窗

关键技术－波形处理－PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短

State-of-the-Art 通用系统, 5千句录音个人系统, 326 句录音英语系统, 8k 句录音
这里长城的走势比司马台更加富于变化和韵律；山势比慕田峪雄奇峻峭；构造墙体的是大块的白山岩，非常醒目。无论春夏秋冬、风云雨雪，各种光线下都能拍出美妙的照片。个人系统, 326 句录音英语系统, 8k 句录音 Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.

关键技术数据库构建文本处理声学建模最优搜索波形处理.

Similar presentations

Presentation on theme: "关键技术数据库构建文本处理声学建模最优搜索波形处理."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.

Similar presentations

Presentation on theme: "关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理."— Presentation transcript:

Similar presentations

About project

反馈

关键技术数据库构建文本处理声学建模最优搜索波形处理.

Presentation on theme: "关键技术数据库构建文本处理声学建模最优搜索波形处理."— Presentation transcript: