关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术-数据库构建 数据库的作用 合成单元 训练数据 前端模型 后端模型 annotated corpus prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型
关键技术-数据库构建 数据库的作用 数据库的设计,TTS系统技术路线的体现 合成单元 训练数据 覆盖所有基本单元及其变体 前端模型 后端模型 prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型 数据库的设计,TTS系统技术路线的体现 覆盖所有基本单元及其变体 音位变体 韵律变体
关键技术-数据库构建 数据库的作用 数据库的设计,TTS系统技术路线的体现 数据库加工 合成单元 训练数据 覆盖所有基本单元及其变体 prosodic event phonetic context acoustics model parameter prosodic annotation speech phonetic alignment script annotated corpus description parser, POS 数据库的作用 合成单元 训练数据 前端模型 后端模型 数据库的设计,TTS系统技术路线的体现 覆盖所有基本单元及其变体 音位变体 韵律变体 数据库加工 录音 标注
数据库的设计 系统目标分析-数据库任务分析 通用系统数据库 基本单元确定 规模 内容 文本设计 具体指标 来源 - 文本数据库 覆盖 - 基本单元,语境分类 指标 - 累积频度 具体指标 基本单元: 音节,100%覆盖 语境音节(SV: Syllable Vector):左、右声调,左、右音位类别 评价指标:语境音节累积频度 实施:基于文本数据库统计的句子的挑选
文本设计结果
数据库加工 录音 标注 韵律标注实施 – 人工 加快数据加工进程 音段 韵律 标注内容 流程定义 质量:准确性、一致性 流程标准化 手段自动化 韵律的自动标注 – 文本+声学信息
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术-文本处理 从文字到发音描述 如何描述发音-韵律 发什么音,音位预测 如何发音,音位变体及韵律预测 从语用的角度描述韵律,即韵律事件(初敏、施勤的工作) 从功能的角度,韵律的交际功能(许毅的工作)
关键技术- 文本处理-韵律描述 韵律层级结构:韵律词、韵律短语、语调短语 其它的韵律现象:语调、重音、情感
关键技术-文本处理 从文字到发音描述 如何描述发音-韵律 韵律事件预测建模 发什么音,音位预测 如何发音,音位变体及韵律预测 从语用的角度描述韵律,即韵律事件 韵律事件预测建模 任务:利用分词、词性、字长等信息计算出输入文字最大可能的韵律状态分布 技术:DP (Dynamic Programming), DT (Decision Tree)
关键技术-文本处理-韵律事件预测建模 数学描述 求解 wn待合成的词序列 xn对应的语言学特征 an对应的韵律边界-层级结构 DP+DT 词典词,词长 POS an对应的韵律边界-层级结构 求解 DP+DT PW -> PP -> IP
韵律事件预测 – 实例 Input lexical word layer: 他(rn) 靠(pg) 打工(vgo) 买来(vgn) 旧(ag) 乒乓球(ng) 桌(ng) ,(w2) 拚(vg) 命(ng) 练习(ng) ,(w2) 是(vy) 日本(npr) 体坛(ng) 公认(vgo) 的(usde) 勤奋(ag) 者(kn) 。(w1) OutPut PWord Layer: 他靠 rm_pg 打工 vg 买来 vg 旧 ag 乒乓球桌 ng , w2 拚命vg 练习 ng , w2 是 vg 日本 ng 体坛 ng 公认的 ag 勤奋者 ag_ng 。 w1 OutPut PPhrase Layer: 他靠打工 买来旧乒乓球桌 , 拚命练习 , 是日本体坛 公认的勤奋者 。 OutPut IPhrase Layer: 他靠打工买来旧乒乓球桌 ,拚命练习 , 是日本体坛公认的勤奋者 。
参考文献 [1] Zhu Weibin, “CORPUS BUILDING FOR DATA-DRIVEN TTS SYSTEMS”, IEEE 2002 Speech Synthesis Workshop [2] Li Haiping, “The Context Variation Unit Vector”, ICSLP 2002 [3] Shi Qin, “Statistic Prosody Structure Prediction Based on Annotated Corpus”, IEEE 2002 Speech Synthesis Workshop [4] Shi Qin, “COMPARISONS AMONG FOUR STATISTICS BASED METHODS OF PROSODY STRUCTURE PREDICTION”, NCMMSC 2003
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术-声学建模 从发音描述到语音声学参数 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化
关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征
关键技术-声学建模-韵律声学参数 图中绿色为预测值,红色实际计算值 韵律声学参数 音高(F0), 音高斜率(Slope),时长(Duration)
关键技术-声学建模 从发音描述到语音声学参数 如何“声学地”刻画韵律 韵律声学预测建模 语境变化带来音位变体,音段参数变化 韵律变化带来基本单元韵律声学参数的变化 如何“声学地”刻画韵律 基于每个基本单元韵律声学参数,表现整个语句的韵律声学特征 韵律声学预测建模 任务:利用输入的韵律描述信息,计算每个基本单元的韵律声学参数分布概率 技术:决策树(Decision Tree), GMM (Gaussian Mixture Model)
DT and GMM 决策树的结构 聚类样本的概率分布-GMM 某叶子样本集F0分布 韵律状态问题集Q: { 声调、 q1 样本库 q2 左右声调、 边界、 左右边界、 。。。} q1 样本库 q2 q3 q4 q5 q6 q7 1 1.5 2 2.5 10 20 30 40 50 Mean GMM 叶子 聚类样本 某叶子样本集F0分布
关键技术-声学建模-韵律声学预测建模 韵律声学预测建模训练 两类模型 声学参数预测 基于决策树将数据库中所有样本依据韵律声学参数分类 由决策树上每个叶子所有样本计算每个叶子的韵律声学参数GMM 两类模型 目标模型 转移模型 声学参数预测 利用输入的韵律描述信息,通过回答决策树每个节点关于韵律描述信息的问题,得到对应的叶子所关联的GMM
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术-最优搜索 最佳候选样本序列序列搜索 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP)
关键技术-最优搜索 最佳候选样本序列序列搜索 数学描述 技术 每个基本单元(音节)在数据库中有多个样本,构成合成样本搜索空间 依据预测模型,综合目标预测和转移预测概率,计算具有最大可能性的样本序列,构成合成样本序列 数学描述 技术 动态规划(DP) Search Target Stream Occurrences Target Cost Transition Occurrence Stream
References [1] Alan Black, “The Blizzard Challenge – 2005: Evaluating corpus-based speech synthesis on common datasets”, INTERSPEECH 2005 [2] A. Hunt and A. Black, “Unit selection in a concatenative speech synthesis system using a large speech database” ICASSP’96 [3] Ma Xijun, “PROBABILITY BASED PROSODY MODEL FOR UNIT SELECTION”, ICASSP’04 [4] Wael Hamza, “On Building a Concatenative Speech Synthesis System from the Blizzard Challenge Speech Databases”, INTERSPEECH 2005
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理
关键技术-波形处理 两种情形 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理
关键技术-波形处理 两种情形 技术 挑选样本距离预测值较远,需韵律调整 两拼接端点不吻合,需平滑处理 PSOLA (Pitch Synchronous OverLap Add) 加窗
关键技术-波形处理-PSOLA TD-PSOLA a. 基频提高 b. 基频降低 c. 时长延长 d. 时长缩短
State-of-the-Art 通用系统, 5千句录音 个人系统, 326 句录音 英语系统, 8k 句录音 这里长城的走势比司马台更加富于变化和韵律;山势比慕田峪雄奇峻峭;构造墙体的是大块的白山岩,非常醒目。无论春夏秋冬、风云雨雪,各种光线下都能拍出美妙的照片。 个人系统, 326 句录音 英语系统, 8k 句录音 Northwest flight 123 departs New York at eight p.m. on Monday, May eighth and arrives in John F. Kennedy International Airport at ten twenty six p.m.