日本中国语学会关东支部扩大会议・中央大学 XIMERA中的汉语语音合成技术 倪 晋富 坂井 信辅 中村 哲 (NICT/ATR-SLC) (2008/03/22) 日本中国语学会关东支部扩大会议・中央大学
发表概要 语音合成系统概述 文本规范化 词典构成 语言模型 分词及词性标记评价 拼音转换评价 韵律参数预测 演示 语音数据库 相关工作 语调转换 韵律再合成 强化虚词处理
语音合成系统略图 文本处理 语音合成器 韵律控制 说什么 怎么说 发音 波形拼接型合成器 源滤波器型合成器 输入文本 合成语音 注:语音合成系统合成语音,但现在的合成系统并不具有文本理解能力。
XIMERA汉语语音合成概述 文本规范化 说什么 分词、词性标记及发音生成 韵律词及短语预测 怎么说 单元选择及波形拼接 语音参数预测 输入文本 房价是$150。 文本规范化 口语规则 房价是一百五十美元。 说什么 分词、词性标记及发音生成 词典 房价 是 一百五十 美元 。 名词 动词 数词 名词 符号 fang2jia4 shi4 yi1bai2wu3shi2mei3yuan2 语言模型 韵律词 韵律词及短语预测 口语规则 韵律短语 怎么说 1 句子基频曲线 2 音素时长参数 3 能量参数 4 谱参数 声学模型 语音参数预测 语音 数据库 单元选择及波形拼接 输出合成语音
文本规范化 数词 符号 … 3% 3‰ №3 §3 3° 3℃ 2:5 US$3 £3 ∵ ∴ ∽ ∞ ≡ = ≈ ≠ ≥ ≤ 百分之三 3% 3‰ №3 §3 3° 3℃ 2:5 US$3 £3 ∵ ∴ ∽ ∞ ≡ = ≈ ≠ ≥ ≤ 百分之三 千分之三 三号 第三 三度 三摄氏度 二比五 三美元 三英镑 因为 所以 相似于 无穷大 恒等于 等于 约等于 不等于 大于 小于 数词 符号 1,234 90年代 住303 拨220 代码:727 3·15 “3·15” 一千二百三十四 九十年代 住三零三 拨二二零 代码:七二七 三点一五 “三·一五” ① ⑴ Ⅻ 2dB 2Hz 2Gm 2Mm … 一、 十二 二分贝 二赫兹 二京米 二兆米 ‘98 2‘54“ 2:12:01PM 上午9:01 下午2:20-3 2003/03/3 1/3 绩是33-03 分是33-03 以33-03 3-5% 九八 二分五十四秒 午后二点十二分一秒 上午九点一分 下午二点二十分至三点 二零零三年三月三日 三分之一 绩是三十三比三 分是三十三比三 以三十三比三 百分之三至百分之五 4×4 200米*3 ×经理 … 四乘四 二百米乘三 某经理
词典构成 拼写 频度 词性 拼音 东京都,3000,地名,dong1 jing1 du1 一般名词 专有名词 地名 时间词 代词 动词(17类) 形容词 副词(5类) 量词 介词 定词(5类) 连词(4类) 助词(2类) 时态标记 叹词 后置词 位置词 外国语 62,562 138,856 25,592 2,443 404 52,114 2,790 2,958 492 248 1,192 262 98 22 71 69 370 东京都,3000,地名,dong1 jing1 du1 毛泽东,1500,专有名词,mao2 ze2 dong1 … 拼写 频度 词性 拼音 (290,624条汉语词及符号)
语言模型 HMM (hidden Markov model:马尔可夫模型) 房价/名词 是/ 动词 一百五十/数词 美元/名词 。/符号 房价/名词 是/ 动词 一百五十/数词 美元/名词 。/符号 词性拼写unigram: 房价/名词, 是/动词 , … 词性bigram: 名词-动词, 动词-数词, 数词-名词, 名词-符号 房价/名词 是/ 动词 一百五十/数词 美元/名词 。/符号 词性unigram: 名词, 动词, 数词 拼写unigram: 房价, 是, 一百五十, 美元, 。 词性拼写unigram: 房价/名词, 是/动词 , … 词性bigram: 名词-动词, 动词-数词, 数词-名词, 名词-符号 词性拼写bigram1: 房价/名词- 动词, 是/ 动词-数词, … 词性拼写bigram2: 名词-是/动词, 动词-一百五十/数词, … 拼写bigram: 房价-是, 是-一百五十, 一百五十-美元, 美元-。 CRF(conditional random field: 条件随机场)
Mecab (http://mecab.sourceforge.net) 分词及词性标记评价 分析软件:和布蕪 训练语料库:人工检查过词边界及词性标记 训练集大小:含有2,406,780词的句子 测试集(训练集外)大小:含有2,396,950词的句子 Mecab (http://mecab.sourceforge.net) 单词 96.7% 98.5% 单词和词性 92.3% 94.5% 词典大小:136,787 (来自训练用语料库) 单词 n/a 97.0% 单词和词性 93.7% 词典大小: 290,624 (来自各种语料库) 单词 n/a 96.5% 单词和词性 91.0% 词典大小: 560,168 (以上汉语词库+日语词) HMM CRF
拼音转换评价 典型错误分析: 测试集:约15000句(229,332音节),人工检查过拼音 有调音节正确率:97.0% 无调音节正确率:99.2% 典型错误分析: 词性错误 模糊性 长 【名词】 chang2 长 1米 长 【动词】 zhang3 长 1米 藏 【名词】 zang4 藏 族 藏 【动词】 cang2 藏 东西 地 【名词】 di4 种 地 地 【助词】 de0 慢慢 地 好 【形容词】 hao3 好 吃 好 【副词】 hao4 好 吃 圈 【名词】 juan4 羊 圈 圈 【动词】 quan1 圈 东西 … 调 【动词】 tiao3 调 音量 调 【动词】 diao4 调 文件 系 【动词】 ji4 系 鞋带 系 【动词】 xi4 系 哺育类 …
韵律参数预测 语言特征 声学模型 HMM模型训练 声学特征 (约1.5小时语音) 音节,声调,前音节声调,后音节声调 该音节所在词的词性,词长,在短语中前、后位置(音节数) 该音节所在短语长,短语在句中前后序号,前位置(音节数) 平价商店选购。 声学模型 HMM模型训练 声学特征 (约1.5小时语音) 句子基频曲线、音节位置时长、能量参数、谱参数 1 句子基频曲线 2 音素时长参数 3 能量参数 4 谱参数 基频
韵律短语预测 实验材料: 实验结果及观察: 8874句(8.3小时语音) 考察标点 、,:;!?。 破折号及省略号 单元中的音节数 单元百分率(%) 100ms以上停顿间单元 相邻的两标点间单元 300ms以上停顿间单元 实验材料: 8874句(8.3小时语音) 考察标点 、,:;!?。 破折号及省略号 100ms以上的停顿:7093个 300ms以上的停顿:3610个 实验结果及观察: 99%的逗号处伴随有100ms以上的停顿 标点是重要的停顿标志 57.4%的停顿(100ms以上)非与标点相连 仅标点处停顿显然是不足够的 86%的韵律短语长为3至9个音节
[坚决[实行/[[依[法]][办事]]]] 韵律和句法结构的交叉依赖性 [坚决[实行/[[依[法]][办事]]]] 韵律短语 句法短语 1 交叉 0 交叉 句法树 实验材料: 1091句(3小时语音) 句子选自PENN Treebank n交叉:n个句法分枝横切一韵 律短语; 0交叉表示韵律短语是 一句法短语的子串 实验结果: 句法分枝交叉韵律短语的次数 按停延长划分韵律短语 观察: 大约有26.7%的停顿(短语内含1-5交叉)是不能由句法结构来预测。
语音数据库 旅行会话 人民日报 语料库 语音数据库 (20小时) 句子选择算法 句子集 录音 语音分段及声学参数提取 (约15000句) 最大化语言和音韵特征的覆盖率 录音 (防音室、女性播音员) 语音数据库 (20小时) 语音分段及声学参数提取
合成样本演示 您好,下面是几例有关旅行会话和新闻方面的汉语语音合成样本. 您是用现金还是用信用卡付款? 请告诉我您的姓名和房间号。 (伦敦/纽约综合讯) 国际油价星期二在纽约隔夜市场大幅飙升,收盘价首度突破100美元,盘中一度触及每桶100.10美元的历史新高。 美国民主党总统参选人奥巴马 先后赢得威斯康辛州和夏威夷州初选,挫败对手希拉里,这是他自“超级星期二”以来取得的连续第10场胜利。共和党方面,麦凯恩再次压倒对手赫卡比,进一步锁定他在共和党总统参选人提名战中的胜局。
陈述-疑问语调相互转换 (分析合成例子) 过路客照相 陈述句 疑问句 陈述句 疑问句 红鼻头没权
韵律再合成 都快八点了。 都快八点了。 都快八点了。
需要强化虚词处理 我想起来了 例文 我想 起来了 语音波形 【一般动词】 基频波形 起来 语音波形 我 想起来了 【趋向动词】 基频波形
处理虚词 从韵律特征上看,虚词和实词存在一定区别; 从会话角度看,处理好虚词更能体现口语化。 与动词相关联的例子: 【了着过】安排了/过 /着 三次报告会 【动介】安排给 /在 南方 【重叠】安排安排 生活 【结果】安排得着/ 不着/ 成/ 不成/ 好/ 不好/ 得上/不上/下/不下 生活 【趋向】安排上来/上去/下来/下去/进来/进去/出来/进去 几个客人 【趋向】安排几个客人 上来/上去/下来/下去/进来/进去/出来/进去 【趋向】安排上/下 / 进/出 几个客人来 /去 【趋向】安排得过来 /不过来 /得开 /不开 /起来 球赛 【趋向】安排起 球赛 来 了 【趋向】安排到 计划里 去 / 来
结束语 介绍了XIMERA汉语语音合成技术,包括文本规范化、分词标注、拼音生成、韵律控制及语音数据库方面的工作。 简要介绍为实现会话语音合成的相关工作。 语音合成对语言学研究的一些期待: 语言解码能力提高合成语音的通讯能力 统计技术和(知识)规则相结合 语言学研究成果工程应用