维吾尔语音合成技术研究报告艾斯卡尔·艾木都拉博士教授新疆大学信息科学与工程学院新疆大学多语种信息技术重点实验室

Slides:

Advertisements

Similar presentations

智慧旅游技术创新. 首日股价涨幅创当年 IPO 记录全球最大的中文旅行平台去哪儿网成立登陆纳斯达克百度投资 3.06 亿美元 2005 年 2011 年 2013 年 2015 年年.

Advertisements

膏药制作技术及临床应用河南中医学院李沛.

启明阅读棒+启明学堂APP 【启明计划】 ——让盲人也能平等地提升自我创意人姓名：郭嘉莹、段羽虹学校及院系：武汉大学信息管理学院

FD班座谈会－结合学校目标找准自己位置－

「高中企業、會計與財務概論」1(a) 卓思出版社有限公司高中企業、會計與財務概論 1(a)營商環境香港的營商環境第二部分.

智慧旅游技术创新.

NNVT_MCP-PMT简介北方夜视技术股份有限公司 2015 年 8月.

管理学院 2016级研究生新生入学教育研究生辅导员办公室 2016年9月9日.

中国移动江苏公司无锡分公司网络工程党支部

本课程适用范围：城市商业与文化综合体包含酒店和购物中心等

项目七：铣床夹具设计　铣床夹具主要用于加工零件上的平面、凹槽、花键及各种成型面，是最常用的夹具之一。铣削加工时切削用量较大，且为断续切削，故切削力较大，冲击和振动也较严重，因此设计铣床夹具时，应注意工件的装夹刚性和夹具在工作台上的安装平稳性。

任务一剂型与剂量.

中国行业发展报告介绍国家信息中心中经网

珠海台使用GS Live 3000系统的实例，实时3G直播连线新闻，救助站开放迎接需要人士避寒的报道情况。

本科:北京大学数学力学系再教育:甘孜藏族自治州得荣县（6年）统计博士:美国北卡罗来纳大学 (UNC-Chapel Hill)

第四章成型成型就是将制备好的坯料用各种方法加工成具有一定形状和尺寸的坯件（生坯）半成品。成型工序应满足以下要求：

普通高中课程标准准实验教科书信息技术基础信息技术基础教育科学出版社.

舊高等農林學校作業室.

目录圣荷西介绍交易产品介绍开户流程介绍壹、贰、叁、.

房屋建筑学第五章楼梯.

第36届北京青少年科技创新大赛组织工作培训班

第 14 章出門看天氣 14-1 看天吃飯的行業 14-2 善用氣象預報

在渔业生产上,人们常常被一些问题困扰:不捕捞或捕捞过少,渔业资源得不到充分利用;捕捞过多又会导致渔业资源枯竭。那么怎样捕捞才合适呢？在农业生产上农业害虫常常会造成很大的危害。那么害虫的大发生有没有规律呢？怎样才能控制害虫的数量呢/显然，要解决上述问题，仅仅研究个体是不够的，还必须研究生物的种群与群落。

声现象（一）初二物理主讲教师:崔凤霞.

B型超声成像基本原理冀敏复旦大学物理系.

產品深度剖析.

法國大革命

课题二十四铣床夹具【教学目的和要求】通过本课题的学习，使学生了解铣床夹具的种类、结构、组成部分。掌握铣床夹具的设计要点。初步具备设计和使用专用铣床夹具的能力。【教学内容摘要】本课题介绍了铣床夹具的类型与特点，以及一些典型的铣床夹具。【教学重点、难点】教学重点为铣床夹具类型与特点以及铣床夹具的结构、组成部分。

车站信号自动控制系统车站信号自动控制系统基础电气集中联锁系统.

幸福大讲堂也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述主讲：钱锡安

第八章两总体均数差异性检验 2004年10月华中科技大学同济医学院宇传华制作.

ole超市，The cook厨 GAP HM 俏江南小南国

徐广涵:孕育我国自主产权3G技术标准第一人

房屋建筑学第7章.

基于实体约束的纳西-汉语双语词语对齐方法

螺纹联接习题课主讲教师：巩云鹏东北大学国家工科机械基础课程教学基地.

实验 8 黄金投资实务.

第4章表的创建与使用.

第二章设备基础基础类型及要求地脚螺栓垫铁无垫铁安装及座浆法.

大唐电信精神.

语音合成（speech synthesis）

我国鸡蛋市场大宗商品风控部鲁静.

中國大陸山寨產品研究省區:四川省班級:國務四A 學號: A 姓名:黃慈容.

贵金属观察与思考 2017年9月10日星期日南华期货研究所夏莹莹

提升人事人員運用網路資源之作法報告人：桃園縣政府地政局游建盛 101年1月6日.

10. 脚手架费用计算.

双牛智能机器人客服项目互联网+人工智能青岛双牛信息技术有限公司 2015年.

1Q’15大陸智慧型手機市場出貨未達8,500萬支iPhone熱銷推升國際品牌在大陸市場佔比

Text To Speech (TTS, 文字轉語音)、簡訊、撥電話靜宜大學資管系楊子青

Repeat 重复命令.

正規化 Normalization.

第2章 Visual FoxPro 简介 Visual FoxPro概述 Visual FoxPro设计工具

F.4D王偉傑(33),何錦昌(10) 任教老師:劉國權先生,林曉峰先生

2014年全球LTE用戶數估將突破3.3億帶動1H’14台廠出貨量成長26.5% 惟LTE數據類終端發展方向仍未見明朗

广义对象纯滞后补偿谢磊.

关键技术数据库构建文本处理声学建模最优搜索波形处理.

软件工程课程设计.

HOH-L-01多普勒明渠流量计简介北京金水中科科技有限公司.

★优惠速递【本月特别推荐】 —— 无线座机套餐更优惠 —— 出境漫游费用减免【本月贴心服务】 —— 服务代码轻松查询

學生智育發展的目標提升學習成效，成為主動學習者。高階能力知識技能基本能力３ａ邏輯思辯能力３ｂ獨立思考能力３ｃ分析能力

高中選科簡介余偉良老師.

佛山房地产市场周报 2018/7/ /8/3 合富研究院（佛山）佛山市禅城区祖庙路33号百花广场30楼室

《数字电子技术基础》（第五版）教学课件清华大学阎石王红

2.1 数据库的创建 2.2 表的组成 2.3 表的创建 2.4 表间关系的建立

项目四角度和锥度的公差与测量一、圆锥配合的特点 1、间隙或过盈可以调整 2、对中性好，即易保证配合的同轴度要求

中三級專題研習題目:本校學生環保意識薄弱 3D.

再谈三角函数的周期性.

佛山房地产市场周报 2018/4/7-2018/4/13 合富研究院（佛山）佛山市禅城区祖庙路33号百花广场30楼室

Presentation transcript:

维吾尔语音合成技术研究报告艾斯卡尔·艾木都拉博士教授新疆大学信息科学与工程学院新疆大学多语种信息技术重点实验室艾斯卡尔·艾木都拉博士教授新疆大学信息科学与工程学院新疆大学多语种信息技术重点实验室 ©2003 iFLYTEK TECHCENTER

维吾尔语的特点（1）维吾尔语的音素结构音素是最小的语音单位，它有元音和辅音两大类。在32个字母中有8个元音字母，24个辅音字母。维吾尔语属于阿尔泰语系，她有标准语和方言。我们讨论的是维吾尔标准语，现行维吾尔文字释义阿拉伯文字为基础的，共有32个字母。（1）维吾尔语的音素结构音素是最小的语音单位，它有元音和辅音两大类。在32个字母中有8个元音字母，24个辅音字母。

维吾尔语字母表及其读音表示 ə d د 9 a ئا 1 r ر 10 ئە 2 z ز 11 b ب 3 Z ژ 12 P پ 4 s س 读法字母顺序 d د 9 a ئا 1 r ر 10 ə ئە 2 z ز 11 b ب 3 Z ژ 12 P پ 4 s س 13 t ت 5 x ش 14 j ج 6 ºl غ 15 q چ 7 f ف 16 h خ 8

维吾尔语字母表及其读音表示 ө η o ئو 25 k ق 17 u ئۇ 26 K ك 18 ئۆ 27 g گ 19 ü ئۈ 28 ڭ 读法字母顺序 o ئو 25 k ق 17 u ئۇ 26 K ك 18 ө ئۆ 27 g گ 19 ü ئۈ 28 η ڭ 20 w ۋ 29 l ل 21 e ئې 30 m م 22 i ئى 31 n ن 23 y ي 32 h ھ 24

（2）维吾尔语的音节结构维吾尔语音节的三大块是：（起音）+领音+（收音）。领音必须是元音，音节中可以没有起音和收音，但是不能没有领音，所以元音是音节的中心。我们用字母‘V’表示元音，用‘C’表示辅音，维吾尔语的音节可以归纳为以下几种形式： V,VC,CV,VCC,CVC,CVCC,CCV,CCVC,CCVCC. 维吾尔语中约有5000多个音节，（包括外来词）但是这些音节的使用频率是不平衡的。一般有2000个左右的常用音节。

维吾尔语中有着丰富的构词词缀，而且词缀在词的构成中具有不同的作用。第一类是用来生成新词的词缀；第二类词缀是构成名词复数形式的词缀；（3）维吾尔语词语构成维吾尔语中有着丰富的构词词缀，而且词缀在词的构成中具有不同的作用。第一类是用来生成新词的词缀；第二类词缀是构成名词复数形式的词缀；第三类词缀是用来构成名词所有格；第四类词缀是用来构成形容词的级别。统计上述的词缀共有263个。这些词缀都是由一个或者多个音节构成的。在维吾尔语里，表示同一语法意义的词缀往往有几种语音上有差别的形式，它们叫做变体。如-لەر/-لار都表示复数，只是在语音上有差别。在说话时变体中选择何种形式，取决于语音和谐规律。

（4）维吾尔语句子的构成同其它语言的句子一样，由词、短语构成。但是维语句子中的词语和词语之间用空格分开，发音和文字表示是一致的，这就为我们的文本分析提供了方便。

近期语音合成的方法可以归结为四种： 1、物理机理语音合成； 2、源－滤波器语音合成； 3、基于波形拼接技术的语音合成； 4、可训练的语音合成；

基于波形拼接的语音合成波形拼接合成方法的基本原理就是根据输入文本分析得到的信息，从预先录制和标注好的语音库中挑选合适的单元，进行少量的调整，然后拼接得到最终的合成语音，其中用来进行单元挑选的信息可以是前端分析得到的韵律文本，也可以是生成的声学参数（比如基频、时长和谱参数），或者两者兼有。由于最终合成语音中的单元都是直接从音库中复制过来的，其最大的优势就是在于保持了原始发音人的音质。

基于波形拼接的语音合成其中基于波形拼接技术的合成包括： 1、基于大语料库的波形拼接合成方法。由于在模型的精确度方面的原因，以前的合成器都难以有效的合成高自然度的语音，而基于原始语音库的波形拼接合成在实现高自然度的合成系统上，取得了很大的进展。 2、基于小样本的波形拼接调整合成。

基于大语料库的波形拼接合成一般而言，大语料库合成系统的合成效果都不是很稳定，对有些语句可以合成的很好，而对有些语句则合成效果比较差。虽然大语料库合成系统的合成语音的音质和自然度都相当不错，相应的单元挑选策略也越来越精细，使得挑选出来的单元基本不需要调整，不仅保持了原始语音的音质，而且不连续现象也得到很大的改善，自然度得到极大的提高并得到了越来越广泛的应用，但是它也存在一些内在的缺陷和不足。一般而言，大语料库合成系统的合成效果都不是很稳定，对有些语句可以合成的很好，而对有些语句则合成效果比较差。由于音库很大，使得音库制作的工作量非常大，而且周期也很长，合成系统的合成语音比较单一。

基于小样本的维吾尔波形拼接合成为了利用容量最小的语音语料库来高自然度地合成所有维吾尔文本，我们选择了原始音库比较小（即拼接样本数比较少）的合成系统也就是基于小样本的波形拼接合成系统，研究一些调整算法来对时长、基频以及谱参数进行高灵活度的调整并平滑拼接点处从而提高合成语音的自然度。对此我们做了一些研究工作。

基于单音素的语音合成 1、基于单音素的语音合成技术：单音素语音语料库是由32个维吾尔音素组成的一个声音文件其中有8个元音和24个辅音。我们实现了两种不同拼接单元的语音合成技术： 1、基于单音素的语音合成技术：单音素语音语料库是由32个维吾尔音素组成的一个声音文件其中有8个元音和24个辅音。我们首先研究维吾尔语的特点，积累了维吾尔里面常用的，用得最频繁的特定的单词，然后考虑音素的拼接问题，比较录制的各种音素声音，取出发音最清楚的维吾尔音素就建立了单音素语音语料库。系统收到维吾尔文本后，文本分析模块分析收到的文本并把它分割成音素序列，取出语料库中对应的语音数据来合成语音。

系统框图分割成音素序列语音波形选择语音波形拼接合成语音维吾尔文本音素序列表语音语料库系统框图

系统总体流程过程输入的维吾尔文本：分割成音素序列：

语料库的波形数据拼接后的波形：

基于双音素的语音合成 2、基于双音素的语音合成技术由单音素来合成语音时，因为拼接点的数目过多尤其是元音和铺音拼接的地方不太顺，很容易加噪声，严重影响合成语音的效果。解决这些问题，我们建立了“元音+辅音”和“辅音+元音”形式的双音素语音数据库，其中有384个双音素。我们把这些声音文件以OLE对象类型存储到数据库。系统收到维吾尔文本后，文本分析模块分析收到的文本并把它分割成音素序列。把对应的声音文件直接从数据库中取出来合成。

从系统语音合成效果来看，拼接单元越大合成语音的自然度越好，同时语料库的容量也会变大。但我们的目的是充分利用语音库中的有限的原始语音来实时地合成无限的维吾尔语文本。系统中只用一种语音基元来合成语音时合成语音的效果不好，因此我们保证拼接单元的长度不会太长的情况下采用可变长音素序列作为合成基元。

单音素语音语料库由32个维吾尔音素组成的，其中有维吾尔语中的8个元音，24个辅音。 2、双音素我们计划建立包含三种语音基元的语音语料库： 1、单音素单音素语音语料库由32个维吾尔音素组成的，其中有维吾尔语中的8个元音，24个辅音。 2、双音素双音素语音语料库的拼接单元有“元音+辅音”和“辅音+元音”两种，总共有384个双音素。 3、三音素三音素语音语料库的拼接单元有“辅音+元音+辅音”一种，总共有4608个三音素。

建立语料库前我们首先建立文本库，积累所有的单音素，双音素和三音素对应的维吾尔文本，根据语料库的语音基元找出最优的拼接单元选择算法。此外我们还有建立数字的语音语料库。建立语料库前我们首先建立文本库，积累所有的单音素，双音素和三音素对应的维吾尔文本，根据语料库的语音基元找出最优的拼接单元选择算法。为了对拼接单元的韵律特征进行调整，使合成波形既保持了原始语音基元的主要音段特征，又使拼接单元的韵律特征符合语义并表示合成语音的情绪和不同重要性，从而进一步提高合成语音的可懂度和自然度我们研究了一些韵律修改算法。

PSOLA算法研究了PSOLA算法(TD-PSOLA和FD-PSOLA)。TD-PSOLA(时域基音同步叠加法)基本上实现了，但TD-PSOLA算法较适合于时长的改变,当涉及音高的改变,特别是音高改变幅度较大时,容易造成叠加单元的混叠或析漏。 FD-PSOLA (频域基音同步叠加法)不仅可以改变时间标尺，还可以对信号在频域上做适当调整。所以我们正在研究FD-PSOLA算法并把它应用在维吾尔语音合成中。

PSOLA算法此外我们还有提取音素声音的各种特征参数，建立“语音特征参数库”调整拼接单元的各种特征参数（比如LPC,MFCC，过零率等）。

基频曲线根据输入的文本从“ 曲线模型库”找出最合适的曲线模型，加上合成后的语音信号，就可以进一步提高合成语音的自然度。基频曲线为了表示合成语音的情绪和语句内容的不同重要性，我们研究了基频曲线。由于Fujisaki模型旨在模拟曲线的产生过程，并且该模型同时提供预测要素和解释要素，所以我们正在对该模型进行研究。为此我们要统计维吾尔语中的单词和短语类型，语调方式和重音方式。积累不同类型的单词和短语，标注曲线，建立“ 曲线模型库”。根据输入的文本从“ 曲线模型库”找出最合适的曲线模型，加上合成后的语音信号，就可以进一步提高合成语音的自然度。

可训练的语音合成虽然波形拼接语音合成系统的效果不错，由于受音库容量以及单元调整算法的限制，其优势并不是很明显，也存在不少缺陷，比如：合成语音的效果不稳定，不连续，而且单元调整过大时导致语音音质急剧下降以及合成系统的可扩展性太差等。这些缺陷明显限制了波形拼接语音合成系统在多样化语音合成方面的应用，因此，近年来可训练的语音合成（Trainable TTS）的概念被提出来并逐渐得到越来越广泛的应用。

可训练的语音合成 Trainable TTS 的优势就在于，可以在短时间内，基本不需要人工干预的情况下自动构建一个新的系统，因此对于不同发音人、不同发音风格、甚至不同语种的依赖性非常小。而它的不足之处在于，由于采用模型来生成目标参数并基于参数合成器来合成最终的语音，其合成效果与原始语音相比还是有不小的差距。考虑到Trainable TTS 在合成时所需的存储和运算资源非常有限，因此特别适合在嵌入式环境下的应用。现在我们正在研究维吾尔Trainable TTS系统的数据准备工作。

Trainable TTS的框架训练部分在训练过程中，利用HMM训练对语音参数进行建模。合成部分在合成过程中，对输入文本进行属性分析，并利用训练后的模型进行参数预测，最后通过合成器合成出语音。系统框架如下图所示：

Trainable TTS系统流程

模型训练在训练过程中，利用HMM训练对谱参数，基频以及时长进行建模。模型训练之前，除了定义一些HMM原型的参数以外，还有一部分非常重要的工作，就是对上下文属性集和用于决策树聚类的问题集进行设计，需要注意的是，这部分工作是与语种相关的。除此之外，整个Trainable TTS的训练和合成流程基本上与语种无关。在训练过程中，利用HMM训练对谱参数，基频以及时长进行建模。

Trainable TTS训练流程

后端合成在合成过程中，首先是对输入文本进行分析，得到我们所需要的上下文属性,然后根据这些属性分别对语音参数的聚类决策树进行决策，并得到相应的模型序列，最后根据模型基于参数生成算法来生成参数，并通过合成器合成出最终的语音，流程图如下图所示：

Trainable TTS合成流程图

谢谢大家！