维吾尔语音合成技术研究报告 艾斯卡尔·艾木都拉 博士 教授 新疆大学信息科学与工程学院 新疆大学多语种信息技术重点实验室 艾斯卡尔·艾木都拉 博士 教授 新疆大学信息科学与工程学院 新疆大学多语种信息技术重点实验室 ©2003 iFLYTEK TECHCENTER
维吾尔语的特点 (1)维吾尔语的音素结构 音素是最小的语音单位,它有元音和辅音两大类。在32个字母中有8个元音字母,24个辅音字母。 维吾尔语属于阿尔泰语系,她有标准语和方言。我们讨论的是维吾尔标准语,现行维吾尔文字释义阿拉伯文字为基础的,共有32个字母。 (1)维吾尔语的音素结构 音素是最小的语音单位,它有元音和辅音两大类。在32个字母中有8个元音字母,24个辅音字母。
维吾尔语字母表及其读音表示 ə d د 9 a ئا 1 r ر 10 ئە 2 z ز 11 b ب 3 Z ژ 12 P پ 4 s س 读法 字母 顺序 d د 9 a ئا 1 r ر 10 ə ئە 2 z ز 11 b ب 3 Z ژ 12 P پ 4 s س 13 t ت 5 x ش 14 j ج 6 ºl غ 15 q چ 7 f ف 16 h خ 8
维吾尔语字母表及其读音表示 ө η o ئو 25 k ق 17 u ئۇ 26 K ك 18 ئۆ 27 g گ 19 ü ئۈ 28 ڭ 读法 字母 顺序 o ئو 25 k ق 17 u ئۇ 26 K ك 18 ө ئۆ 27 g گ 19 ü ئۈ 28 η ڭ 20 w ۋ 29 l ل 21 e ئې 30 m م 22 i ئى 31 n ن 23 y ي 32 h ھ 24
(2)维吾尔语的音节结构 维吾尔语音节的三大块是:(起音)+领音+(收音)。领音必须是元音,音节中可以没有起音和收音,但是不能没有领音,所以元音是音节的中心。我们用字母‘V’表示元音,用‘C’表示辅音,维吾尔语的音节可以归纳为以下几种形式: V,VC,CV,VCC,CVC,CVCC,CCV,CCVC,CCVCC. 维吾尔语中约有5000多个音节,(包括外来词)但是这些音节的使用频率是不平衡的。一般有2000个左右的常用音节。
维吾尔语中有着丰富的构词词缀,而且词缀在词的构成中具有不同的作用。 第一类是用来生成新词的词缀; 第二类词缀是构成名词复数形式的词缀; (3)维吾尔语词语构成 维吾尔语中有着丰富的构词词缀,而且词缀在词的构成中具有不同的作用。 第一类是用来生成新词的词缀; 第二类词缀是构成名词复数形式的词缀; 第三类词缀是用来构成名词所有格; 第四类词缀是用来构成形容词的级别。 统计上述的词缀共有263个。这些词缀都是由一个或者多个音节构成的。 在维吾尔语里,表示同一语法意义的词缀往往有几种语音上有差别的形式,它们叫做变体。如-لەر/-لار都表示复数,只是在语音上有差别。在说话时变体中选择何种形式,取决于语音和谐规律。
(4)维吾尔语句子的构成 同其它语言的句子一样,由词、短语构成。但是维语句子中的词语和词语之间用空格分开,发音和文字表示是一致的,这就为我们的文本分析提供了方便。
近期语音合成的方法可以归结为四种: 1、物理机理语音合成; 2、源-滤波器语音合成; 3、基于波形拼接技术的语音合成; 4、可训练的语音合成;
基于波形拼接的语音合成 波形拼接合成方法的基本原理就是根据输入文本分析得到的信息,从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整,然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本,也可以是生成的声学参数(比如基频、时长和谱参数),或者两者兼有。 由于最终合成语音中的单元都是直接从音库中复制过来的,其最大的优势就是在于保持了原始发音人的音质。
基于波形拼接的语音合成 其中基于波形拼接技术的合成包括: 1、基于大语料库的波形拼接合成方法。 由于在模型的精确度方面的原因,以前的合成器都难以有效的合成高自然度的语音,而基于原始语音库的波形拼接合成在实现高自然度的合成系统上,取得了很大的进展。 2、基于小样本的波形拼接调整合成。
基于大语料库的波形拼接合成 一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以合成的很好,而对有些语句则合成效果比较差。 虽然大语料库合成系统的合成语音的音质和自然度都相当不错,相应的单元挑选策略也越来越精细,使得挑选出来的单元基本不需要调整,不仅保持了原始语音的音质,而且不连续现象也得到很大的改善,自然度得到极大的提高并得到了越来越广泛的应用,但是它也存在一些内在的缺陷和不足。 一般而言,大语料库合成系统的合成效果都不是很稳定,对有些语句可以合成的很好,而对有些语句则合成效果比较差。 由于音库很大,使得音库制作的工作量非常大,而且周期也很长,合成系统的合成语音比较单一。
基于小样本的维吾尔波形拼接合成 为了利用容量最小的语音语料库来高自然度地合成所有维吾尔文本,我们选择了原始音库比较小(即拼接样本数比较少)的合成系统也就是基于小样本的波形拼接合成系统,研究一些调整算法来对时长、基频以及谱参数进行高灵活度的调整并平滑拼接点处从而提高合成语音的自然度。对此我们做了一些研究工作。
基于单音素的语音合成 1、基于单音素的语音合成技术: 单音素语音语料库是由32个维吾尔音素组成的一个声音文件其中有8个元音和24个辅音。 我们实现了两种不同拼接单元的语音合成技术: 1、基于单音素的语音合成技术: 单音素语音语料库是由32个维吾尔音素组成的一个声音文件其中有8个元音和24个辅音。 我们首先研究维吾尔语的特点,积累了维吾尔里面常用的,用得最频繁的特定的单词,然后考虑音素的拼接问题,比较录制的各种音素声音,取出发音最清楚的维吾尔音素就建立了单音素语音语料库。 系统收到维吾尔文本后,文本分析模块分析收到的文本并把它分割成音素序列,取出语料库中对应的语音数据来合成语音。
系统框图 分割 成音 素序 列 语音 波形 选择 语音 波形 拼接 合成语音 维吾 尔文 本 音素 序列 表 语音 语料 库 系统框图
系统总体流程过程 输入的维吾尔文本: 分割成音素序列:
语料库的波形数据 拼接后的波形:
基于双音素的语音合成 2、基于双音素的语音合成技术 由单音素来合成语音时,因为拼接点的数目过多尤其是元音和铺音拼接的地方不太顺,很容易加噪声,严重影响合成语音的效果。解决这些问题,我们建立了“元音+辅音”和“辅音+元音”形式的双音素语音数据库,其中有384个双音素 。我们把这些声音文件以OLE对象类型存储到数据库。 系统收到维吾尔文本后,文本分析模块分析收到的文本并把它分割成音素序列。把对应的声音文件直接从数据库中取出来合成。
从系统语音合成效果来看,拼接单元越大合成语音的自然度越好,同时语料库的容量也会变大。但我们的目的是充分利用语音库中的有限的原始语音来实时地合成无限的维吾尔语文本。系统中只用一种语音基元来合成语音时合成语音的效果不好,因此我们保证拼接单元的长度不会太长的情况下采用可变长音素序列作为合成基元 。
单音素语音语料库由32个维吾尔音素组成的,其中有维吾尔语中的8个元音,24个辅音。 2、双音素 我们计划建立包含三种语音基元的语音语料库: 1、单音素 单音素语音语料库由32个维吾尔音素组成的,其中有维吾尔语中的8个元音,24个辅音。 2、双音素 双音素语音语料库的拼接单元有“元音+辅音”和“辅音+元音”两种,总共有384个双音素。 3、三音素 三音素语音语料库的拼接单元有“辅音+元音+辅音”一种,总共有4608个三音素。
建立语料库前我们首先建立文本库,积累所有的单音素,双音素和三音素对应的维吾尔文本,根据语料库的语音基元找出最优的拼接单元选择算法。 此外我们还有建立数字的语音语料库。 建立语料库前我们首先建立文本库,积累所有的单音素,双音素和三音素对应的维吾尔文本,根据语料库的语音基元找出最优的拼接单元选择算法。 为了对拼接单元的韵律特征进行调整,使合成波形既保持了原始语音基元的主要音段特征,又使拼接单元的韵律特征符合语义并表示合成语音的情绪和不同重要性,从而进一步提高合成语音的可懂度和自然度我们研究了一些韵律修改算法。
PSOLA算法 研究了PSOLA算法(TD-PSOLA和FD-PSOLA)。TD-PSOLA(时域基音同步叠加法)基本上实现了,但TD-PSOLA算法较适合于时长的改变,当涉及音高的改变,特别是音高改变幅度较大时,容易造成叠加单元的混叠或析漏。 FD-PSOLA (频域基音同步叠加法)不仅可以改变时间标尺,还可以对信号在频域上做适当调整。所以我们正在研究FD-PSOLA算法并把它应用在维吾尔语音合成中。
PSOLA算法 此外我们还有提取音素声音的各种特征参数,建立“语音特征参数库”调整拼接单元的各种特征参数(比如LPC,MFCC,过零率等)。
基频 曲线 根据输入的文本从“ 曲线模型库”找出最合适的曲线模型,加上合成后的语音信号,就可以进一步提高合成语音的自然度。 基频 曲线 为了表示合成语音的情绪和语句内容的不同重要性,我们研究了基频 曲线。由于Fujisaki模型旨在模拟 曲线的产生过程,并且该模型同时提供预测要素和解释要素,所以我们正在对该模型进行研究。为此我们要统计维吾尔语中的单词和短语类型,语调方式和重音方式。积累不同类型的单词和短语,标注 曲线,建立“ 曲线模型库”。 根据输入的文本从“ 曲线模型库”找出最合适的曲线模型,加上合成后的语音信号,就可以进一步提高合成语音的自然度。
可训练的语音合成 虽然波形拼接语音合成系统的效果不错,由于受音库容量以及单元调整算法的限制,其优势并不是很明显,也存在不少缺陷,比如:合成语音的效果不稳定,不连续,而且单元调整过大时导致语音音质急剧下降以及合成系统的可扩展性太差等。 这些缺陷明显限制了波形拼接语音合成系统在多样化语音合成方面的应用,因此,近年来可训练的语音合成(Trainable TTS)的概念被提出来并逐渐得到越来越广泛的应用。
可训练的语音合成 Trainable TTS 的优势就在于,可以在短时间内,基本不需要人工干预的情况下自动构建一个新的系统,因此对于不同发音人、不同发音风格、甚至不同语种的依赖性非常小。而它的不足之处在于,由于采用模型来生成目标参数并基于参数合成器来合成最终的语音,其合成效果与原始语音相比还是有不小的差距。 考虑到Trainable TTS 在合成时所需的存储和运算资源非常有限,因此特别适合在嵌入式环境下的应用。 现在我们正在研究维吾尔Trainable TTS系统的数据准备工作。
Trainable TTS的框架 训练部分 在训练过程中,利用HMM训练对语音参数进行建模。 合成部分 在合成过程中,对输入文本进行属性分析,并利用训练后的模型进行参数预测,最后通过合成器合成出语音。 系统框架如下图所示:
Trainable TTS系统流程
模型训练 在训练过程中,利用HMM训练对谱参数,基频以及时长进行建模 。 模型训练之前,除了定义一些HMM原型的参数以外,还有一部分非常重要的工作,就是对上下文属性集和用于决策树聚类的问题集进行设计,需要注意的是,这部分工作是与语种相关的。除此之外,整个Trainable TTS的训练和合成流程基本上与语种无关。 在训练过程中,利用HMM训练对谱参数,基频以及时长进行建模 。
Trainable TTS训练流程
后端合成 在合成过程中,首先是对输入文本进行分析,得到我们所需要的上下文属性,然后根据这些属性分别对语音参数的聚类决策树进行决策,并得到相应的模型序列,最后根据模型基于参数生成算法来生成参数,并通过合成器合成出最终的语音,流程图如下图所示:
Trainable TTS合成流程图
谢谢大家!