新疆大学信息科学与工程学院 努尔麦麦提•尤鲁瓦斯 吾守尔•斯拉木 热依曼•吐尔逊 nurmemet@xju.edu.cn 维吾尔语大词汇语音识别系统识别单元研究 新疆大学信息科学与工程学院 努尔麦麦提•尤鲁瓦斯 吾守尔•斯拉木 热依曼•吐尔逊 nurmemet@xju.edu.cn
内容 维吾尔语及语音识别 维吾尔语语音识别单元 语音识别结果 结论
维吾尔语 阿尔泰语系突厥语族,形态结构上属黏着语类型 拼音式文字 (谢谢你的关心) كۆڭۈل بۆلگىنىڭىزگە رەھمەت bölginiñizgä=böl+gän+iñiz+gä (Root+suffix+…) 拼音式文字 rähmät(谢谢)单词发音序列为: r ɛ ɦ m ɛ t
黏着语语音识别单元 维吾尔语识别单元 单词 词干词缀: bölginiñizgä=böl+gän+iñiz+gä 音节: bölginiñizgä=böl+gi+ni+ñiz+gä 音素: bölginiñizgä=b+ö+l+g+i+n+i+ñ+i+z+g+ä
维吾尔语中的识别单元 音节识别单元 维吾尔语中一个单词由若干个音节组成。维吾尔语的音节有一定规则,维吾尔语固有的音节结构是:(起音)+领音+(收音)。所以可以通过规则方法对维吾尔语单词进行音节划分。 子词(Subword)识别单元 本文中先采用基于无监督的统计方法对维吾尔语文本语料库进行子词切分,并且子词切分过程中对每一个子词赋予统计意义上的词干词缀属性。然后,对切分结果进行了一些后处理形成子词和词首词尾识别单元。 组合识别单元 从训练语料库中选取频率较高的约2.5×104个单词、4.5×104个子词、2.5×104个词首词尾和6465千个音节,去除重复单元后形成了6.5×104个不重复的组合单元。
单元数量 通过以上处理发现文本语料中约有7.8×104个子词、9.3×104个词首词尾识别单元。下图给出了将语料库分成互相重叠的9个部分(每个部分新增1.4×105个句子)后对每一个部分进行统计得到的不重复单词、子词、词首词尾和音节识别单元数量。
发音词典 维吾尔语中有字形与音位一一对应的特点,发音词典的生成比较简单。本文中分别利用语料库中出现频率较高的6.0×104个单词,6.5×104个子词、词首词尾和组合识别单元创建发音词典。
语言模型 下图给出了基于不同识别单元的维吾尔语语言模型在包含2.5×104个句子,3.9×105个单词,6×104个不重复单词的测试文本语料库上的交叉熵。
识别实验 声学模型 数据集:约128小时,356人(189女167男)朗读式语音数据。有10个说话人(5男,5女)语音数据,共1018个语句,9805个单词,约2小时,作为测试集来使用。 模型训练:MFCC+CMVN+MLE 语言模型 数据集: 包含2.85×105个不重复单词的1.335×106个句子 数据内容:内容包含新闻、杂志、政府公文、各种理工科书籍等 模型训练:3-gram
单词错误率 语音识别单词输出 分词标志(#) 如: böl gini# ñiz gä# rähmät(待分词) 自动分词 böl gi ni ñiz gä räh mät(待分词) böl gi ni ñiz gä/ räh mät / (分词后)
识别实验 性能评价 单元错误率(UER) 单词错误率(WER) 字母错误率(LER) 平均识别效率(xRT)
识别实验 识别结果 识别单元 xRT UER LER WER 单词 8.2 20.6 6.6 音节 7 9.8 4.8 27.7 子词 11.1 3.7 16.0 词首词尾 8 12.5 3.8 16.4 组合单元 7.7 14.2 4.3 17.0
结论 维吾尔语子词、词首词尾和组合识别单元可以有效解决维吾尔语大词汇量连续语音识别系统中的OOV率问题。除此之外,子词、词首词尾语言模型交叉熵低于单词语言模型。 从连续语音识别性能来看,子词、词首词尾和组合识别单元将会使语音识别系统的单词错误率比基于单词的系统减少。因此在有些应用任务上,如语音检索,可以考虑子词、词首词尾作为识别单元。
Question? 谢谢大家!