新疆大学信息科学与工程学院努尔麦麦提•尤鲁瓦斯吾守尔•斯拉木热依曼•吐尔逊

Slides:

Advertisements

Similar presentations

解读 2012 年度 “3000 人计划 ” 申报公告南京经济技术开发区组织人事处. 组织架构 1 公告解读 3 流程进度申报系统 4 培训内容 2.

Advertisements

青少年儿童常见伤害的预防. 伤害的定义伤害是指各种物理性、化学性或生物性事件而导致人体发生暂时或永久性损伤、死亡和残疾的一类疾病的总称。

24 日记两则 zézé 路费路费布料布料纷笔羡慕羡慕纱布昨天原则寄放宝贵手套.

现代天文学现代天文学期末总结北京大学天文系吴鑫基. 一，关于小论文 1 ，小论文已收到 72 篇 2 ，希在 6 月 8 日前发给我，我收到后立即告知收到。 3 ，考试时，我将公布收到的小论文清单，希注意查对。 4 ，实在写不完的，事先书面请求，可以缓 1 周。 5 ，修改版最迟于.

第一章棉花初加工与纺纱原料选配第一节轧棉与脱糖第二节配棉第三节化纤原料的选配第四节配料方法与配料计算.

李善同国务院发展研究中心发展战略和区域经济研究部

大綱 100年招生成效入學管道甄選員額甄選資格甄選期程報名程序甄選日期錄取、報到服役規定協請配合事項第1頁，共28頁.

1920 年開始發展及用於現代心理學及精神學希臘文 Ennea( 九 ) gram (圖形)

大南海文化園區 (國立歷史博物館 -初期計畫) 簡介

园林规划设计模块六公园规划设计.

耶和華神已掌權主耶和華我的神我的王我的心要倚靠祢凡投靠祢的必不懼怕等候祢的必不羞愧願祢的崇高過於諸天祢的榮耀高過全地

健康新路第6课: 主食的合理搭配— 粗细搭配大家好，欢迎大家来参加今天的课程，今天课程的内容在大家手册的34-38页。

热爱党、热爱祖国、热爱人民泉州九中初二年（10）班主题班会.

教育概論幼一甲第四小組 1.林瑞敏 2.許曉文 20.張舒婷 21.陳香如.

河中石兽纪昀.

河中石兽导学案主备人：杨凤菊.

河中石兽纪昀 jǐ yún 江洲中学七年级语文备课组.

我县土地资源利用现状情况调查 ——合理利用每一寸土地实践小组：繁星求知组班级：八（9）班指导老师：梅泽亮

環境與數字的對話～不願面對的真相~海洋+統計

Chapter 6 竞争与合作战略成本领先战略差异化战略集中化战略合作战略竞争优势分析.

旅鼠之谜位梦华.

　　厦门市诗坂中学陈苑然.

婴幼儿米粉准妈妈适用新鲜活米.

经济成长和差距平等化东京学艺大学铃木亘.

IZ 违法行为应承担的法律责任姓名：乔允班级：建工135 学号：

32* 飞船上的特殊乘客.

尾矿库综合调查金属非金属矿山尾矿库安全技术中心.

送你一只妙笔 —— 作文写作技法之描写成都十八中张君.

语言文字运用知识讲座安徽师范大学附属中学张祥云.

2011 智能电视消费者认知度与需求调研报告 2011年5月.

高澱粉蔬菜是主食文字取材: 蘇逸晴.

格致中学 2009届高二(5)班第7组包嬿龄黄欣芸杨卜孟夏雨徐骅郑晓滨

新时期职校教师（班主任）专业素养及其发展.

如何培育優秀創業團隊東海大學農業生技產業教學實習推動中心謝長奇教授.

项目二果树育苗任务2.1 实生苗培育任务2.2 嫁接育苗任务2.3 自根苗培育任务2.4 其他方法育苗任务2.5 苗木管理

第五单元群星闪耀复法指导阅读与欣赏单元重点 1.了解传记文的基本体例与特征。

语文版九年级（下）多媒体课件.

第九章安神剂.

教学目标分析大堰河的形象、情感，解读诗人的歌唱；把握抒情诗的记事、写人，探知作品的特色。学法指引学习真话、真情的写作表达。重点探究

授课内容：IZ302000合同法律制度主讲教师：陈庆林浙江青风律师事务所授课时间： 8 学时 2006年3月4日

微孢子虫生物研究.

导入新课请欣赏川剧变脸的视频以及各种变脸的脸谱。.

第十一章　理气剂.

安庆捷达物流运输服务有限公司 2009年3月10日.

四季之歌 SIJIZHIGE 日月经天，江河行地，春风夏雨，秋霜冬雪。多姿多彩的大自然，陶冶了人们爱美的心灵，吸引了人们寻觅美、赞赏美的双眸，众多文人墨客高唱赞歌留下了无数千古绝唱。今天，我们就一起来欣赏散文大家朱自清的名篇《春》。

題目：你明白你所唸的嗎？講員：陳波經文：徒八章廿六—卅九.

第三节固精缩尿止带药 1．特点：酸涩收敛，主归肾、膀胱经。 2．功效：固精、缩尿、止带。兼补肾。

糖生命的天使衰老的殺手.

常常喜乐赞美我主.

盐城宝龙店选址调研报告 2016年3月.

教育者，寂寞之事业，而实为神圣之天职，扶危定倾，端赖于此，有志者固不以彼而易此也。

蔡勉旃坚还亡友财 ——徐珂.

国家大宗蔬菜产业技术体系产业经济研究室华中农业大学我国蔬菜产业发展中的热点问题探析汇报人：章胜勇.

韩国留学介绍.

一、走进文本 1、《春》的作者是_______，字_____，号_____。原籍浙江绍兴人，现代的_______ ，______。他的______，________都是脍炙人口的名篇。朱自清佩弦秋实散文家诗人《背影》《荷塘月色》

10. 脚手架费用计算.

第十章华北区第一节地理概况第二节首都经济圈第三节水资源问题第四节黄淮海平原治理与农业开发.

与妻书林觉民.

自然科教學觀摩教學者：黃藍萩教學班級：3年9班教學日期：

七年级下册第二单元爱国诗文土地的誓言端木蕻良.

勞動基準法修正案重點解析勞動部常務次長林三貴

105年12月6日新修勞動基準法講師:新北市政府勞工局賴彥亨科長

七、机械能守恒定律的应用.

一、洋流： 1.定義：海水大規模朝固定方向流動，稱為洋流或海流。 2.成因： (1)季風吹拂：淺層海流的方向受季風影響比較大。

§1.3.3 地球公转的意义 ——昼夜长短的变化凤阳县第二中学柳家全.

5-4 实验:研究平抛运动.

Presentation transcript:

新疆大学信息科学与工程学院努尔麦麦提•尤鲁瓦斯吾守尔•斯拉木热依曼•吐尔逊 nurmemet@xju.edu.cn 维吾尔语大词汇语音识别系统识别单元研究新疆大学信息科学与工程学院努尔麦麦提•尤鲁瓦斯吾守尔•斯拉木热依曼•吐尔逊 nurmemet@xju.edu.cn

内容维吾尔语及语音识别维吾尔语语音识别单元语音识别结果结论

维吾尔语阿尔泰语系突厥语族，形态结构上属黏着语类型拼音式文字 (谢谢你的关心) كۆڭۈل بۆلگىنىڭىزگە رەھمەت bölginiñizgä=böl+gän+iñiz+gä (Root+suffix+…) 拼音式文字 rähmät(谢谢)单词发音序列为： r ɛ ɦ m ɛ t

黏着语语音识别单元维吾尔语识别单元单词词干词缀: bölginiñizgä=böl+gän+iñiz+gä 音节: bölginiñizgä=böl+gi+ni+ñiz+gä 音素: bölginiñizgä=b+ö+l+g+i+n+i+ñ+i+z+g+ä

维吾尔语中的识别单元音节识别单元维吾尔语中一个单词由若干个音节组成。维吾尔语的音节有一定规则，维吾尔语固有的音节结构是：（起音）+领音+（收音）。所以可以通过规则方法对维吾尔语单词进行音节划分。子词（Subword）识别单元本文中先采用基于无监督的统计方法对维吾尔语文本语料库进行子词切分，并且子词切分过程中对每一个子词赋予统计意义上的词干词缀属性。然后，对切分结果进行了一些后处理形成子词和词首词尾识别单元。组合识别单元从训练语料库中选取频率较高的约2.5×104个单词、4.5×104个子词、2.5×104个词首词尾和6465千个音节，去除重复单元后形成了6.5×104个不重复的组合单元。

单元数量通过以上处理发现文本语料中约有7.8×104个子词、9.3×104个词首词尾识别单元。下图给出了将语料库分成互相重叠的9个部分（每个部分新增1.4×105个句子）后对每一个部分进行统计得到的不重复单词、子词、词首词尾和音节识别单元数量。

发音词典维吾尔语中有字形与音位一一对应的特点，发音词典的生成比较简单。本文中分别利用语料库中出现频率较高的6.0×104个单词，6.5×104个子词、词首词尾和组合识别单元创建发音词典。

语言模型下图给出了基于不同识别单元的维吾尔语语言模型在包含2.5×104个句子，3.9×105个单词，6×104个不重复单词的测试文本语料库上的交叉熵。

识别实验声学模型数据集：约128小时，356人（189女167男）朗读式语音数据。有10个说话人(5男，5女)语音数据，共1018个语句，9805个单词，约2小时，作为测试集来使用。模型训练：MFCC+CMVN+MLE 语言模型数据集：包含2.85×105个不重复单词的1.335×106个句子数据内容：内容包含新闻、杂志、政府公文、各种理工科书籍等模型训练：3-gram

单词错误率语音识别单词输出分词标志(#) 如： böl gini# ñiz gä# rähmät（待分词）自动分词 böl gi ni ñiz gä räh mät（待分词） böl gi ni ñiz gä/ räh mät / （分词后）

识别实验性能评价单元错误率(UER) 单词错误率(WER) 字母错误率(LER) 平均识别效率(xRT)

识别实验识别结果识别单元 xRT UER LER WER 单词 8.2 20.6 6.6 音节 7 9.8 4.8 27.7 子词 11.1 3.7 16.0 词首词尾 8 12.5 3.8 16.4 组合单元 7.7 14.2 4.3 17.0

结论维吾尔语子词、词首词尾和组合识别单元可以有效解决维吾尔语大词汇量连续语音识别系统中的OOV率问题。除此之外，子词、词首词尾语言模型交叉熵低于单词语言模型。从连续语音识别性能来看，子词、词首词尾和组合识别单元将会使语音识别系统的单词错误率比基于单词的系统减少。因此在有些应用任务上，如语音检索，可以考虑子词、词首词尾作为识别单元。

Question？谢谢大家！