新疆大学信息科学与工程学院 努尔麦麦提•尤鲁瓦斯 吾守尔•斯拉木 热依曼•吐尔逊

Slides:



Advertisements
Similar presentations
解读 2012 年度 “3000 人计划 ” 申报公告 南京经济技术开发区 组织人事处. 组织架构 1 公告解读 3 流程进度 申报系统 4 培训内容 2.
Advertisements

青少年儿童常见伤害的预防. 伤害的定义 伤害是指各种物理性、化学性或生物性 事件而导致人体发生暂时或永久性损 伤、死亡和残疾的一类疾病的总称。
24 日记两则 zézé 路费路费 布 料布 料 纷 笔 羡 慕 羡 慕 纱布 昨天原则寄放宝贵手套.
现代天文学 现代天文学 期末总结 北京大学天文系 吴鑫基. 一,关于小论文 1 ,小论文已收到 72 篇 2 ,希在 6 月 8 日前发给我,我收到 后立即告 知收到。 3 ,考试时,我将公布收到的小论文清单,希注 意查对。 4 ,实在写不完的,事先书面请求,可以缓 1 周。 5 ,修改版最迟于.
第一章 棉花初加工与纺纱原料选配 第一节 轧棉与脱糖 第二节 配棉 第三节 化纤原料的选配 第四节 配料方法与配料计算.
李善同 国务院发展研究中心 发展战略和区域经济研究部
大 綱 100年招生成效 入學管道 甄選員額 甄選資格 甄選期程 報名程序 甄選日期 錄取、報到 服役規定 協請配合事項 第1頁,共28頁.
1920 年開始發展及用於現代心理學及精神學 希臘文 Ennea( 九 ) gram (圖形)
大南海文化園區 (國立歷史博物館 -初期計畫) 簡介
园林规划设计 模块六 公园规划设计.
耶和華神已掌權 主耶和華我的神 我的王 我的心要倚靠祢 凡投靠祢的必不懼怕 等候祢的必不羞愧 願祢的崇高過於諸天 祢的榮耀高過全地
健康新路 第6课: 主食的合理搭配— 粗细搭配 大家好,欢迎大家来参加今天的课程,今天课程的内容在大家手册的34-38页。
热爱党、热爱祖国、热爱人民 泉州九中初二年(10)班主题班会.
教育概論 幼一甲 第四小組 1.林瑞敏 2.許曉文 20.張舒婷 21.陳香如.
河中石兽 纪昀.
河中石兽 导学案 主备人:杨凤菊.
河中石兽 纪昀 jǐ yún 江洲中学七年级语文备课组.
我县土地资源利用现状情况调查 ——合理利用每一寸土地 实践小组:繁星求知组 班级:八(9)班 指导老师:梅泽亮
環境與數字的對話~不願面對的真相~海洋+統計
武陵源.
Chapter 6 竞争与合作战略 成本领先战略 差异化战略 集中化战略 合作战略 竞争优势分析.
旅鼠之谜 位梦华.
  厦门市诗坂中学 陈苑然.
婴幼儿米粉 准妈妈适用新鲜活米.
经济成长和差距平等化 东京学艺大学 铃木亘.
IZ 违法行为应承担的法律责任 姓名:乔允 班级:建工135 学号:
32* 飞船上的特殊乘客.
尾矿库综合调查 金属非金属矿山尾矿库安全技术中心.
送你一只妙笔 —— 作文写作技法之描写 成都十八中 张君.
胃 痛.
语言文字运用知识讲座 安徽师范大学附属中学 张祥云.
2011 智能电视 消费者认知度与需求调研报告 2011年5月.
高澱粉蔬菜是主食 文字取材: 蘇逸晴.
格致中学 2009届 高二(5)班 第7组 包嬿龄 黄欣芸 杨卜 孟夏雨 徐骅 郑晓滨
新时期职校教师(班主任) 专业素养及其发展.
如何培育 優秀創業團隊 東海大學 農業生技產業教學實習推動中心 謝長奇 教授.
项目二 果树育苗 任务2.1 实生苗培育 任务2.2 嫁接育苗 任务2.3 自根苗培育 任务2.4 其他方法育苗 任务2.5 苗木管理
第五单元 群星闪耀 复法指导 阅读与欣赏 单元重点 1.了解传记文的基本体例与特征。
语文版九年级(下) 多媒体课件.
第 九 章 安神剂.
教学目标 分析大堰河的形象、情感,解读诗人的歌唱; 把握抒情诗的记事、写人,探知作品的特色。 学法指引 学习真话、真情的写作表达。 重点探究
授课内容:IZ302000合同法律制度 主讲教师: 陈庆林 浙江青风律师事务所 授课时间: 8 学时 2006年3月4日
微孢子虫生物研究.
导入新课 请欣赏川剧变脸的视频以及各种变脸的脸谱。.
第十一章 理气剂.
安庆捷达物流运输服务有限公司 2009年3月10日.
四季之歌 SIJIZHIGE 日月经天,江河行地,春风夏雨,秋霜冬雪。多姿多彩的大自然,陶冶了人们爱美的心灵,吸引了人们寻觅美、赞赏美的双眸,众多文人墨客高唱赞歌留下了无数千古绝唱。 今天,我们就一起来欣赏散文大家朱自清的名篇《春》。
春 朱自清.
題目:你明白你所唸的嗎? 講員:陳波 經文:徒 八章 廿六—卅九.
第三节 固精缩尿止带药 1.特点:酸涩收敛,主归肾、膀胱经。 2.功效:固精、缩尿、止带。兼补肾。
糖 生命的天使 衰老的殺手.
常常喜乐 赞美我主.
盐城宝龙店选址调研报告 2016年3月.
教育者,寂寞之事业,而实为神圣之天职,扶危定倾,端赖于此,有志者固不以彼而易此也。
蔡勉旃坚还亡友财 ——徐珂.
国家大宗蔬菜产业技术体系产业经济研究室 华中农业大学 我国蔬菜产业发展中的热点问题探析 汇报人:章胜勇.
韩国留学介绍.
一、走进文本 1、《春》的作者是_______,字_____,号_____。原籍浙江绍兴人,现代的_______ ,______。他的______,________都是脍炙人口的名篇。 朱自清 佩弦 秋实 散文家 诗人 《背影》 《荷塘月色》
10. 脚手架费用计算.
第十章 华北区 第一节 地理概况 第二节 首都经济圈 第三节 水资源问题 第四节 黄淮海平原治理与农业开发.
与妻书 林觉民.
自然科教學觀摩 教 學 者:黃藍萩 教學班級:3年9班 教學日期:
七年级下册第二单元 爱国诗文 土地的誓言 端木蕻良.
勞動基準法修正案重點解析 勞動部常務次長 林三貴
105年12月6日新修勞動基準法 講師:新北市政府勞工局 賴彥亨科長
七、机械能守恒定律的应用.
一、洋流: 1.定義:海水大規模朝固定方向流動,稱為洋 流或海流。 2.成因: (1)季風吹拂:淺層海流的方向受季風影響比 較大。
§1.3.3 地球公转的意义 ——昼夜长短的变化 凤阳县第二中学 柳家全.
5-4 实验:研究平抛运动.
Presentation transcript:

新疆大学信息科学与工程学院 努尔麦麦提•尤鲁瓦斯 吾守尔•斯拉木 热依曼•吐尔逊 nurmemet@xju.edu.cn 维吾尔语大词汇语音识别系统识别单元研究 新疆大学信息科学与工程学院 努尔麦麦提•尤鲁瓦斯 吾守尔•斯拉木 热依曼•吐尔逊 nurmemet@xju.edu.cn

内容 维吾尔语及语音识别 维吾尔语语音识别单元 语音识别结果 结论

维吾尔语 阿尔泰语系突厥语族,形态结构上属黏着语类型 拼音式文字 (谢谢你的关心) كۆڭۈل بۆلگىنىڭىزگە رەھمەت bölginiñizgä=böl+gän+iñiz+gä (Root+suffix+…) 拼音式文字 rähmät(谢谢)单词发音序列为: r ɛ ɦ m ɛ t

黏着语语音识别单元 维吾尔语识别单元 单词 词干词缀: bölginiñizgä=böl+gän+iñiz+gä 音节: bölginiñizgä=böl+gi+ni+ñiz+gä 音素: bölginiñizgä=b+ö+l+g+i+n+i+ñ+i+z+g+ä

维吾尔语中的识别单元 音节识别单元 维吾尔语中一个单词由若干个音节组成。维吾尔语的音节有一定规则,维吾尔语固有的音节结构是:(起音)+领音+(收音)。所以可以通过规则方法对维吾尔语单词进行音节划分。 子词(Subword)识别单元 本文中先采用基于无监督的统计方法对维吾尔语文本语料库进行子词切分,并且子词切分过程中对每一个子词赋予统计意义上的词干词缀属性。然后,对切分结果进行了一些后处理形成子词和词首词尾识别单元。 组合识别单元 从训练语料库中选取频率较高的约2.5×104个单词、4.5×104个子词、2.5×104个词首词尾和6465千个音节,去除重复单元后形成了6.5×104个不重复的组合单元。

单元数量 通过以上处理发现文本语料中约有7.8×104个子词、9.3×104个词首词尾识别单元。下图给出了将语料库分成互相重叠的9个部分(每个部分新增1.4×105个句子)后对每一个部分进行统计得到的不重复单词、子词、词首词尾和音节识别单元数量。

发音词典 维吾尔语中有字形与音位一一对应的特点,发音词典的生成比较简单。本文中分别利用语料库中出现频率较高的6.0×104个单词,6.5×104个子词、词首词尾和组合识别单元创建发音词典。

语言模型 下图给出了基于不同识别单元的维吾尔语语言模型在包含2.5×104个句子,3.9×105个单词,6×104个不重复单词的测试文本语料库上的交叉熵。

识别实验 声学模型 数据集:约128小时,356人(189女167男)朗读式语音数据。有10个说话人(5男,5女)语音数据,共1018个语句,9805个单词,约2小时,作为测试集来使用。 模型训练:MFCC+CMVN+MLE 语言模型 数据集: 包含2.85×105个不重复单词的1.335×106个句子 数据内容:内容包含新闻、杂志、政府公文、各种理工科书籍等 模型训练:3-gram

单词错误率 语音识别单词输出 分词标志(#) 如: böl gini# ñiz gä# rähmät(待分词) 自动分词 böl gi ni ñiz gä räh mät(待分词) böl gi ni ñiz gä/ räh mät / (分词后)

识别实验 性能评价 单元错误率(UER) 单词错误率(WER) 字母错误率(LER) 平均识别效率(xRT)

识别实验 识别结果 识别单元 xRT UER LER WER 单词 8.2 20.6 6.6 音节 7 9.8 4.8 27.7 子词 11.1 3.7 16.0 词首词尾 8 12.5 3.8 16.4 组合单元 7.7 14.2 4.3 17.0

结论 维吾尔语子词、词首词尾和组合识别单元可以有效解决维吾尔语大词汇量连续语音识别系统中的OOV率问题。除此之外,子词、词首词尾语言模型交叉熵低于单词语言模型。 从连续语音识别性能来看,子词、词首词尾和组合识别单元将会使语音识别系统的单词错误率比基于单词的系统减少。因此在有些应用任务上,如语音检索,可以考虑子词、词首词尾作为识别单元。

Question? 谢谢大家!