Presentation is loading. Please wait.

Presentation is loading. Please wait.

西藏大学工学院 欧珠 ngodrup@utibet.edu.cn ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།藏文信息处理的关键技术研究 西藏大学工学院 欧珠 ngodrup@utibet.edu.cn.

Similar presentations


Presentation on theme: "西藏大学工学院 欧珠 ngodrup@utibet.edu.cn ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།藏文信息处理的关键技术研究 西藏大学工学院 欧珠 ngodrup@utibet.edu.cn."— Presentation transcript:

1 西藏大学工学院 欧珠 ngodrup@utibet.edu.cn
༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།藏文信息处理的关键技术研究 西藏大学工学院 欧珠

2 报告内容 藏文信息处理学科背景 藏文信息处理技术回顾 藏文信息处理关键技术 典型平台及应用 藏文编码字符集系统 基础与共性藏文软件
输入输出系统 藏文办公、书刊及公文系统 藏文字处理 藏文操作系统 藏语自然语言处理 ……………….. 藏文编码字符集系统 基础与共性藏文软件 推广与应用 藏语自然语言处理研究 藏文模式识别与人工智能 藏文网络技术 藏文数字媒体技术研究 ……………. 藏文信息处理关键技术 典型平台及应用

3 一、背景材料 藏文信息处理技术的学科组成 文学 工学 中国语言文学 计算机科学与技术 藏语言 文学 计算机应用技术 藏文信息技术

4 藏文信息处理技术? 藏文信息处理是用计算机对藏语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。

5 一、藏文信息技术标准 GB 16959-1997《信息技术 信息交换用藏文编码字符集 基本集》
GB/T 《信息技术 藏文编码字符集 扩充集A》 GB/T 《信息技术 藏文编码字符集 扩充集B》 GB/T 《信息技术 藏文编码字符集键盘字母数字区的布局》 GB/T 《信息技术 藏文编码字符集(基本集及扩充集A) 24×48点阵字型 吾坚琼体》 GB 信息技术 藏文编码字符集(扩充集B) 24×48点阵字型 吾坚琼体》 GB 《信息技术 藏文编码字符集 24×48点阵字型 朱匝体》 GB 《 信息技术 藏文编码字符集 24×48点阵字型 白徂体》

6 一、藏文信息技术标准 (ISO/IEC 10646) Tibetan set

7 八思巴文编码字符集

8 一、藏文信息技术标准(GB)

9 一、藏文信息技术标准(GB)

10 一、藏文信息技术标准(GB)

11 一、信息技术用藏文信息标准 这些标准的制定,解决了长期以来国内外藏文信息处理软件产品不相兼容、不同产品产生的数据无法交换和共享的问题。
实现模式: 编码字符数据元素内不包含组合用字符的编码表示; 使用组合用字符,即动态组合方式。

12 二、藏文基础和共性软件 Windows平台上藏文浏览器及网页制作工具 藏文之星FOR Windows
基于Linux的藏文操作系统 Windows平台上藏文浏览器及网页制作工具 藏文之星FOR Windows 藏文办公套件 Tibetan Office 汉藏在线翻译多媒体电子词典 藏文输入法(键盘输入、识别输入及语音输入) 各种应用系统

13 二、藏文基础和共性软件 这些项目的成果填补了国内外空白,2008年5月经专家鉴定,认为这些项目有的属于自主创新,有的属于集成创新,有的属于技术创新,有的属于应用创新,都处于国际领先水平或同类产品国际先进水平。

14 二、藏文基础和共性软件

15 藏文OCR系统

16 跨平台藏文办公套件

17 藏文Linux操作系统

18 三、高等级科研项目的获得 教育部高等学校科技创新工程重大项目培育基金项目——藏文文字识别技术研究与实现
国家自然科学基金项目——木刻藏文经书识别系统中特征提取算法的研究 国家自然科学基金项目——基于DOM树语义修剪的藏文Web信息提取算法研究 科技部863项目“藏文Windows平台”项目 973前期研究专项课题 ——藏语语音识别技术研究 这些项目的研究在藏文信息处理高端领域具有划时代的标志,在中文信息技术理论研究方面有重要的学术价值和广泛的应用,对藏文信息技术的进一步研究具有指导性意义。

19 四、推广应用 2009年1月10日上午,由西藏大学承担的自治区“十一五”发展规划项目“藏文软件研发和推广应用”启动仪式在拉萨举行。自治区主席向巴平措同志到会并发表重要讲话。自治区常务副主席、自治区“藏文软件研发和推广应用”项目领导小组组长吴英杰出席了启动仪式。

20 四、推广应用 推广的产品有: Linux藏文桌面系统 藏文办公套件 Tibetan-Office 藏大岗杰藏文输入系统
藏文之星 For Windows 汉藏在线翻译多媒体电子词典 与西藏电信合作项目——藏文手持设备/通信终端研发 文曲星藏汉电子词典

21 四、推广应用

22 四、推广应用 截止目前已向西藏拉萨市、昌都地区、林芝地区、山南地区、阿里地区、日喀则地区、那曲地区以及拉萨的中直、区直单位,共赠送了9480套软件,计算机260台,打印机80台,价值350万元,培训学员共1000余人。

23 五、涉及关键技术及产品 藏文输入输出技术 机器翻译:电子词典、藏化(或屏幕)翻译、全文翻译和辅助翻译等类型 藏语拉萨语连续语音识别
小键盘智能拼音输入 藏语手写识别输入 高自然度藏语语音合成 视频藏文字识别 机器翻译:电子词典、藏化(或屏幕)翻译、全文翻译和辅助翻译等类型 藏汉、藏英机器翻译 为藏族人服务的汉英文辅助写作

24 五、涉及关键技术及产品 信息检索 内容安全 语言学习 搜索引擎 以搜索引擎技术为基础的网络信息服务 文本挖掘 从大量文本中挖掘知识
垃圾邮件/短信过滤 有害(反动、色情)网页监控 语言学习 面向藏区人的汉语英语教学 语言学习、语音校正 面向国人(国外)的藏语教学

25 不同的术语与所指 计算语言学(Computational Linguistics, CL)
自然语言处理(Natural Language Processing, NLP) 自然语言理解(Natural Language Understanding, NLU) 人类语言技术(Human Language Technology, HLT) 语言信息处理(Language Processing Technology,LPT) (大致相同,又各有侧重。) 藏文信息处理(Tibetan Information Processing, TIP) ——藏字信息处理(Tibetan Characters Processing) ——藏语信息处理 (Tibetan Information Processing, TIP)

26 计算语言学 计算语言学的研究对象是自然语言 自然语言与形式语言的本质区别是歧义性 自然语言是一种符号系统
自然语言处理(natural language processing,NLP) 就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。

27 各种语言数据资源及其相互支撑

28 藏语计算语言学 研究方向之一——藏语信息处理基础资源的研究与建设 藏语计算词典学 藏语综合型语言知识库 藏语语料库语言学 藏语语法信息词典
术语学 探讨藏语计算词典的组织 语料库加工 知识库的构建等。

29 藏语计算语言学 研究方向之二——藏语计算语言学理论
计算语言学的基础理论:包括藏文编码标准理论体系结构、自然语言处理核心技术、藏语语法、藏语的词/句法/语义分析; 研究藏语语言模型与分析技术、 藏语计算语义学; 语言处理的信息论方法; 藏语术语学与术语标准化; 藏语信息检索方法 计算机辅助藏语学习方法。

30 藏语计算语言学 研究方向之三——基础应用技术 研究机器翻译的方法、技术与系统实现; 研究智能检索 文本分类 自动文摘 信息提取 人机对话
语音自动识别与合成 文字自动识别等系统的实现; 自然语言信息处理系统的评价方法和技术等。

31 关于一般的自然语言处理系统

32 六、关键性的基础技术 藏语标准的词典资源和语料库资源的建设 藏语短语分析和句法分析 藏语词义消歧和语义分析
藏汉藏英双语语料库句对齐、词对齐技术 翻译知识的自动获取技术 藏语语音识别中非特定人自适应 藏语语音识别中的结构化语言模型 藏语语音合成中的韵律模型技术,包括停顿和重音的标注与生成问题 海量文本数据的高速索引、匹配技术

33 六、关键性的应用技术 藏语言键盘手写语音统一输入系统技术 噪声背景下非特定人连续语音识别技术 高自然度情感语音合成技术
视频中文字图像的识别以及相应的视频分类检索技术 专用领域的全自动机器翻译和通用领域的辅助翻译技术 口语语音学习及校正技术 智能型问答式信息检索技术 跨语言、多语言信息检索以及语音检索技术 互联网藏文信息采集、过滤、分类、跟踪、汇总等技术 垃圾邮件(藏文)过滤技术

34 藏文文编码字符集及其配套标准体系工作 信息处理用藏语词类标记集规范 信息处理用现代藏语分词规范 各种藏文点阵字体标准,特别是小点阵字库标准
藏文用公文办公版式标准 信息处理用藏文术语标准 信息技术用藏文编码标准 扩充集C…… ……………..

35 信息处理用现代藏语分词规范标准 基于在计算机中处理藏语真实文本的需要,本规范中的符号,既要覆盖语言学意义上的词,还要覆盖比词小的单位,如前接成分(前缀)、中接成分(中缀)、后接成分(后缀)等,以及比词更大的单位,如成语、习用语、简称、略语以及标点符号、非藏文符号等。只有这样,本规范才能提供藏语信息处理所需的信息

36 信息处理用藏语词类标记集规范

37 藏语统一输入法计算应用开发模式

38 藏语语音识别技术 对复杂音频信号进行自动切分和信息分离的语音自动分割技术; 针对信道和噪声、说话人差异处理的声学特征鲁棒性处理及变换技术;
针对多风格、多语种的声学模型建模及区分性训练技术; 基于高阶N-gram模型的大规模语言模型训练技术; 高精度快速解码技术及多遍解码框架研究; 针对定制说话人的声学模型及语言模型自适应技术以及区分性自适应的深入研究。

39 基于“云计算”的语音识别技术 云计算平台的海量数据吞吐和分布式计算能力
针对包括声学特征鲁棒性处理 声学模型和语言模型训练 充分利用云计算平台具有超大规模并行运算能力的特点,在保证语音识别核心效果的前提下极大加速处理的效率,快速地完成语音识别目标模型的训练和语音识别系统的自动构建是云计算语音识别技术的重要研究内容之一。 云计算平台使得面对海量用户提供语音识别服务成为可能,面向海量用户提供个性化语音识别服务也是云计算识别技术的重要研究内容。如藏语手机短信云计算服务。

40 藏语语音识别技术

41 藏语语音云计算基础实验平台系统架构

42 语音合成前端内容 分句处理 字符集处理 基本分词处理 衍生词处理 特殊符号处理 英文处理 未登录词识别 词类调整 多音字调整 韵律词处理
韵律短语划分 文本输入 语音树输出 后端处理 语音输出

43 藏语语料库构建 1、韵律标注规则

44 藏语语料库构建 2、韵律标注示例 དགུན་ཁའི་དུས་སུ་འཁྱག་པས་གཉིད་མ་ཁུག
dgun khavi dus su vkhyag pas gnyid ma khug

45 藏语语料库构建 3、辅音字母和元音字母拉丁转换对应表

46 藏语语音合成平台

47 面向互联网的藏文语音合成服务系统

48 几种典型应用—汉藏辅助机器翻译(1)

49 几种典型应用—汉藏辅助机器翻译(2) 预处理研究 分词算法设计 后处理研究

50 几种典型应用—汉藏辅助机器翻译(3) 汉藏句型结构对比 汉藏翻译规则分析 汉藏句型转换算法设计 藏文句子相似度算法研究 if s!="W"
s=s+tmp[s] else s=s+tx[t]

51 几种典型应用—汉藏辅助机器翻译(4)

52 可能形成的技术产品 具有智能输入和垃圾短信自动过滤等功能的藏语智能手机软件;
智能化的网络藏文新闻自动采集、分类、过滤、分析服务平台,包括高自然度的藏文新闻朗读系统; 特定域问答式的互联网搜索引擎; 面向藏区人的汉语外语学习辅助系统,包括听说读写等全方位的辅助学习技术,综合语言处理、语音识别与校正等多项关键技术。

53 可能形成的技术产品 藏语教学辅助系统; 多语种翻译设备,包括口语和书面语的翻译等; 面向企业的以文本为主要载体的内容管理、发布系统;
以语言文字语音为主要处理对象的数字图书馆系统 企业级内容安全软件,包括对垃圾邮件、黄色信息、反动信息的过滤,以及商业机密的防泄露功能

54 需要优先解决的几个核心问题 藏文信息处理从大处来看, 与一般的语言文字信息处理有许多相同或相一致的地方, 比如说遵循的相关理论和原则, 实现的关键技术和方法等 国际(国家)标准制定 操作系统研制,特别是藏文 Windows 系统的研制 语言资源建设 人才培养 藏文信息处理工作要社会效益和经济效益并举, 但应以社会效益为主, 经济效益为辅

55 人才问题 开展藏文信息处理工作需要大量的懂藏语的专业技术人才, 而现实的情况是, 国内外从事这项研究工作的专业和非专业人员全加起来也不过几十人, 懂软件设计的人员更是寥寥无几, 而且又都分散于不同的单位。如此少的人员来做这项巨大的工程其结果是可想而知的。 人员数量和质量的差距就是藏文信息处理最根本的差距所在。 学科人才培养基地 国内外多种渠道加速培养人才。

56 结束语 真诚地欢迎各位投入到藏文信息处理当中来, 这里天地广阔, 大有可为, 愿我们共同携手推进藏文进入信息时代。
我们坚信, 信息时代需要藏文, 藏文在信息时代也必将发挥更大的作用, 毕竟它是承载中华民族文化中具有悠久的历史传承和灿烂的文化遗产——藏民族和藏文化的最优秀的语言文字, 将伴随着人类共同进入一个更加注重多元文化并存、世界文化共同繁荣发展的崭新时代。

57 谢谢大家!


Download ppt "西藏大学工学院 欧珠 ngodrup@utibet.edu.cn ༄༅ བོད་ཡིག་ཆ་འཕྲིན་སྒྲིག་གཅོད་སྐོར་གྱི་གཙོ་གནད་ལག་རྩལ་ངོ་སྤྲོད།藏文信息处理的关键技术研究 西藏大学工学院 欧珠 ngodrup@utibet.edu.cn."

Similar presentations


Ads by Google