基于改进的依存树到串的汉语纳西翻译模板抽取方法

Slides:

Advertisements

Similar presentations

四川财经职业学院会计一系会计综合实训目录情境 1.1 企业认知情境 1.3 日常经济业务核算情境 1.4 产品成本核算情境 1.5 编制报表前准备工作情境 1.6 期末会计报表的编制情境 1.2 建账.

Advertisements

主编：邓萌【点按任意键进入】【第六单元】教育口语. 幼儿教师教育口语概论模块一幼儿教师教育口语分类训练模块二适应不同对象的教育口语模块三《幼儿教师口语》编写组.

第一組加減法思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.

海南医学院附院妇产科教室华少平妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.

植树节的由来植树节的意义各国的植树节纪念中山先生植树节的由来历史发展到今天， “ 植树造林，绿化祖国 ” 的热潮漫卷了中华大地。从沿海到内地，从城市到乡村，涌现了多少造林模范，留下了多少感人的故事。婴儿出世，父母栽一棵小白怕，盼望孩子和小树一样浴光吮露，茁壮成长；男女成婚，新人双双植一株嫩柳，象征家庭美满，幸福久长；

客户协议书填写样本和说明河南省郑州市金水路 299 号浦发国际金融中心 13 层吉林钰鸿国创贵金属经营有限公司.

浙江省县级公立医院改革与剖析马进上海交通大学公共卫生学院

第二章环境.

教师招聘考试政策解读讲师：卢建鹏

了解语文课程的基本理念，把握语文素养的构成要素。把握语文教育的特点，特别是开放而有活力的语文课程的特点。

北台小学构建和谐师生关系做幸福教师 2012—2013上职工大会.

福榮街官立小學我家孩子上小一.

第2期技職教育再造方案（草案）教育部 101年12月12日 1 1.

企业员工心态管理培训企业员工心态管理培训讲师：谭小琥.

历史人物的研究 ----曾国藩组员: 乔立蓉杜曜芳杨慧组长:马学思杜志丹史敦慧王晶.

教育部高职高专英语类专业教学指导委员会刘黛琳山东 • 二○一一年八月

淡雅诗韵七（12）班第二组蔡聿桐.

第七届全国英语专业院长/系主任高级论坛汇报材料

小數怕長計, 高糖飲品要節制瑪麗醫院營養師張桂嫦.

制冷和空调设备运用与维修专业全日制2+1中等职业技术专业.

会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析组员：2006级工商企业管理专业金国芳叶乐慧魏观红徐挺挺虞琴琴.

第六章人体生命活动的调节人体对外界环境的感知.

芹菜英语051班 9号黄秋迎概论:芹菜是常用蔬菜之一，既可热炒，又能凉拌，深受人们喜爱。近年来诸多研究表明，这是一种具有很好药用价值的植物。别名:旱芹、样芹菜、药芹、香芹、蒲芹。芹菜属于花,芽及茎类。

2012年学生党支部书记工作交流大连理工大学建工学部孟秀英

北京市职业技能鉴定管理中心试题管理科.

2014吉林市卫生局事业单位招聘153名工作人员公告解读

各類所得扣繳法令與申報實務財政部北區國稅局桃園分局 103年9月25日

初級游泳教學.

爱国卫生工作的持续发展区爱卫办俞贞龙.

第八章数学活动方程组图象解法和实际应用

本课内容提要一、汇率的含义二、汇率变化与币值的关系三、汇率变化的影响. 本课内容提要一、汇率的含义二、汇率变化与币值的关系三、汇率变化的影响.

散文鉴赏方法谈.

比亚迪集成创新模式探究深圳大学2010届本科毕业论文答辩姓名：卓华毅专业：工商管理学号：指导老师：刘莉

如何撰写青年基金申请书报告人：吴金随.

点击输入标题点击输入说明性文字.

國際志工海外僑校服務越南國立臺中教育大學 2010年國際志工團隊.

學分抵免原則及學分抵免線上操作說明會.

教学查房黄宗海南方医科大学第二临床医学院外科学教研室.

评建工作安排.

“十二五”国家科技计划经费管理改革培训概预算申报与审批国家科学技术部 2012年5月.

“十二五”国家科技计划经费管理改革培训概预算申报与审批国家科学技术部 2012年5月.

首都体育学院武术与表演学院张长念太极拳技击运用之擒拿首都体育学院武术与表演学院张长念

CWMT’08统计机器翻译研讨会自动化所技术报告

现行英语中考考试内容与形式的利与弊黑龙江省教育学院于钢 2016, 07，黄山.

第5讲：比较安全学的创建吴超教授 (O)

彰化縣西勢國小備課工作坊新生入學的班級經營主講：黃盈禎

重庆市西永组团K标准分区基本情况介绍.

西貢區歷史文化清水灣鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.

所得稅扣繳法令與實務財政部北區國稅局桃園分局 102年12月19日 1 1.

角色造型第四章欧式卡通造型主讲：李娜.

走进校园流行高二15班政治组指导老师：曾森治老师.

医院文化建设广东省中医院 2011年3月26日.番禺.

案例：海底捞模式 ——把服务做到极致.

医疗法律法规培训连云港市东辛农场医院周卫平二0一四年十二月.

史泰博出货检验员面试中·········

09英本2班罗芬.

个人所得税扣缴申报表填报讲解.

机器翻译原理与方法第五讲基于句法的统计机器翻译方法

大纲汉英新闻领域翻译评测概述系统流程预处理和后处理测试结果系统融合评测. 张大鲲孙乐中国科学院软件研究所

基于规则抽取的时间表达式识别.

SOA – Experiment 2: Query Classification Web Service

毕业论文答辩答辩学生：宝藏PPT 指导老师：XXX.

张大鲲孙乐李文波中国科学院软件研究所利用压平的双语句法树进行短语重排序张大鲲孙乐李文波中国科学院软件研究所

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆

孙加东梁华参赵铁军机器智能与翻译实验室哈尔滨工业大学

昆明理工大学先进计算软件技术与应用云南省创新团队昆明理工大学计算机应用重点实验室

基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.

基于列存储的RDF数据管理朱敏

本节内容如何调试驱动程序? 视频提供：昆山爱达人信息技术有限公司官网地址：联系QQ: QQ交流群：联系电话：

Presentation transcript:

基于改进的依存树到串的汉语纳西翻译模板抽取方法李磊，余正涛，毛存礼，郭剑毅昆明理工大学智能信息处理重点实验 2013.5.11

论文提纲一研究背景及意义二国内外研究现状基于改进依存树到串的汉语纳西翻译模板抽取方法三四实验及结果分析五总结

研究背景及意义少数民族文化遗产东巴文是云南众多少数民族文字中的一朵奇葩，它是由云南丽江纳西族先民创造并使用的，被誉为“世界上唯一活着的古象形文字”。如：虎（）、马（）、人（）、树（）信息化方式保护纳西文字使用规模相对较大，现在仍有50万人在使用。为了实现对这一文字的保护与传承，希望借助机器翻译的方式来研究和保护这一珍贵的资源。

研究背景及意义存在问题进行翻译模板抽取时，汉语句法结构复杂，纳西语简单，语法结构差异大，许多词无法在纳西语中找到对应的结构。例如：

研究背景及意义若采用抽取出的这些模板进行翻译，则会造成大量结构和词汇信息的丢失。例如：输出：我不明白您想法。（我不明白您的想法）输出：我说地方女孩都去。（我说的地方女孩都去过）

研究背景及意义本文提出的方法针对以上问题，本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法，在模板抽取过程中，扩展未对齐词到翻译模板中，从而实现解决双语未对齐词的翻译处理。

论文提纲一研究背景及意义二国内外研究现状基于改进依存树到串的汉语纳西翻译模板抽取方法三四实验及数据分析五总结

国内外研究现状基于句法的统计机器翻译基于句法统计翻译的模型：串-树模型当前基于句法的统计机器翻译是主流的机器翻译方法，该方法是从词的角度来利用它们的依存关系和句法结构信息进行模板抽取和翻译基于句法统计翻译的模型：串-树模型树-串模型

国内外研究现状串到树模型利用一个噪声通道，对源语言中的每一个节点加入插入、翻译和重排序三种操作，最终得一棵句法树完成翻译。 Yamada等人利用一个噪声通道，对源语言中的每一个节点加入插入、翻译和重排序三种操作，最终得一棵句法树完成翻译。 Galley等人对Ymada的模型进行改进和扩展，将一些简单规则和源语言端带有非终结符规则等引入模型，使其翻译效果增强。

国内外研究现状树到串模型刘洋熊得意基于短语结构树到串的翻译模型。引入对齐模板，并且其对齐模板两端都可以包含终结符和非终结符。基于依存树到串的翻译方法。将依存关系引入了翻译过程中，通过词之间的句法信息来引导翻译。

论文提纲一研究背景及意义二国内外研究现状基于改进依存树到串的汉语纳西翻译模板抽取方法三四实验及数据分析五总结

基于改进依存树到串的汉语纳西翻译模板抽取方法利用一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法，扩展未对齐词到翻译模板中，生成翻译模板（一）改进翻译模板的定义将翻译模板定义为一个三元（CDT,NS,A） CDT元素：采用treelet来代替传统子树。 A元素：不要求对齐矩阵保持一致性。

基于改进依存树到串的汉语纳西翻译模板抽取方法（二）改进翻译模板的抽取双语句子必须首先在汉语源语言端做句法分析，得到对齐关系。

基于改进依存树到串的汉语纳西翻译模板抽取方法（1）归并操作根据汉语依存树上词的依存关系得到对齐词与未对齐词的依存关系，根据依存关系，将汉语依存树中未对齐节点归并扩展到对齐节点。

基于改进依存树到串的汉语纳西翻译模板抽取方法（2）节点的属性标注 Node Span Include Sub-tree Span 节点的Node Span与其直接孩子节点的Node Span组成的闭区间与节点对齐的目标单词串的位置号所组成的闭区间 {0，1} 指示器 Node Span==Sub-tree Span，值为0，否则值为1。

基于改进依存树到串的汉语纳西翻译模板抽取方法所有节点的3个属性：

基于改进依存树到串的汉语纳西翻译模板抽取方法（3）递归抽取翻译模板 Include值为0的节点 Include值为1的节点算法将通过直接抽取的方式得到模板，并返回给上层调用。在调用时，将其泛化与其父节点一起生成翻译模板。算法生成所有可能的以该节点为根节点的翻译模板，其方法是合并该节点某些子节点或子节点组合的翻译模板。

基于改进依存树到串的汉语纳西翻译模板抽取方法

基于改进依存树到串的汉语纳西翻译模板抽取方法（三）改进翻译模板的属性标注 CDT中的每个节包含三个属性：中心词，中心词词性标记，节点相对于父节点的局部顺序。相对于父节点的局部顺序是在抽取出来的treelet中定义的。

基于改进依存树到串的汉语纳西翻译模板抽取方法最终抽取出的翻译模板：

论文提纲一研究背景及意义二国内外研究现状基于改进依存树到串的汉语纳西翻译模板抽取方法三四实验及数据分析五总结

实验及结果分析实验数据准备我们从训练语料中选择了近期编写的句对作为开发集，共有15,987句对。测试集使用了前期收集的7,327句对，句对平均长度为11.7个字。

实验及结果分析实验工具选取为了检验基于改进的依存树到串的汉语纳西翻译模板抽取模型的效果，我们在汉语纳西语方向上设计了对比实验。实验系统以统计机器翻译系统“SilkRoad”（1.0 版）作为基础原型，句法分析器使用了基于宾州树库的ctbparser依存句法分析器。

实验及结果分析实验步骤步骤一步骤二步骤三使用ctbparser依存句法分析器对双语语料的汉语言句子进行句法分析，得到一个分词完成且词对齐的XML文件。步骤二采用改进前的模板抽取方法和改进后的模板抽取方法分别对XML文件进行模板抽取。步骤三模板抽取后，分别对开发集和测试集进行测试，并使用BLUE-3和准确度作为测评指标进行测评。

实验及结果分析实验结果分析采用本文介绍方法共抽取了17,260(不重复)个翻译模板，其中和测试集相匹配的有2,340个。在开发集实验中, BLUE-3值提高了1.74％，准确度提高了 5.22%；在测试集实验中, BLUE-3值提高了1.66％，准确度提高了4.98%。

论文提纲一研究背景及意义二国内外研究现状基于改进依存树到串的汉语纳西翻译模板抽取方法三四实验及数据分析五总结

总结本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取模型。实验证明，改进后的模板抽取模型在BLUE-3和准确度方面均有很大提升。下一步, 我们将扩大语料库规模,并对将依存树到树以及树到森林等方法应用到汉语纳西语统计机器翻译上进行研究。 CLSW 2013

Thank You!