基于改进的依存树到串的汉语纳西翻译模板抽取方法

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
CWMT’08统计机器翻译研讨会自动化所技术报告
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
所得稅扣繳法令與實務 財政部北區國稅局桃園分局 102年12月19日 1 1.
角 色 造 型 第四章 欧式卡通造型 主讲:李娜.
走进校园流行 高二15班政治组 指导老师:曾森治老师.
医院文化建设 广东省中医院 2011年3月26日.番禺.
案例:海底捞模式 ——把服务做到极致.
医疗法律法规培训 连云港市东辛农场医院 周卫平 二0一四年十二月.
史泰博出货检验员面试中·········
09英本2班 罗芬.
个人所得税 扣缴申报表填报讲解.
机器翻译原理与方法 第五讲 基于句法的统计机器翻译方法
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
基于规则抽取的 时间表达式识别.
SOA – Experiment 2: Query Classification Web Service
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
昆明理工大学先进计算软件技术与应用云南省创新团队昆明理工大学计算机应用重点实验室
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
基于列存储的RDF数据管理 朱敏
本节内容 如何调试驱动程序? 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
Presentation transcript:

基于改进的依存树到串的汉语纳西翻译模板抽取方法 李 磊,余正涛,毛存礼,郭剑毅 昆明理工大学智能信息处理重点实验 2013.5.11

论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及结果分析 五 总结

研究背景及意义 少数民族文化遗产 东巴文是云南众多少数民族文字中的一朵奇葩,它是由云南丽江纳西族先民创造并使用的,被誉为“世界上唯一活着的古象形文字”。 如:虎( )、马( )、人( )、树( ) 信息化方式保护 纳西文字使用规模相对较大,现在仍有50万人在使用。为了实现对这一文字的保护与传承,希望借助机器翻译的方式来研究和保护这一珍贵的资源。

研究背景及意义 存在问题 进行翻译模板抽取时,汉语句法结构复杂,纳西语简单,语法结构差异大,许多词无法在纳西语中找到对应的结构。例如:

研究背景及意义 若采用抽取出的这些模板进行翻译,则会造成大量结构和词汇信息的丢失。例如: 输出:我不明白您想法。(我不明白您的想法) 输出:我说地方女孩都去。(我说的地方女孩都去过)

研究背景及意义 本文提出的方法 针对以上问题,本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法,在模板抽取过程中,扩展未对齐词到翻译模板中,从而实现解决双语未对齐词的翻译处理。

论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结

国内外研究现状 基于句法的统计机器翻译 基于句法统计翻译的模型: 串-树模型 当前基于句法的统计机器翻译是主流的机器翻译方法,该方法是从词的角度来利用它们的依存关系和句法结构信息进行模板抽取和翻译 基于句法统计翻译的模型: 串-树模型 树-串模型

国内外研究现状 串到树模型 利用一个噪声通道,对源语言中的每一个节点加入插入、翻译和重排序三种操作,最终得一棵句法树完成翻译。 Yamada等人 利用一个噪声通道,对源语言中的每一个节点加入插入、翻译和重排序三种操作,最终得一棵句法树完成翻译。 Galley等人 对Ymada的模型进行改进和扩展,将一些简单规则和源语言端带有非终结符规则等引入模型,使其翻译效果增强。

国内外研究现状 树到串模型 刘洋 熊得意 基于短语结构树到串的翻译模型。引入对齐模板,并且其对齐模板两端都可以包含终结符和非终结符。 基于依存树到串的翻译方法。将依存关系引入了翻译过程中,通过词之间的句法信息来引导翻译。

论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结

基于改进依存树到串的汉语纳西翻译模板抽取方法 利用一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法,扩展未对齐词到翻译模板中,生成翻译模板 (一)改进翻译模板的定义 将翻译模板定义为一个三元(CDT,NS,A) CDT元素:采用treelet来代替传统子树。 A元素:不要求对齐矩阵保持一致性。

基于改进依存树到串的汉语纳西翻译模板抽取方法 (二)改进翻译模板的抽取 双语句子必须首先在汉语源语言端做句法分析,得到对 齐关系。

基于改进依存树到串的汉语纳西翻译模板抽取方法 (1)归并操作 根据汉语依存树上词的依存关系得到对齐词与未对齐词的依存关系,根据依存关系,将汉语依存树中未对齐节点归并扩展到对齐节点。

基于改进依存树到串的汉语纳西翻译模板抽取方法 (2)节点的属性标注 Node Span Include Sub-tree Span 节点的Node Span与其直接孩子节点的Node Span组成的闭区间 与节点对齐的目标单词串的位置号所组成的闭区间 {0,1} 指示器 Node Span==Sub-tree Span,值为0,否则值为1。

基于改进依存树到串的汉语纳西翻译模板抽取方法 所有节点的3个属性 :

基于改进依存树到串的汉语纳西翻译模板抽取方法 (3)递归抽取翻译模板 Include值为0的节点 Include值为1的节点 算法将通过直接抽取的方式得到模板,并返回给上层调用。在调用时,将其泛化与其父节点一起生成翻译模板。 算法生成所有可能的以该节点为根节点的翻译模板,其方法是合并该节点某些子节点或子节点组合的翻译模板。

基于改进依存树到串的汉语纳西翻译模板抽取方法

基于改进依存树到串的汉语纳西翻译模板抽取方法 (三)改进翻译模板的属性标注 CDT中的每个节包含三个属性:中心词,中心词词性标记,节点相对于父节点的局部顺序。 相对于父节点的局部顺序是在抽取出来的treelet中定义的。

基于改进依存树到串的汉语纳西翻译模板抽取方法 最终抽取出的翻译模板:

论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结

实验及结果分析 实验数据准备 我们从训练语料中选择了近期编写的句对作为开发集,共有15,987句对。测试集使用了前期收集的7,327句对,句对平均长度为11.7个字。

实验及结果分析 实验工具选取 为了检验基于改进的依存树到串的汉语纳西翻译模板抽取模型的效果,我们在汉语纳西语方向上设计了对比实验。 实验系统以统计机器翻译系统“SilkRoad”(1.0 版)作为基础原型,句法分析器使用了基于宾州树库的ctbparser依存句法分析器。

实验及结果分析 实验步骤 步骤一 步骤二 步骤三 使用ctbparser依存句法分析器对双语语料的汉语言句子进行句法分析,得到一个分词完成且词对齐的XML文件。 步骤二 采用改进前的模板抽取方法和改进后的模板抽取方法分别对XML文件进行模板抽取。 步骤三 模板抽取后,分别对开发集和测试集进行测试,并使用BLUE-3和准确度作为测评指标进行测评。

实验及结果分析 实验结果分析 采用本文介绍方法共抽取了17,260(不重复)个翻译模板,其中和测试集相匹配的有2,340个。 在开发集实验中, BLUE-3值提高了1.74%,准确度提高了 5.22%;在测试集实验中, BLUE-3值提高了1.66%,准确 度提高了4.98%。

论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结

总结 本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取模型。实验证明,改进后的模板抽取模型在BLUE-3和准确度方面均有很大提升。 下一步, 我们将扩大语料库规模,并对将依存树到树以及树到森林等方法应用到汉语纳西语统计机器翻译上进行研究。 CLSW 2013

Thank You!