基于改进的依存树到串的汉语纳西翻译模板抽取方法 李 磊,余正涛,毛存礼,郭剑毅 昆明理工大学智能信息处理重点实验 2013.5.11
论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及结果分析 五 总结
研究背景及意义 少数民族文化遗产 东巴文是云南众多少数民族文字中的一朵奇葩,它是由云南丽江纳西族先民创造并使用的,被誉为“世界上唯一活着的古象形文字”。 如:虎( )、马( )、人( )、树( ) 信息化方式保护 纳西文字使用规模相对较大,现在仍有50万人在使用。为了实现对这一文字的保护与传承,希望借助机器翻译的方式来研究和保护这一珍贵的资源。
研究背景及意义 存在问题 进行翻译模板抽取时,汉语句法结构复杂,纳西语简单,语法结构差异大,许多词无法在纳西语中找到对应的结构。例如:
研究背景及意义 若采用抽取出的这些模板进行翻译,则会造成大量结构和词汇信息的丢失。例如: 输出:我不明白您想法。(我不明白您的想法) 输出:我说地方女孩都去。(我说的地方女孩都去过)
研究背景及意义 本文提出的方法 针对以上问题,本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法,在模板抽取过程中,扩展未对齐词到翻译模板中,从而实现解决双语未对齐词的翻译处理。
论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结
国内外研究现状 基于句法的统计机器翻译 基于句法统计翻译的模型: 串-树模型 当前基于句法的统计机器翻译是主流的机器翻译方法,该方法是从词的角度来利用它们的依存关系和句法结构信息进行模板抽取和翻译 基于句法统计翻译的模型: 串-树模型 树-串模型
国内外研究现状 串到树模型 利用一个噪声通道,对源语言中的每一个节点加入插入、翻译和重排序三种操作,最终得一棵句法树完成翻译。 Yamada等人 利用一个噪声通道,对源语言中的每一个节点加入插入、翻译和重排序三种操作,最终得一棵句法树完成翻译。 Galley等人 对Ymada的模型进行改进和扩展,将一些简单规则和源语言端带有非终结符规则等引入模型,使其翻译效果增强。
国内外研究现状 树到串模型 刘洋 熊得意 基于短语结构树到串的翻译模型。引入对齐模板,并且其对齐模板两端都可以包含终结符和非终结符。 基于依存树到串的翻译方法。将依存关系引入了翻译过程中,通过词之间的句法信息来引导翻译。
论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结
基于改进依存树到串的汉语纳西翻译模板抽取方法 利用一种基于改进的依存树到串的汉语纳西语翻译模板抽取方法,扩展未对齐词到翻译模板中,生成翻译模板 (一)改进翻译模板的定义 将翻译模板定义为一个三元(CDT,NS,A) CDT元素:采用treelet来代替传统子树。 A元素:不要求对齐矩阵保持一致性。
基于改进依存树到串的汉语纳西翻译模板抽取方法 (二)改进翻译模板的抽取 双语句子必须首先在汉语源语言端做句法分析,得到对 齐关系。
基于改进依存树到串的汉语纳西翻译模板抽取方法 (1)归并操作 根据汉语依存树上词的依存关系得到对齐词与未对齐词的依存关系,根据依存关系,将汉语依存树中未对齐节点归并扩展到对齐节点。
基于改进依存树到串的汉语纳西翻译模板抽取方法 (2)节点的属性标注 Node Span Include Sub-tree Span 节点的Node Span与其直接孩子节点的Node Span组成的闭区间 与节点对齐的目标单词串的位置号所组成的闭区间 {0,1} 指示器 Node Span==Sub-tree Span,值为0,否则值为1。
基于改进依存树到串的汉语纳西翻译模板抽取方法 所有节点的3个属性 :
基于改进依存树到串的汉语纳西翻译模板抽取方法 (3)递归抽取翻译模板 Include值为0的节点 Include值为1的节点 算法将通过直接抽取的方式得到模板,并返回给上层调用。在调用时,将其泛化与其父节点一起生成翻译模板。 算法生成所有可能的以该节点为根节点的翻译模板,其方法是合并该节点某些子节点或子节点组合的翻译模板。
基于改进依存树到串的汉语纳西翻译模板抽取方法
基于改进依存树到串的汉语纳西翻译模板抽取方法 (三)改进翻译模板的属性标注 CDT中的每个节包含三个属性:中心词,中心词词性标记,节点相对于父节点的局部顺序。 相对于父节点的局部顺序是在抽取出来的treelet中定义的。
基于改进依存树到串的汉语纳西翻译模板抽取方法 最终抽取出的翻译模板:
论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结
实验及结果分析 实验数据准备 我们从训练语料中选择了近期编写的句对作为开发集,共有15,987句对。测试集使用了前期收集的7,327句对,句对平均长度为11.7个字。
实验及结果分析 实验工具选取 为了检验基于改进的依存树到串的汉语纳西翻译模板抽取模型的效果,我们在汉语纳西语方向上设计了对比实验。 实验系统以统计机器翻译系统“SilkRoad”(1.0 版)作为基础原型,句法分析器使用了基于宾州树库的ctbparser依存句法分析器。
实验及结果分析 实验步骤 步骤一 步骤二 步骤三 使用ctbparser依存句法分析器对双语语料的汉语言句子进行句法分析,得到一个分词完成且词对齐的XML文件。 步骤二 采用改进前的模板抽取方法和改进后的模板抽取方法分别对XML文件进行模板抽取。 步骤三 模板抽取后,分别对开发集和测试集进行测试,并使用BLUE-3和准确度作为测评指标进行测评。
实验及结果分析 实验结果分析 采用本文介绍方法共抽取了17,260(不重复)个翻译模板,其中和测试集相匹配的有2,340个。 在开发集实验中, BLUE-3值提高了1.74%,准确度提高了 5.22%;在测试集实验中, BLUE-3值提高了1.66%,准确 度提高了4.98%。
论文提纲 一 研究背景及意义 二 国内外研究现状 基于改进依存树到串的汉语纳西翻译模板抽取方法 三 四 实验及数据分析 五 总结
总结 本文提出了一种基于改进的依存树到串的汉语纳西语翻译模板抽取模型。实验证明,改进后的模板抽取模型在BLUE-3和准确度方面均有很大提升。 下一步, 我们将扩大语料库规模,并对将依存树到树以及树到森林等方法应用到汉语纳西语统计机器翻译上进行研究。 CLSW 2013
Thank You!