CWMT’08统计机器翻译研讨会自动化所技术报告 何彦青 2008年11月27日
报告提纲 引言 参评系统描述 实验结果 结论
引 言 新闻的汉英翻译评测任务; 自动化所作为参评单位之一参加了所有的四个评测任务,即: 新闻的英汉翻译评测任务; 科技的英汉翻译评测任务 引 言 自动化所作为参评单位之一参加了所有的四个评测任务,即: 新闻的汉英翻译评测任务; 新闻的英汉翻译评测任务; 科技的英汉翻译评测任务 新闻的汉英融合评测任务。
参评系统描述 在这次评测中我们共有四个系统参加,即: 自主开发的基于短语的翻译系统(BPSMT); 开源基于短语的翻译系统(Moses); 基于中心词的概率化句法调序系统Bandore; 基于词语调序的对齐方法融合系统(WRABC)。
BPSMT 模型训练: 语言模型利用开源Srilm工具包来获取四元文法概率信息; 翻译模型主要是根据开源Moses工具包来获取翻译短语表,其中的参数设置都利用Moses工具包的默认设置; 解码算法采用Beam-Search进行单调搜索获取翻译结果。
Moses 模型训练: 利用Moses的默认设置来进行训练解码 只用到了词这一个信息作为特征,没有使用因子模型。
Bandore 作为前端调序处理; 关键思想: 基于中心词的调序,中心词包括动词与名词,调序的候选对象是动词修饰语以及名词修饰语;
Bandore 方法概要: 由一个源语言句子得到一棵句法树; 从句法树的根开始递归地考察每一个动词短语和名词短语,并利用最大熵的方法指导训练中心词(动词、名词)的修饰语是否需调至中心词的另一侧。
WRABC
WRABC (续) 在基于词的系统融合流程中,词对齐的质量直接关系到系统融合的性能。 现阶段用于系统融合的词对齐包括基于词错误率 (WER)的词对齐和基于翻译错误率(TER)的词对齐;
WRABC (续) WER词对齐方法和TER词对齐方法能较好地对齐词序相同的翻译假设。 TER词对齐准则虽然理论上解决了这个问题,但是TER词对齐准则采用的贪心搜索算法,在很多情况下无法实现大范围的词语块的调序。
WRABC (续) 我们使用基于词语调序的对齐方法(WRA)。 找出待对齐的翻译假设和参考对齐之间的所有公共的连续词语块; 进行局部对齐; 在局部对齐关系中寻找交叉的词语块对; 利用已对齐的局部词语块的位置作为参考,对有词序变化的词语块位置进行调整。
WRABC (续) 采用单纯形算法调整参数; 在词对齐时选择的参考对齐是从所有参与融合系统的top-Best中抽取得到: 依次把每个系统的top-Best用BLEU4打分,打分时参考译文为其它系统的top-Best,然后用MBR解码选择得分最高的top-Best为参考对齐;
操作系统性能 CPU 内存 操作系统 Intel Xeon E5335 2.0G 16G Ubuntu-server 8.04
评测实验及结果 机器翻译评测 新闻汉英翻译评测; 新闻英汉翻译评测; 科技英汉翻译评测; 系统融合评测 新闻汉英融合评测;
机器翻译评测 数据准备 短语表的获取 开发集的获取 对测试语料的特殊处理 实验结果
数据准备 根据CWMT’08发布的新闻训练语料过滤后的LDC语料规模 4.07M 根据CWMT’08发布的科技训练语料过滤后的LDC语料规模 根据CWMT’08发布的科技训练语料从CWMT’08发布的新闻 训练语料中过滤出的训练语料规模 532K 最终用于CWMT’08新闻翻译模型的训练语料规模 4.9M 最终用于CWMT’08科技翻译模型的训练语料规模 3.6M 最终用于CWMT’08新闻语言模型的训练语料规模 7.6M 最终用于CWMT’08科技语言模型的训练语料规模 7.4M
预处理 对中文数据进行的处理: 中文的分词,ICTCLAS3.0; 全角变半角, 对英文数据进行的处理: 大写转小写 标点符号的分离处理。
短语表的获取 所有机器翻译参评项目的短语表都是利用Moses工具包进行训练获取的,其中的参数都利用Moses工具包的默认设置。
开发集的获取 评测任务 新闻汉英 新闻英汉 科技英汉 开发集规模 2652个汉语句 子,4个参 考答案 2046个英语句 2593个英语句
开发集的获取 新闻评测任务 科技评测任务 以SSMT07的测试集作为基准 利用相似度从剩余开发集中过滤一部分开发集 与SSMT07测试集合并 开发集1:以测试集为基准;利用相似度从科技训练语料中抽取一部分作为开发集; 开发集2:利用测试集跟新闻发布训练中的英汉开发集的相似度来进行筛选过滤出来 把这两个开发集合并成最终用于科技评测任务的开发集。
对测试语料的特殊处理 这次评测使用的是时事新闻语料和科技语料 对测试语料进行特殊处理是很有必要的。 包含大量的命名实体,包括:人名、地名、机构名、时间、数字及未登陆词 对测试语料进行特殊处理是很有必要的。
对测试语料的特殊处理 对这些实体词进行特殊处理并获得翻译列表,设置一个较大的概率添加到训练获得的翻译短语对中对测试语料进行解码。
命名实体识别翻译 中文命名实体识别 英文命名实体识别 采用[Wu,2005]开发的多知识源融合的汉语实体识别系统进行汉语命名实体的识别; 采用公开的Mallet软件包中的基于条件随机场模型(Conditional Random Fields,CRF)的英语实体标注工具进行英语命名实体的识别标注;
命名实体识别翻译 汉英实体翻译 英汉实体翻译 所利用的词典主要是LDC2005T34实体词典和LDC2002L27词典。 对人名和地名:采用字典查询方式进行翻译 机构名的翻译:利用基于语块的层次翻译模型; 英汉实体翻译 对各类实体都采用逐词查询字典的方式进行翻译; 所利用的词典主要是LDC2005T34实体词典和LDC2002L27词典。
时间数字识别与翻译 时间数字识别和翻译主要是利用规则方法,将时间数字细化为六类来进行处理: 1、数量(Number); 2、序数词(Ordinal); 3、号码(Figure); 4、月份(Month); 5、日期(Date); 6、星期(Week)。
未登陆词识别与翻译 采用n元语法进行识别 首先通过对比测试集和训练集,找出测试集中的一元未登录词,并将中文一元未登录词周围的三元词组都作为未登录词,将英文一元未登录词周围的五元未登录词组都作为未登录词; 未登录词的翻译 主要是依赖LDC2005T34实体词典和LDC2002L27词典
后处理 汉语的后处理: 合并空格 英文的后处理: 字母大小写 标点符号的合并。
实验结果 新闻汉英评测任务在开发集上的打分 新闻英汉评测任务在开发集上的打分 科技评测任务在开发集上的打分 评测系统 BLEU-4大小写不敏感打分(基于词) Bandore 0.3286 Moses 0.3271 Combine 0.3135 BP 0.3028 新闻英汉评测任务在开发集上的打分 评测系统 BLEU-4大小写不敏感打分(基于词) Combine 0.2510 Moses 0.2398 BP 0.2391 科技评测任务在开发集上的打分 评测系统 BLEU-4大小写不敏感打分(基于词) Moses 0.7570
实验结果(续) 所有翻译评测任务在测试集上的翻译结果 评测任务 BLEU-4 大小写敏感 新闻汉英评测任务(Primary) 0.2188 0.2970 科技评测任务(Primary) 0.4718 科技评测任务(Contrast) 0.4421
U1(1,2) U3(1,2) U4 U7 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) U15 系统融合评测 10家单位的17个系统在开发集上的BLEU打分 UNIT U1(1,2) U3(1,2) U4 U7 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) U15 BLEU 25.65 25.58 23.01 26.68 27.24 15.77 19.59 20.79 21.67 21.69 17.84 29.81 21.97 20.97 20.52 21.23 24.96 不同方式的系统融合后翻译结果的BLEU得分(WRABC) 翻译假设数目 采用的组合方式 BLEU 1-Best U1(1,2) U3(1,2) U4 U7 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) U15 26.19 U1(1,2) U3(1,2) U4 U10(1,2,3) U12(1,2) U14(1,2,3) U15 26.20 U1(1) U3(1) U4 U10(1) U12(1) U14(1) U15 29.77 10-Best U3(1,2) U4 U8 U10(1,2,3) U11 U12(1,2) U14(1,2,3) 25.83 U3(1,2) U4 U10(1,2,3) U12(1,2) U14(1,2,3) U3(1) U4 U10(1) U12(1) U14(1) 27.97
系统融合评测(续) 利用不同的词对齐策略进行系统融合后翻译结果的BLEU得分 系统融合评测任务在测试集上的翻译结果 评测任务 组合方式 词对齐策略 BLEU U1(1) U3(1) U4 U10(1) U12(1) U14(1) U15 1-Best WER 30.51 TER 29.82 WRA 29.77 U3(1) U4 U10(1) U12(1) U14(1) 10-Best 28.35 28.01 27.97 系统融合评测任务在测试集上的翻译结果 评测任务 BLEU-4 大小写敏感 新闻汉英融合系统(Primary) 0.2679 新闻汉英融合系统( Contrast ) 0.2602
结 论 BPSMT只是使用了单调解码,因为没有加入调序模块,所以翻译结果并不是十分理想; 结 论 BPSMT只是使用了单调解码,因为没有加入调序模块,所以翻译结果并不是十分理想; Bandore系统的调序模型以前主要针对口语语料来做的,这次针对新闻语料只是对测试语料进行了调序,效果上也不太理想,要想取得更好的效果,我们需要对训练语料以及开发集都进行调序,以取得训练与测试集的一致性;
结 论 融合系统采用了目前主流的系统融合方法,并做了部分改进,但是还有很多工作需要进一步深入研究和完善,例如,组成混淆网络的词对齐没有利用近义词信息和词根信息,语言模型也只使用了4元语言模型等; 总之,希望通过这次评测,能够跟其它的研究机构和参评单位进行一次很好的沟通,努力学习其它参评系统的特长,总结经验,从而能够取长补短,进一步改进和完善我们目前的系统。
谢谢!