CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学 2008.11
提交系统 机器翻译: 2 机器翻译系统 + 1 系统融合结果 系统融合: 3 融合系统
机器翻译主评系统概述 4元词形/词性语言模型 基于词性的调序模型 Mosses 解码器 引入句法特征的翻译模型
语言模型特征 4元词形序列 4元词性序列
调序模型特征 Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone Forward-Swap Forward-Discontinuous
Translation Model Features E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数
元结构 (Meta Structure )
抽取短语及元结构 元结构随短语一起被抽取出来: S4|D S5|E S6|F ||| 源短语 t3|CC ||| 目标短语 D*H ||| 源短语元结构序列 CC 目标语元结构
结构性分数
Translation Model Features E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数
机器翻译对比系统概述 融合策略 A Mosses 解码器 对齐方法 1 融合策略 B 对齐方法 2 4元语言模型 调序模型 融合翻译模型 A
两种对齐方法 GIZA++ HIT-MITLAB Aligner(Yajuan Lv et al., 2003) 统计与字典相结合的方法 采用贪心算法
对齐方法的差异 测试数据: SSMT07 汉英训练数据集 - 815544句 G : Giza++ H : HIT 集合 对齐对 H 7,089,061 G 10,675,740 H∩G 4,787,381 H∪G 12,977,420 H-G 2,301,680 G-H 5,888,359 G : Giza++ H : HIT H∩G = 45% *G = 67%*H 2018/12/5
对齐质量 定义一个对齐对集合S的平均分数: Plex_f2n & Plex_n2f 为双向的词汇翻译概率表
对齐质量 集合 AvgScore_f2n AvgScore_n2f H 0.23 0.26 G 0.19 0.21 H∩G 0.31 0.35 H∪G 0.17 0.18 H-G 0.05 0.06 G-H 0.10 H∩G > H > G > H∪G > H-G>G-H
两种融合策略 数据级: 将两种对齐方法产生的对齐语料合并 用合并后的语料训练翻译模型 模型级: 分别用两种对齐结果训练获得两个翻译模型 将两个翻译模型合并,作为最终的翻译模型
两种策略性能比较 训练数据: SSMT07-815544 sentences 测试数据 SSMT07 C-E test data BLEU BLEU after PP UNK H 18.24 18.84 463 G 19.61 20.15 477 Data Level 20.34 20.83 363 Model Level 19.39 19.94 383
CWMT 2008 机器翻译评测结果 主系统: 引入元结构特征的短语统计翻译模型 对比系统: 引入对齐融合策略的短语统计翻译模型 汉英新闻 主系统: 引入元结构特征的短语统计翻译模型 对比系统: 引入对齐融合策略的短语统计翻译模型 汉英新闻 英汉新闻 英汉科技 主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620
语言学分析 (基于 MS-Woodpecker) 主系统在3个评测中的排名: 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9) 中文检测点 英文检测点 汉英新闻 英汉新闻 英汉科技 名词 2 11 形容词 5 7 动词 代词 3 1 副词 6 量词 - 数量短语 9 动词短语 谓宾短语 主谓短语 8 介宾短语 汉英新闻 英汉新闻 英汉科技 名词 2 11 形容词 4 10 动词 1 8 代词 副词短语 形容词变形 6 3 数量短语 连词短语 7 谓宾短语 主谓短语
系统融合 基于加权最小贝叶斯风险的句子级融合. 基于多特征及最小化错误训练的句子级融合. 词汇级与句子级融合相结合的方法.
加权最小贝叶斯风险方法 (MBR) 该方法基于最小贝叶斯风险 (Minimum Bayes Risk ) ,它在所有候选译 文中寻找一个相对于其他所有译文具有最小贝叶斯风险的译文作为最佳 译文:
加权最小贝叶斯风险方法 (MBR) 其中 L(E,E’) 为风险函数,这里我们使用两个译文的Bleu-4得分的倒数来表示. P(E,F) 为译文与源语言句子的联合概率, 这里我们使用译文的系统得分来 表示.
加权最小贝叶斯风险方法 (MBR) 我们使用每个系统在开发集上的Bleu-4得分的归一化结果作为这个系 统的权重,该权重被赋予每个属于该系统的译文:
在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误 多特征方法 在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误 训练方法来重新计算每个译文的模型得分,并将得分最高的译文作为最 佳译文: Pij : 第i个系统的第j个译文的模型得分 Wil : 第i个系统的第l个特征的权重 Xijl : 第i个系统的第j个译文的第l个特征的值
多特征方法 特征: 系统内排名 系统得分的系统内归一化结果 系统得分 词汇数 所有特征值被归于 [0,1] 之间
词汇级与句子级相结合的方法 (conMBR) 该方通过两个步骤将词汇级融合方法与句子级融合方法相结合: 首先,运用词汇级融合方法生成一个新的最佳译文:Econ . 然后,在原译文中,选择与 Econ 具有最小风险的译文作为最终的最佳译文。
融合性能 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句 BLEU 参与融合的系统的译文 Sys_1 0.3390 Sys_2 0.2823 Sys_3 0.2818 Sys_4 0.2803 Sys_5 0.2800 融合后的译文 MBR 0.3420 conMBR 0.3370 Multi-Features 0.3402 MBR (Sys_2,3,4,5) 0.2932 Upper bound 0.4102 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句
融合性能 CWMT 2008 Test _Data 汉英翻译. 新闻领域 4012 句 BLEU 参与融合的系统的译文 Sys_1 0.2809 Sys_2 0.2412 Sys_3 0.2390 Sys_4 0.2331 Sys_5 0.2188 融合后的译文 MBR 0.2944 conMBR 0.2808 Multi-Features 0.2192
多特征方法在机器翻译评测中的结果 汉英新闻 英汉新闻 汉英科技 主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620 融合结果 0.2058 0.2581 0.4542
谢谢!