Presentation is loading. Please wait.

Presentation is loading. Please wait.

中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月

Similar presentations


Presentation on theme: "中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月"— Presentation transcript:

1 中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
CWMT2008机器翻译评测 总结报告 中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月

2 提纲 ● 概述 ● 参评单位和参评系统 ● 评测语料 ● 评测流程 ● 评测方法 ● 评测结果 ● 评测结果分析 ● 总结和展望

3 概述 ● 机器翻译核心技术的评测 ● 目的: 推进机器翻译技术的交流和发展 ● 15个参评单位 ● 2个语种方向(汉英、英汉)
● 机器翻译核心技术的评测 ● 目的: 推进机器翻译技术的交流和发展 ● 15个参评单位 ● 2个语种方向(汉英、英汉) ● 两种领域(新闻、科技),其中科技翻译为新增项目 ● 新增了汉英新闻系统融合项目 ● 新增了WoodPecker评测 ● 新增了BLEU-SBP参考指标

4 参评单位 ● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1
● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc

5 参评单位和系统数量 项目 受限 不受限 合计 单位 系统 汉英新闻翻译 7 13 10 12 23 汉英新闻系统融合 6 英汉新闻翻译 4
9 8 11 20 英汉科技翻译 15 73

6 评测语料 机器翻语译料 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对
科技独有训练语料: ,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 6家单位参加了万方数据论文摘要句对齐语料的校对 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模: 机器翻译评测语料 句数 汉字数/单词数 制作单位 汉英新闻翻译汉语语料 1006 41042 计算所 英汉新闻翻译英语语料 1000 21767 英汉科技翻译英语语料 1008 21339 中信所

7 评测语料 参考译文 训练语料 测试语料 每句4个参考译文 4个以目标语言为母语的翻译者独立翻译
新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料 训练语料 SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果(共1,002句对) 测试语料 以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。 其中,12个系统提交了n-best结果,5个系统提交了1-best结果。 同本次评测汉英新闻翻译项目的参考集

8 评测流程 本次评测采用了网上评测的方式,流程如下: 8月31日 评测组织方发放各个项目的训练数据
8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统描述 10月20日 评测组织方发放汉英系统融合项目的测试数据 (即机器翻译项目参评单位提交的运行结果的汇总) 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统描述

9 评测方法 格式预处理: 解决办法:下次评测提供格式检测程序! 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。
各系统翻译的结果首先需要转换为评测软件能够处理的内部格式; 此次评测的内部格式更加接近NIST评测格式; 部分单位提交的结果格式不符合要求; 解决办法:下次评测提供格式检测程序! 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 体会:评测中最麻烦的问题莫过于格式和编码 统一采用UTF-8编码,但是: 带编码(如utf-8)的文件在Windows下复制到剪贴板上时(包括使用写字版和UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI编码),从而出现乱码。 不能采用utf-8、无BOM编码:因其不识别英镑符号£

10 评测方法 评测指标: 参考指标: 本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT
BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: 大小写敏感的 中文的评测是基于字的,而不是基于词的 由于缺少合适的双语词典资源,WoodPecker评测指标的计算方式中不考虑DM因子的作用(Zhou et al. 2008)。

11 评测方法: BLEU-SBP 我们发现了BLEU本身存在的问题: 将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变!
用BLEU进行A、B两个结果的显著性差异的符号检验,发现:

12 评测方法: BLEU-SBP BLEU of the base system Better(%) Worse(%) 置信度
Contrast Better(%) Worse(%) 置信度 Signi-ficant A 0.1964 B 72.07 27.53 0.01 Yes 0.2407 68.6 31.2 No 0.1947 61.6 38.0 0.2353 32.6 67.0 解决:采用BLEU-SBP指标 (David Chiang et al., 2008)

13 BLEU vs. BLEU-SBP 两者的最大区别在于bp ( brevity penalty)部分
请参考Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms, David Chiang, et.al, EMNLP2008 本质上,BLEU-sbp通过考虑候选译文的长度,引入了部分sentence-level信息

14 评测方法: BLEU-SBP 汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比

15 评测方法 符号检验: 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行了结果之间差异的显著性检验---符号检验
(Collins et al.,2005) 做法:分别以每个主系统为基准系统,测试了所有其它主系统与基准系统结果差异的显著性程度,以此构造了所有主系统翻译结果的差异显著性矩阵。

16 评测结果:汉英新闻主系统 受限情况 单位 BLEU4 BLEU4-SBP NIST5 GTM mWER mPER ICT 不受限 1
0.2809 0.2631 7.5235 0.7238 0.6824 0.5050 0.3805 2 0.2390 0.2233 7.8401 0.7039 0.7178 0.5086 0.3388 3 0.2275 0.2193 7.9180 0.7101 0.7209 0.5085 0.3262 受限 4 0.2264 0.2122 7.6426 0.7128 0.7307 0.5164 0.3352 5 0.2188 0.2126 7.8713 0.7140 0.7321 0.5102 0.3108 6 0.2051 0.2037 7.3550 0.7207 0.7225 0.5070 7 0.2033 0.1901 7.2819 0.6836 0.7262 0.5274 0.3220 8 0.1838 0.1700 6.8184 0.6596 0.7884 0.5676 0.2752 9 0.1773 0.1767 7.0795 0.7096 0.7121 0.5176 0.2423 10 0.1686 0.1643 7.2578 0.6907 0.7564 0.5432 0.2814 11 0.1539 0.1529 6.8468 0.6752 0.7394 0.5393 0.2438 12 0.0968 0.0932 5.9160 0.5733 0.8216 0.6179 0.2211

17 汉英新闻主系统BLEU结果 汉 英 新 闻 主 系 统 1 2 3 4 5 6 7 8 9 10 11 12 0.05 0.10 0.15
0.0968 0.1686 0.1838 0.2033 0.2051 0.2264 0.1539 0.1773 0.2188 0.2275 0.2390 0.2809 0.05 0.10 0.15 0.20 0.25 0.30 12 10 8 7 6 4 11 9 5 3 2 1 BLEU-4 汉 英 新 闻 主 系 统 1 0.2809 2 0.2390 3 0.2275 4 0.2264 5 0.2188 6 0.2051 7 0.2033 8 0.1838 左侧的彩色方框为显著性检验的结果,同一框内的系统之间不呈现显著性差异 颜色 基准系统 紫 2|| 黑 3|| 天蓝 4,5|| 红 6,7 || 绿 8,9,10 9 0.1773 10 0.1686 11 0.1539 12 0.0968 0.05 0.10 0.15 0.20 0.25 0.30 BLEU-4

18 评测结果:英汉新闻主系统 受限情况 单位 BLEU5 BLEU5-SBP BLEU6 NIST6 NIST7 GTM mWER mPER
ICT 不受限 1 0.3263 0.3113 0.2652 9.2769 9.2869 0.7582 0.6485 0.4008 0.3941 2 0.3157 0.3070 0.2542 9.5048 9.5143 0.7754 0.6468 0.4048 0.3603 3 0.2970 0.2847 0.2349 8.9366 8.9430 0.7556 0.6728 0.4087 0.3865 受限 4 0.2622 0.2526 0.2045 8.2371 8.2434 0.7137 0.6928 0.4416 0.3473 5 0.2611 0.2579 0.2029 8.8019 8.8083 0.7753 0.6698 0.4139 0.3120 6 0.2532 0.2417 0.1946 8.2184 8.2237 0.7110 0.7215 0.4491 0.3146 7 0.2413 0.2354 0.1867 8.2081 8.2135 0.7283 0.7133 0.4621 0.2810 8 0.2408 0.2353 0.1838 7.5465 7.5504 0.7101 0.6851 0.4566 0.3564 9 0.2369 0.2233 0.1818 7.9624 7.9670 0.7013 0.7184 0.4735 0.3174 10 0.2129 0.2084 0.1615 7.8425 7.8460 0.6958 0.7395 0.4842 0.2559 11 0.1964 0.1947 0.1482 7.4316 7.4359 0.7173 0.4771 0.2434

19 英汉新闻主系统BLEU结果 英 汉 新 闻 主 系 统 1 2 4 5 6 7 8 9 11 BLEU-5 0.1964 0.2129
0.2369 0.2408 0.2413 0.2532 0.2611 0.2622 0.297 0.3157 0.3263 0.15 0.20 0.25 0.30 0.35 11 10 9 8 7 6 5 4 3 2 1 BLEU-5 英 汉 新 闻 主 系 统 1 0.3263 2 0.3157 3 0.297 5 0.2611 7 0.2413 10 0.2129 11 0.1964 颜色 基准系统 紫 1,2 || 橙 4 || 蓝 5 || 绿 6 || 红 7 || 紫 9|| 黑 8 4 0.2622 6 0.2532 8 0.2408 9 0.2369 0.15 0.20 0.25 0.30 0.35 BLEU-5

20 评测结果:英汉科技主系统 受限情况 单位 BLEU5 BLEU5-SBP BLEU6 NIST6 NIST7 GTM mWER mPER
ICT 不受限 1 0.4879 0.4811 0.4319 0.8588 0.5185 0.2980 0.4864 2 0.4718 0.4551 0.4223 0.8204 0.5665 0.3191 0.4749 受限 3 0.4618 0.4533 0.4028 0.8497 0.5440 0.3105 0.4692 4 0.4026 0.3853 0.3392 0.8220 0.5981 0.3550 0.4380 5 0.3743 0.3595 0.3122 9.9192 9.9306 0.8087 0.6173 0.3551 0.4229 6 0.3651 0.3590 0.3014 0.8124 0.5726 0.3554 0.4042 7 0.3528 0.3467 0.2887 9.8271 9.8385 0.7993 0.6210 0.3579 0.3739 8 0.2859 0.2841 0.2243 9.1141 9.1209 0.6055 0.3796 0.3342 9 0.2173 0.2166 0.1653 7.7003 7.7047 0.7452 0.6653 0.4466 0.2476

21 英汉科技主系统BLEU结果 英 汉 科 技 主 系 统 0.20 0.30 0.40 0.50 9 8 7 6 5 3 2 1 BLEU-5
0.2173 0.2859 0.3528 0.3651 0.3743 0.4026 0.4618 0.4718 0.4879 0.20 0.30 0.40 0.50 9 8 7 6 5 4 3 2 1 BLEU-5 英 汉 科 技 主 系 统 1 0.4879 2 0.4718 6 0.3651 8 0.2859 9 0.2173 3 0.4618 4 0.4026 5 0.3743 7 0.3528 0.20 0.25 0.30 0.35 0.40 0.45 0.50 BLEU-5

22 评测结果:汉英新闻系统融合主系统 单位 BLEU4 BLEU4-SBP NIST5 GTM mWER mPER ICT 1 0.2944
0.2758 7.7501 0.7319 0.6761 0.4972 0.3920 2 0.2906 0.2683 8.3747 0.7543 0.6785 0.4813 0.3828 3 0.2873 0.2711 8.4634 0.7478 0.6952 0.4838 0.3545 4 0.2721 0.2512 7.4408 0.7219 0.6995 0.5187 0.3794 5 0.2679 0.2560 8.2823 0.7531 0.6986 0.4926 0.3492 6 0.2509 0.2380 8.1013 0.7196 0.7154 0.5005 0.3336

23 汉英新闻系统融合主系统BLEU结果 汉 英 新 闻 系 统 融 合 1 2 3 4 5 6 0.2509 0.2679 0.2721
0.2873 0.2906 0.2944 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.3 6 5 4 3 2 1 BLEU-4

24 评测结果分析:各主系统所用方法 以规则方法为主 以统计方法为主 1 2 3 4 5 6 7 8 9 10 11 12 汉英新闻 英汉新闻
英汉科技 1 2 3 4 5 6 7 8 9 10 11 12 以规则方法为主 以统计方法为主

25 评测结果分析 BLEU 统计 规则 汉英新闻 BLEU4 0.2025 0.1862 英汉新闻 BLEU5 0.2694 0.2455
两种方法在各项目中的平均BLEU对比表明:统计方法在英汉科技的BLEU得分上优势明显,这一点也可以从随后的WoodPecker评测结果上看出来。 BLEU 统计 规则 汉英新闻 BLEU4 0.2025 0.1862 英汉新闻 BLEU5 0.2694 0.2455 英汉科技 0.4252 0.2894 英汉科技bleu score比较高的原因,可能原因:科技语料相对新闻语料稳定,数据稀疏问题相对缓和,而且句子中的词序相对固定,统计方法通过大规模分析也容易获得较好的结果。 这个符合机器翻译更适用于科技领域的结论 结论:科技翻译很适合于使用统计机器翻译方法 25

26 评测结果分析 系统融合的最好结果仅比单系统的最好结果BLEU值高出1.35个百分点,比预想的要差得多 原因还没有弄明白

27 评测结果分析 MSRA在汉英新闻不受限项目上优势明显 与去年SSMT2007评测相比,HIT、NEU等单位进步非常大 基于规则的系统表现比想象的好

28 评测方法: WoodPecker WoodPecker是微软亚洲研究院开发的基于检测点的评测工具 下载地址: 基于语言学分类的检测工具
检测点自动抽取 可以提供词级、短语级以及句级的评价指标 下载地址:

29 WoodPecker: 系统流程 Translations Scores Bilingual trees & Alignment
Bilingual testing corpus Bilingual trees & Alignment Extra Data Files Check-point Evaluation Check-point Database MT system Evaluation of Check-points Evaluation of Category Evaluation of Category Group Check-point Extraction Parser & Aligner Translations Scores Linguistic Taxonomy word Phrase Sentence Verb Check-points NP Check-points Noun Check-points …… “BA” sentence Check-points

30 WoodPecker: 相关工具 数据预处理 词对齐 Parsing 中文全/半角转换: A3区全半角转换 A2B
中文分词: ICTCLAS 英文首字母大小写转化 Truecase 英文Tokenization 词对齐 GIZA++ Parsing Berkeley Parser Stanford Parser 为了获得更好的结果,在抽取和评测时,应使用相同的预处理过程; Stanford Parser 提供依存关系和句法分析结果 Berkeley Parser 提供句法分析结果 词语对齐: 为了获得较好的对齐效果,引入了FBIS语料作为辅助语料,与评测语料合并后,进行GIZA++对齐。 句法分析: 在建立测试语料上的检测点数据库时,为了减少句法分析错误的影响,在英汉方向使用了Stanford statistical parser和Berkeley statistical parser两个句法分析器; 在汉英方向,由于Stanford statistical parser 效果不佳,最终只采用了Berkeley statistical parser的分析结果。 30

31 检测点提取和选择 检测点的提取和评测: 检测点的选择: 参考译文的预处理方法和对参评系统输出的预处理方法保持一致。
基于WoodPecker语言学检测点分类体系,从评测语料中总共提取出了52种汉英检测点,81种英汉检测点。 检测点的选择: 根据出现频次对检测点类别进行了筛选: 源语言检测点:出现频次﹥10 目标语言检测点:出现频次﹥40 (注: 独立计算每个参考译文中检测点的频次) 说明: (1)汉英介词同时计入功能词类别和内容词类别.(2)英汉歧义词没有考虑 最终选取的检测点类别数目: 汉英检测点: 46 英汉检测点: 58

32 评测结果:WoodPecker 汉英新闻主系统 英汉新闻主系统 英汉科技主系统 汉英新闻系统融合
检测点抽取,比较简单,通过相应工具得到所需输入文件,用woodpecker extractor即可获得,具体过程可以参照woodpecker Manual 由于是第一次做检测点评测,我们没有对检测点进行特殊的筛选 32

33 WoodPecker 与 BLEU 相关性分析 (英汉)
项目 检测点 Spearman Pearson ec_ news General 0.8727 0.9283 G:Words 0.8273 0.8747 G:Phrases 0.9340 G:Sentences 0.9182 0.8929 tech 0.8000 0.9105 0.7167 0.8547 0.8667 0.9378 0.6179 左侧图中,为bleu score和woodpecker给出的general/words/phrases/sentences四个方面的分数,从图中我们看到bleu和woodpecker的结果有很相似的趋势 其中general为总分, 右侧表格中为,bleu和woodpecker的在general/words/phrases/sentences四个方面的相关性分析结果。Spearman和Pearson分别为spearman相关系数和Pearson相关系数,spearman 检验确定观测序列是否具有单调增加关系,pearson检验确定两变量线性相关程度 N = 11, p = 0.05时,Spearman相关系数边界为0.536 N = 9, p = 0.05时,Spearman相关系数边界为0.600 表格中Spearman相关系数均大于0.600,因此可以认为bleu和woodpecker的general/words/phrases/sentences是单调增加关系

34 WoodPecker 与 BLEU 相关性分析 (汉英)
项目 检测点 Spearman Pearson ce_ news General 0.5594 0.7182 G:Words 0.1678 0.4138 G:Phrases 0.6224 0.7425 G:Sentences 0.6923 0.7607 _comb 0.0857 0.2232 0.2682 0.1429 0.3263 从上面四幅图,以及woodpecker与bleu的相关性分析,可以发现,在英汉新闻、英汉科技和汉英新闻主系统中, woodpecker的结果和bleu的结果相关性比较高,曲线走势也比较相似。 N = 11, p = 0.05时,Spearman相关系数边界为0.503 N = 6, p = 0.05时,Spearman相关系数边界为0.829 但是,在汉英新闻系统融合的结果中,bleu和woodpecker的相关性则很差。通过比较系统融合结果、单系统输出结果和woodpecker抽取的检测点,我们发现:尽管系统融合得到更好的n-gram结果,但是符合检测点的语法结构却大幅下降,可能是这种原因导致两种检测方式的相关性比较差

35 WoodPecker 与 BLEU 相关性分析 --相关性最好的5类检测点
子项目 检测点 Spearman Pearson ce_news T:Article 0.6993 0.8259 ec_tech T:VP 0.9333 0.9717 T:NP 0.7063 0.7903 T:Adv_MOD 0.9167 0.9681 T:PP 0.6573 0.7877 T:Adverb 0.8833 0.9587 S:NP 0.6294 0.7606 S:VP 0.8667 0.9535 0.7409 0.9460 ec_news 0.9455 0.9536 ce_news_ comb T:Prep 0.3714 0.6499 0.9545 0.9533 0.2000 0.5312 0.8545 0.9456 S:Predi_Obj 0.4898 0.9372 S:PP 0.4106 0.8909 0.9331 S:Prep 0.1429 0.3554 同前面woodpecker vs bleu中的表格反映的结果相似,在汉英新闻、英汉科技、英汉新闻三个子项目中,单个检测点的score与bleu score呈现出比较好的相关性;在汉英新闻系统融合子项目中相关性比较差

36 WoodPecker 与 BLEU 相关性分析 --相关性最差的5类检测点
子项目 检测点 Spearman Pearson ec_news T:Adverb 0.2636 0.2474 ce_news T:Verb T:Pron 0.1454 0.1803 T:Predi_Obj T:Prep T:Sub_Predi T:Quantity T:Adv_MOD S:DicPrep ec_tech S:Pron 0.4666 0.5087 _comb T:Adj_MOD 0.1500 0.2674 0.2333 0.2172 T:Noun S:Verb S:AmbiWord

37 评测结果分析 在汉英新闻领域,在源语言的“搭配”、“介词”两个检测点上,统计翻译系统显示出一定优势: 箭头指示的为基于规则的系统

38 评测结果分析 在汉英新闻领域,“成语”测试点上,基于规则的系统则表现更好: 箭头指示的为基于规则的系统

39 评测结果分析 在英汉新闻领域, “介词”和“词典介词”两个检测点,基于规则的系统占优: 箭头指示的为基于规则的系统

40 评测结果分析 在英汉新闻领域,源语言的“数词短语”测试点上,基于规则的翻译系统结果较好: 箭头指示的为基于规则的系统

41 评测结果分析 各项目WoodPecker评测中总分前五名的结果显示:在英汉新闻领域,基于规则的系统在这种基于语言学分类的检测点评测中显示了一定的优势: 汉英新闻 5 6 4 10 1 0.2883 0.2835 0.2649 0.263 0.2629 英汉新闻 2 3 7 0.401 0.3987 0.3898 0.3771 0.3596 英汉科技 0.5044 0.4984 0.4895 0.481 0.478 汉英新闻系统融合 0.2887 0.2824 0.2812 0.2686 0.2671

42 总结和展望 总结: 展望: 从准备到结束历时半年,期间细节之繁琐非一个“累”字了得!
所幸评测中的小 “闪失” 都得到了纠正,更有幸都得到了大家的谅解! 改进之处: 更加详尽的评测大纲 增加了科技翻译评测 增加了系统融合评测 引入BLEU-SBP,并进行了显著性检验 引入WoodPecker! 展望: 交流、沟通、进步!

43 总结和展望 下次评测怎么做? 项目设置 词语对齐? 系统融合? 科技翻译? 其他? 训练语料 评测指标 组织方式

44 致谢 感谢为此次评测提供训练数据的单位,他们是(按拼音顺序排列): 北京大学计算语言学研究所 哈尔滨工业大学信息检索实验室(无偿)
哈尔滨工业大学机器智能与翻译研究室 万方数据公司 厦门大学 中国科学技术信息研究所(无偿) 中国科学院计算技术研究所 中国科学院自动化研究所 感谢为此次评测中提供测试数据的单位,他们是(按拼音顺序排列): 中国科学技术信息研究所(无偿)特别感谢! 本次WoodPecker评测的全过程中,得到了 微软亚洲研究院自然语言计算组的张冬冬、李沐 的鼎立协助,在此深表感谢! 感谢本次评测组织工作的主要承担者付出的艰辛劳动:赵红梅、谢军!

45 参考文献 David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages , Honolulu, October ©2008 Association for Computational Linguistics Ming Zhou, Bo Wang, Shujie Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008. Natural Language Computing Group, Microsoft Research Asia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems Michael Collins, Philipp Koehn, and Ivona Kuˇcerov´a Clause restructuring for statistical machine translation. In Proc. ACL 2005, pages 531–540.

46 倾听意见和建议 谢谢!


Download ppt "中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月"

Similar presentations


Ads by Google