中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月

Slides:



Advertisements
Similar presentations
CNKI 知识资源总库 应用培训 内容要点 一、知网及产品体系 二、新版检索平台 三、基础功能演示 四、应用案例演示 五、实际操作.
Advertisements

LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
CWMT’08统计机器翻译研讨会自动化所技术报告
电子信息类专业英语.
在PHP和MYSQL中实现完美的中文显示
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
统计机器翻译简介 刘群
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
SOA – Experiment 3: Web Services Composition Challenge
CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学
元素替换法 ——行列式按行(列)展开(推论)
Wentao Ding Linfeng Shi Jiajie Yu
数 控 技 术 华中科技大学机械科学与工程学院.
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
中国科学院计算技术研究所CWMT 2008评测技术报告
中科院自动化所评测技术报告(SYSTEM II)
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
湖南大学-信息科学与工程学院-计算机与科学系
Science and technology report service systemUsage method
美国数学学会 MathSciNet 电子资源的检索和使用
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
编程作业3:网页正文抽取 (10分).
C语言程序设计 主讲教师:陆幼利.
暑期活动见闻 程龚.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
计算机及办公软件应用 ©2013 苏州工业园区职业技术学院
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
中文题名 介绍/亮点 研究方法 结果/讨论 结论 作者1 1*,作者2 1,2,作者3 2
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
姚金宇 MIT SCHEME 使用说明 姚金宇
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
双语例句搜索 句库+巨酷 Web: Beijing 2008.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
滤波减速器的体积优化 仵凡 Advanced Design Group.
基于列存储的RDF数据管理 朱敏
FH实验中电子能量分布的测定 乐永康,陈亮 2008年10月7日.
本底对汞原子第一激发能测量的影响 钱振宇
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
Non-Projective Parsing for Statistical Machine Translation
RefWorks使用指南 归档、管理个人参考文献.
入侵检测技术 大连理工大学软件学院 毕玲.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月 CWMT2008机器翻译评测 总结报告 中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月

提纲 ● 概述 ● 参评单位和参评系统 ● 评测语料 ● 评测流程 ● 评测方法 ● 评测结果 ● 评测结果分析 ● 总结和展望

概述 ● 机器翻译核心技术的评测 ● 目的: 推进机器翻译技术的交流和发展 ● 15个参评单位 ● 2个语种方向(汉英、英汉) ● 机器翻译核心技术的评测 ● 目的: 推进机器翻译技术的交流和发展 ● 15个参评单位 ● 2个语种方向(汉英、英汉) ● 两种领域(新闻、科技),其中科技翻译为新增项目 ● 新增了汉英新闻系统融合项目 ● 新增了WoodPecker评测 ● 新增了BLEU-SBP参考指标

参评单位 ● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 厦门大学人工智能研究所 ● 中国软件与技术服务股份有限公司 ● 东北大学自然语言处理实验室 ● 中科院自动化研究所系统1 ● 中科院自动化研究所系统2 ● 北京迈创语通软件有限公司 ● 北京赛迪翻译技术有限公司 ● 中国科学院软件研究所 ● 西安汇申软件有限公司 ● 中科院计算技术研究所多语言交互技术研究室 ● 北京航空航天大学计算机学院智能信息处理研究所 ● 微软亚洲研究院 ● 北京工业大学 ● 哈尔滨工业大学机器智能与翻译研究室 ● SYSTRAN Software, Inc

参评单位和系统数量 项目 受限 不受限 合计 单位 系统 汉英新闻翻译 7 13 10 12 23 汉英新闻系统融合 6 英汉新闻翻译 4 9 8 11 20 英汉科技翻译 15 73

评测语料 机器翻语译料 训练语料: 新闻、科技公共训练语料:868,947句对; 科技独有训练语料: 620,985句对 科技独有训练语料: 620,985句对 其中, 万方数据:320,985句对 中信所语料:300,000句对。 6家单位参加了万方数据论文摘要句对齐语料的校对 测试语料:新闻语料按照分割日期规定均采自国内外新闻网站; 所有测试集中均混入了3倍的干扰集,真实测试集规模: 机器翻译评测语料 句数 汉字数/单词数 制作单位 汉英新闻翻译汉语语料 1006 41042 计算所 英汉新闻翻译英语语料 1000 21767 英汉科技翻译英语语料 1008 21339 中信所

评测语料 参考译文 训练语料 测试语料 每句4个参考译文 4个以目标语言为母语的翻译者独立翻译 新闻的参考译文由计算所制作,科技的参考译文由中信所提供 系统融合语料 训练语料 SSMT2007汉英新闻测试集、参考集和本次评测中10家参评单位提交的17个系统在SSMT2007汉英新闻真实测试语料上的翻译结果(共1,002句对) 测试语料 以上17个系统在CWMT2008汉英新闻测试集上的翻译结果。 其中,12个系统提交了n-best结果,5个系统提交了1-best结果。 同本次评测汉英新闻翻译项目的参考集

评测流程 本次评测采用了网上评测的方式,流程如下: 8月31日 评测组织方发放各个项目的训练数据 8月31日 评测组织方发放各个项目的训练数据 10月8日 评测组织方发放新闻翻译项目的测试数据 10月10日 参评单位提交新闻翻译项目的测试运行结果和系统描述 10月13日 评测组织方发放英汉科技翻译项目的测试数据 10月15日 各参评单位提交英汉科技翻译项目的测试运行结果和系统描述 10月20日 评测组织方发放汉英系统融合项目的测试数据 (即机器翻译项目参评单位提交的运行结果的汇总) 10月22日 各参评单位提交汉英系统融合项目的测试运行结果和系统描述

评测方法 格式预处理: 解决办法:下次评测提供格式检测程序! 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 各系统翻译的结果首先需要转换为评测软件能够处理的内部格式; 此次评测的内部格式更加接近NIST评测格式; 部分单位提交的结果格式不符合要求; 解决办法:下次评测提供格式检测程序! 10月22日收到提交结果后开始进行自动评测,10月28日全部完成。 体会:评测中最麻烦的问题莫过于格式和编码 统一采用UTF-8编码,但是: 带编码(如utf-8)的文件在Windows下复制到剪贴板上时(包括使用写字版和UltraEdit),很多符号如引号和连字符等都会被转换成默认的编码方式(如ANSI编码),从而出现乱码。 不能采用utf-8、无BOM编码:因其不识别英镑符号£

评测方法 评测指标: 参考指标: 本次评测采用多种自动评价指标,包括: BLEU、 NIST、GTM、mWER、mPER、ICT BLEU-SBP:采用修改bp的BLEU WoodPecker:提供基于检测点的评测结果 以上指标均为: 大小写敏感的 中文的评测是基于字的,而不是基于词的 由于缺少合适的双语词典资源,WoodPecker评测指标的计算方式中不考虑DM因子的作用(Zhou et al. 2008)。

评测方法: BLEU-SBP 我们发现了BLEU本身存在的问题: 将测试结果中2%的句子缩短为只有1-2个单词,BLEU值不变! 用BLEU进行A、B两个结果的显著性差异的符号检验,发现:

评测方法: BLEU-SBP BLEU of the base system Better(%) Worse(%) 置信度 Contrast Better(%) Worse(%) 置信度 Signi-ficant A 0.1964 B 72.07 27.53 0.01 Yes 0.2407 68.6 31.2 No 0.1947 61.6 38.0 0.2353 32.6 67.0 解决:采用BLEU-SBP指标 (David Chiang et al., 2008)

BLEU vs. BLEU-SBP 两者的最大区别在于bp ( brevity penalty)部分 请参考Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms, David Chiang, et.al, EMNLP2008 本质上,BLEU-sbp通过考虑候选译文的长度,引入了部分sentence-level信息

评测方法: BLEU-SBP 汉英新闻12个参评主系统BLEU4与BLEU-SBP结果对比

评测方法 符号检验: 在BLEU-SBP的基础上,针对各主系统的翻译结果,进行了结果之间差异的显著性检验---符号检验 (Collins et al.,2005) 做法:分别以每个主系统为基准系统,测试了所有其它主系统与基准系统结果差异的显著性程度,以此构造了所有主系统翻译结果的差异显著性矩阵。

评测结果:汉英新闻主系统 受限情况 单位 BLEU4 BLEU4-SBP NIST5 GTM mWER mPER ICT 不受限 1 0.2809 0.2631 7.5235 0.7238 0.6824 0.5050 0.3805 2 0.2390 0.2233 7.8401 0.7039 0.7178 0.5086 0.3388 3 0.2275 0.2193 7.9180 0.7101 0.7209 0.5085 0.3262 受限 4 0.2264 0.2122 7.6426 0.7128 0.7307 0.5164 0.3352 5 0.2188 0.2126 7.8713 0.7140 0.7321 0.5102 0.3108 6 0.2051 0.2037 7.3550 0.7207 0.7225 0.5070 7 0.2033 0.1901 7.2819 0.6836 0.7262 0.5274 0.3220 8 0.1838 0.1700 6.8184 0.6596 0.7884 0.5676 0.2752 9 0.1773 0.1767 7.0795 0.7096 0.7121 0.5176 0.2423 10 0.1686 0.1643 7.2578 0.6907 0.7564 0.5432 0.2814 11 0.1539 0.1529 6.8468 0.6752 0.7394 0.5393 0.2438 12 0.0968 0.0932 5.9160 0.5733 0.8216 0.6179 0.2211

汉英新闻主系统BLEU结果 汉 英 新 闻 主 系 统 1 2 3 4 5 6 7 8 9 10 11 12 0.05 0.10 0.15 0.0968 0.1686 0.1838 0.2033 0.2051 0.2264 0.1539 0.1773 0.2188 0.2275 0.2390 0.2809 0.05 0.10 0.15 0.20 0.25 0.30 12 10 8 7 6 4 11 9 5 3 2 1 BLEU-4 受 限 不 汉 英 新 闻 主 系 统 1 0.2809 2 0.2390 3 0.2275 4 0.2264 5 0.2188 6 0.2051 7 0.2033 8 0.1838 左侧的彩色方框为显著性检验的结果,同一框内的系统之间不呈现显著性差异 颜色 基准系统 紫 2|| 黑 3|| 天蓝 4,5|| 红 6,7 || 绿 8,9,10 9 0.1773 10 0.1686 11 0.1539 12 0.0968 0.05 0.10 0.15 0.20 0.25 0.30 BLEU-4

评测结果:英汉新闻主系统 受限情况 单位 BLEU5 BLEU5-SBP BLEU6 NIST6 NIST7 GTM mWER mPER ICT 不受限 1 0.3263 0.3113 0.2652 9.2769 9.2869 0.7582 0.6485 0.4008 0.3941 2 0.3157 0.3070 0.2542 9.5048 9.5143 0.7754 0.6468 0.4048 0.3603 3 0.2970 0.2847 0.2349 8.9366 8.9430 0.7556 0.6728 0.4087 0.3865 受限 4 0.2622 0.2526 0.2045 8.2371 8.2434 0.7137 0.6928 0.4416 0.3473 5 0.2611 0.2579 0.2029 8.8019 8.8083 0.7753 0.6698 0.4139 0.3120 6 0.2532 0.2417 0.1946 8.2184 8.2237 0.7110 0.7215 0.4491 0.3146 7 0.2413 0.2354 0.1867 8.2081 8.2135 0.7283 0.7133 0.4621 0.2810 8 0.2408 0.2353 0.1838 7.5465 7.5504 0.7101 0.6851 0.4566 0.3564 9 0.2369 0.2233 0.1818 7.9624 7.9670 0.7013 0.7184 0.4735 0.3174 10 0.2129 0.2084 0.1615 7.8425 7.8460 0.6958 0.7395 0.4842 0.2559 11 0.1964 0.1947 0.1482 7.4316 7.4359 0.7173 0.4771 0.2434

英汉新闻主系统BLEU结果 英 汉 新 闻 主 系 统 1 2 4 5 6 7 8 9 11 BLEU-5 0.1964 0.2129 0.2369 0.2408 0.2413 0.2532 0.2611 0.2622 0.297 0.3157 0.3263 0.15 0.20 0.25 0.30 0.35 11 10 9 8 7 6 5 4 3 2 1 BLEU-5 英 汉 新 闻 主 系 统 1 0.3263 2 0.3157 不 3 0.297 5 0.2611 受 7 0.2413 限 10 0.2129 11 0.1964 颜色 基准系统 紫 1,2 || 橙 4 || 蓝 5 || 绿 6 || 红 7 || 紫 9|| 黑 8 4 0.2622 受 6 0.2532 8 0.2408 限 9 0.2369 0.15 0.20 0.25 0.30 0.35 BLEU-5

评测结果:英汉科技主系统 受限情况 单位 BLEU5 BLEU5-SBP BLEU6 NIST6 NIST7 GTM mWER mPER ICT 不受限 1 0.4879 0.4811 0.4319 11.3272 11.3514 0.8588 0.5185 0.2980 0.4864 2 0.4718 0.4551 0.4223 10.9460 10.9676 0.8204 0.5665 0.3191 0.4749 受限 3 0.4618 0.4533 0.4028 11.0845 11.1053 0.8497 0.5440 0.3105 0.4692 4 0.4026 0.3853 0.3392 10.3247 10.3379 0.8220 0.5981 0.3550 0.4380 5 0.3743 0.3595 0.3122 9.9192 9.9306 0.8087 0.6173 0.3551 0.4229 6 0.3651 0.3590 0.3014 10.1106 10.1249 0.8124 0.5726 0.3554 0.4042 7 0.3528 0.3467 0.2887 9.8271 9.8385 0.7993 0.6210 0.3579 0.3739 8 0.2859 0.2841 0.2243 9.1141 9.1209 0.6055 0.3796 0.3342 9 0.2173 0.2166 0.1653 7.7003 7.7047 0.7452 0.6653 0.4466 0.2476

英汉科技主系统BLEU结果 英 汉 科 技 主 系 统 0.20 0.30 0.40 0.50 9 8 7 6 5 3 2 1 BLEU-5 0.2173 0.2859 0.3528 0.3651 0.3743 0.4026 0.4618 0.4718 0.4879 0.20 0.30 0.40 0.50 9 8 7 6 5 4 3 2 1 BLEU-5 英 汉 科 技 主 系 统 1 0.4879 2 0.4718 不 6 0.3651 8 0.2859 受 9 0.2173 限 3 0.4618 受 4 0.4026 5 0.3743 限 7 0.3528 0.20 0.25 0.30 0.35 0.40 0.45 0.50 BLEU-5

评测结果:汉英新闻系统融合主系统 单位 BLEU4 BLEU4-SBP NIST5 GTM mWER mPER ICT 1 0.2944 0.2758 7.7501 0.7319 0.6761 0.4972 0.3920 2 0.2906 0.2683 8.3747 0.7543 0.6785 0.4813 0.3828 3 0.2873 0.2711 8.4634 0.7478 0.6952 0.4838 0.3545 4 0.2721 0.2512 7.4408 0.7219 0.6995 0.5187 0.3794 5 0.2679 0.2560 8.2823 0.7531 0.6986 0.4926 0.3492 6 0.2509 0.2380 8.1013 0.7196 0.7154 0.5005 0.3336

汉英新闻系统融合主系统BLEU结果 汉 英 新 闻 系 统 融 合 1 2 3 4 5 6 0.2509 0.2679 0.2721 0.2873 0.2906 0.2944 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.3 6 5 4 3 2 1 BLEU-4

评测结果分析:各主系统所用方法 以规则方法为主 以统计方法为主 1 2 3 4 5 6 7 8 9 10 11 12 汉英新闻 英汉新闻 英汉科技 1 2 3 4 5 6 7 8 9 10 11 12 以规则方法为主 以统计方法为主

评测结果分析 BLEU 统计 规则 汉英新闻 BLEU4 0.2025 0.1862 英汉新闻 BLEU5 0.2694 0.2455 两种方法在各项目中的平均BLEU对比表明:统计方法在英汉科技的BLEU得分上优势明显,这一点也可以从随后的WoodPecker评测结果上看出来。 BLEU 统计 规则 汉英新闻 BLEU4 0.2025 0.1862 英汉新闻 BLEU5 0.2694 0.2455 英汉科技 0.4252 0.2894 英汉科技bleu score比较高的原因,可能原因:科技语料相对新闻语料稳定,数据稀疏问题相对缓和,而且句子中的词序相对固定,统计方法通过大规模分析也容易获得较好的结果。 这个符合机器翻译更适用于科技领域的结论 结论:科技翻译很适合于使用统计机器翻译方法 25

评测结果分析 系统融合的最好结果仅比单系统的最好结果BLEU值高出1.35个百分点,比预想的要差得多 原因还没有弄明白

评测结果分析 MSRA在汉英新闻不受限项目上优势明显 与去年SSMT2007评测相比,HIT、NEU等单位进步非常大 基于规则的系统表现比想象的好

评测方法: WoodPecker WoodPecker是微软亚洲研究院开发的基于检测点的评测工具 下载地址: 基于语言学分类的检测工具 检测点自动抽取 可以提供词级、短语级以及句级的评价指标 下载地址: http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-6a7c7919b4a/details.aspx

WoodPecker: 系统流程 Translations Scores Bilingual trees & Alignment Bilingual testing corpus Bilingual trees & Alignment Extra Data Files Check-point Evaluation Check-point Database MT system Evaluation of Check-points Evaluation of Category Evaluation of Category Group Check-point Extraction Parser & Aligner Translations Scores Linguistic Taxonomy word Phrase Sentence Verb Check-points NP Check-points Noun Check-points …… “BA” sentence Check-points

WoodPecker: 相关工具 数据预处理 词对齐 Parsing 中文全/半角转换: A3区全半角转换 A2B 中文分词: ICTCLAS 英文首字母大小写转化 Truecase 英文Tokenization 词对齐 GIZA++ Parsing Berkeley Parser Stanford Parser 为了获得更好的结果,在抽取和评测时,应使用相同的预处理过程; Stanford Parser 提供依存关系和句法分析结果 Berkeley Parser 提供句法分析结果 词语对齐: 为了获得较好的对齐效果,引入了FBIS语料作为辅助语料,与评测语料合并后,进行GIZA++对齐。 句法分析: 在建立测试语料上的检测点数据库时,为了减少句法分析错误的影响,在英汉方向使用了Stanford statistical parser和Berkeley statistical parser两个句法分析器; 在汉英方向,由于Stanford statistical parser 效果不佳,最终只采用了Berkeley statistical parser的分析结果。 30

检测点提取和选择 检测点的提取和评测: 检测点的选择: 参考译文的预处理方法和对参评系统输出的预处理方法保持一致。 基于WoodPecker语言学检测点分类体系,从评测语料中总共提取出了52种汉英检测点,81种英汉检测点。 检测点的选择: 根据出现频次对检测点类别进行了筛选: 源语言检测点:出现频次﹥10 目标语言检测点:出现频次﹥40 (注: 独立计算每个参考译文中检测点的频次) 说明: (1)汉英介词同时计入功能词类别和内容词类别.(2)英汉歧义词没有考虑 最终选取的检测点类别数目: 汉英检测点: 46 英汉检测点: 58

评测结果:WoodPecker 汉英新闻主系统 英汉新闻主系统 英汉科技主系统 汉英新闻系统融合 检测点抽取,比较简单,通过相应工具得到所需输入文件,用woodpecker extractor即可获得,具体过程可以参照woodpecker Manual 由于是第一次做检测点评测,我们没有对检测点进行特殊的筛选 32

WoodPecker 与 BLEU 相关性分析 (英汉) 项目 检测点 Spearman Pearson ec_ news General 0.8727 0.9283 G:Words 0.8273 0.8747 G:Phrases 0.9340 G:Sentences 0.9182 0.8929 tech 0.8000 0.9105 0.7167 0.8547 0.8667 0.9378 0.6179 左侧图中,为bleu score和woodpecker给出的general/words/phrases/sentences四个方面的分数,从图中我们看到bleu和woodpecker的结果有很相似的趋势 其中general为总分, 右侧表格中为,bleu和woodpecker的在general/words/phrases/sentences四个方面的相关性分析结果。Spearman和Pearson分别为spearman相关系数和Pearson相关系数,spearman 检验确定观测序列是否具有单调增加关系,pearson检验确定两变量线性相关程度 N = 11, p = 0.05时,Spearman相关系数边界为0.536 N = 9, p = 0.05时,Spearman相关系数边界为0.600 表格中Spearman相关系数均大于0.600,因此可以认为bleu和woodpecker的general/words/phrases/sentences是单调增加关系

WoodPecker 与 BLEU 相关性分析 (汉英) 项目 检测点 Spearman Pearson ce_ news General 0.5594 0.7182 G:Words 0.1678 0.4138 G:Phrases 0.6224 0.7425 G:Sentences 0.6923 0.7607 _comb 0.0857 0.2232 -0.1429 -0.0828 0.2682 0.1429 0.3263 从上面四幅图,以及woodpecker与bleu的相关性分析,可以发现,在英汉新闻、英汉科技和汉英新闻主系统中, woodpecker的结果和bleu的结果相关性比较高,曲线走势也比较相似。 N = 11, p = 0.05时,Spearman相关系数边界为0.503 N = 6, p = 0.05时,Spearman相关系数边界为0.829 但是,在汉英新闻系统融合的结果中,bleu和woodpecker的相关性则很差。通过比较系统融合结果、单系统输出结果和woodpecker抽取的检测点,我们发现:尽管系统融合得到更好的n-gram结果,但是符合检测点的语法结构却大幅下降,可能是这种原因导致两种检测方式的相关性比较差

WoodPecker 与 BLEU 相关性分析 --相关性最好的5类检测点 子项目 检测点 Spearman Pearson ce_news T:Article 0.6993 0.8259 ec_tech T:VP 0.9333 0.9717 T:NP 0.7063 0.7903 T:Adv_MOD 0.9167 0.9681 T:PP 0.6573 0.7877 T:Adverb 0.8833 0.9587 S:NP 0.6294 0.7606 S:VP 0.8667 0.9535 0.7409 0.9460 ec_news 0.9455 0.9536 ce_news_ comb T:Prep 0.3714 0.6499 0.9545 0.9533 0.2000 0.5312 0.8545 0.9456 S:Predi_Obj 0.4898 0.9372 S:PP 0.4106 0.8909 0.9331 S:Prep 0.1429 0.3554 同前面woodpecker vs bleu中的表格反映的结果相似,在汉英新闻、英汉科技、英汉新闻三个子项目中,单个检测点的score与bleu score呈现出比较好的相关性;在汉英新闻系统融合子项目中相关性比较差

WoodPecker 与 BLEU 相关性分析 --相关性最差的5类检测点 子项目 检测点 Spearman Pearson ec_news T:Adverb 0.2636 0.2474 ce_news T:Verb -0.1468 -0.0648 T:Pron 0.1454 0.1803 T:Predi_Obj -0.1538 -0.0659 T:Prep -0.1727 -0.1114 T:Sub_Predi -0.0839 -0.1327 T:Quantity -0.0818 -0.1151 T:Adv_MOD -0.4195 -0.4012 S:DicPrep -0.0363 -0.1758 -0.5244 -0.6043 ec_tech S:Pron 0.4666 0.5087 _comb T:Adj_MOD -0.3142 -0.2341 0.1500 0.2674 -0.4285 -0.2484 0.2333 0.2172 T:Noun -0.2615 -0.2000 -0.1466 S:Verb -0.6000 -0.3346 -0.3666 -0.2845 S:AmbiWord -0.5428 -0.3653

评测结果分析 在汉英新闻领域,在源语言的“搭配”、“介词”两个检测点上,统计翻译系统显示出一定优势: 箭头指示的为基于规则的系统

评测结果分析 在汉英新闻领域,“成语”测试点上,基于规则的系统则表现更好: 箭头指示的为基于规则的系统

评测结果分析 在英汉新闻领域, “介词”和“词典介词”两个检测点,基于规则的系统占优: 箭头指示的为基于规则的系统

评测结果分析 在英汉新闻领域,源语言的“数词短语”测试点上,基于规则的翻译系统结果较好: 箭头指示的为基于规则的系统

评测结果分析 各项目WoodPecker评测中总分前五名的结果显示:在英汉新闻领域,基于规则的系统在这种基于语言学分类的检测点评测中显示了一定的优势: 汉英新闻 5 6 4 10 1 0.2883 0.2835 0.2649 0.263 0.2629 英汉新闻 2 3 7 0.401 0.3987 0.3898 0.3771 0.3596 英汉科技 0.5044 0.4984 0.4895 0.481 0.478 汉英新闻系统融合 0.2887 0.2824 0.2812 0.2686 0.2671

总结和展望 总结: 展望: 从准备到结束历时半年,期间细节之繁琐非一个“累”字了得! 所幸评测中的小 “闪失” 都得到了纠正,更有幸都得到了大家的谅解! 改进之处: 更加详尽的评测大纲 增加了科技翻译评测 增加了系统融合评测 引入BLEU-SBP,并进行了显著性检验 引入WoodPecker! 展望: 交流、沟通、进步!

总结和展望 下次评测怎么做? 项目设置 词语对齐? 系统融合? 科技翻译? 其他? 训练语料 评测指标 组织方式

致谢 感谢为此次评测提供训练数据的单位,他们是(按拼音顺序排列): 北京大学计算语言学研究所 哈尔滨工业大学信息检索实验室(无偿) 哈尔滨工业大学机器智能与翻译研究室 万方数据公司 厦门大学 中国科学技术信息研究所(无偿) 中国科学院计算技术研究所 中国科学院自动化研究所 感谢为此次评测中提供测试数据的单位,他们是(按拼音顺序排列): 中国科学技术信息研究所(无偿)特别感谢! 本次WoodPecker评测的全过程中,得到了 微软亚洲研究院自然语言计算组的张冬冬、李沐 的鼎立协助,在此深表感谢! 感谢本次评测组织工作的主要承担者付出的艰辛劳动:赵红梅、谢军!

参考文献 David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Algorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational Linguistics Ming Zhou, Bo Wang, Shujie Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008. Natural Language Computing Group, Microsoft Research Asia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-d6a7c7919b4a/details.aspx Michael Collins, Philipp Koehn, and Ivona Kuˇcerov´a.2005. Clause restructuring for statistical machine translation. In Proc. ACL 2005, pages 531–540.

倾听意见和建议 谢谢!