中国科学院计算技术研究所CWMT 2008评测技术报告

Slides:



Advertisements
Similar presentations
第二章 中国的自然环境 地理组 王铁塔. §2.1 地形和地势 学习目标: 1 、 知道我国主要的地形、山脉的名称及山脉 走向的概念。 2 、通过阅读统计图表,总结我国山区面积广大的地 形特征。 3 、了解山区开发、利用的有利条件和不利条件 。 考试要求: 1 、了解我国地形复杂多样,山区面积广大的特征。
Advertisements

Welcome back 高二( 21 )班 2016 年 2 月 16 日. 学生素质报告册 ( 家长意见及签名 ) 社会实践表及社区服务表 行为反馈表 美方成绩单(家长签名) 缴 交 的 材 料.
中國 (China) 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤 組長 : 葉品宏 組員 : 王柏偉、戴瑞賢、張凱奇、 曾宏榮、趙方澤.
China Industrial Economy Forum 中 国 产 经 论 坛 中国产经论坛是由《中国产经新闻》报社主办、《中国产经新闻》报社产业经济研究中心承办的常设 会议机构,它紧紧围绕《中国产经新闻》报社办刊宗旨与思路、为《中国产经新闻》报社提供宏观经济 研究、产业研究及深度分析报道。 中国产经论坛的主旨是,围绕中国及国际经济领域的重大问题,以国际视野剖析中国经济领域的重大.
月子保姆理论知识试卷.
贴着生活写作 慈溪中学 黄宏武.
中科院计算所 机器翻译评测组 赵红梅 谢军 吕雅娟 刘群 2008年11月
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
CWMT’08统计机器翻译研讨会自动化所技术报告
信心的晨禱 經文: 詩篇 3 日期:
如何写论文.
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
机器翻译原理与方法 第五讲 基于句法的统计机器翻译方法
第七章 汉英句子的宏观对比.
把握高考改革的历史机遇 实现学校跨越式发展
泰国 Kingdom of Thailand 一个美丽的国度.
《教我如何不想它》 南麓 浩瀚 栖息 孤僻 分娩 濒危 璀璨 它出生在人烟稀少、海拔三千的秦岭 (nán lù),拒做“酒肉和尚”。
在上一个世纪里,有一个叫食指的诗人,由于《相信未来》而住进了精神病院,至今没有痊愈……
第2课 古代手工业的进步 课标:列举古代中国手工业发展的基本史实,认识古代中国手工业发展的特征.
基于实体约束的纳西-汉语双语词语 对齐方法
基于改进的依存树到串的汉语纳西翻译模板抽取方法
文學與生活-期末報告 赤壁之戰 組員名單 : 4A2L0031 王柔之 4A2L0033 劉兆偉 4A0L0063 謝商裕
中三生物報告:基因工程.
基因突变 授课人:羊金华
天方杂谈集 (三) 《特别文摘》每期都有发现、发生、发噱栏目,摘其部分内容分集制作成幻灯片,请大家共享。
報告人: 中文三黃鈺琳 中文三鄭芸瑋 中文四游喬安 中文三張竫
做阳光的 职业教育教师 ——与曲靖农校教师共勉 心理咨询师 梁 永 红 2014年10月11日.
国家高技术研究发展计划 香港大学网格节点 Presented by Cho-Li Wang
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
我国的人民民主专政.
重点难点 参考文献 教学目标 一、中央集权国家的建立 二、秦始皇巩固统一的措施 三、统一的多民族封建国家的形成 练习与思考.
                                                                                                                                                                
第四章 封建制度的确立-----战国时代(前476-前221年)
洛阳师范学院思想政治教育省级教学团队网络课程 中国哲学史 孟子
1.非再生能源(耗竭性能源): 如煤、石油、天然氣、鈾等。
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Hadoop I/O By ShiChaojie.
兰州大学大气科学学院 半干旱气候变化教育部重点实验室 半干旱气候变化教育部重点实验室 建设论证汇报 兰州大学 2009年5月26日.
Chinese Virtual Observatory
SOA – Experiment 3: Web Services Composition Challenge
管理信息结构SMI.
災害性天氣之探究─ 颱風 文賢國小 李同立老師.
CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学
名句精华(11-20).
中科院自动化所评测技术报告(SYSTEM II)
Introduction to AI and ML
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
走进中国科技网 中国科技网 李辉.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
C语言程序设计 主讲教师:陆幼利.
模型分类问题 Presented by 刘婷婷 苏琬琳.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
基于最大margin的决策树归纳 李 宁.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
NAACLHLT Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang
中国适应气候变化影响风险评估专家研讨会 ACCC Workshop: Climate Change Impact and Risk Assessments 内蒙古 Inner Mongolia.
基于列存储的RDF数据管理 朱敏
基因信息的传递.
Continuous Authentication for Voice Assistants
入侵检测技术 大连理工大学软件学院 毕玲.
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
仁川大學.
请大家起立,练习“站桩”:两手平伸,两脚与肩间宽,双脚尽量下蹲,上身保持平直。
Presentation transcript:

中国科学院计算技术研究所CWMT 2008评测技术报告 刘洋,米海涛,冯洋,夏天,涂兆鹏,吕雅娟,刘群 {yliu, htmi, fengyang, xiatian, tuzhaopeng, lvyajuan, liuqun}@ict.ac.cn 2008年11月27日 CWMT 2008评测研讨会,北京

流程 译文 Silenus 译文 Bruin 源文 译文 系统融合 Mencius 译文 Change 译文 2008年11月27日 CWMT 2008评测研讨会,北京

参评系统 系统 简述 Silenus 基于压缩森林的树到串翻译系统 Bruin 基于最大熵括号转录语法的翻译系统 Mencius 基于双语短语部分匹配策略的翻译系统 Change 基于层次短语的翻译系统 SentComb 句级系统融合系统 WordComb 词级系统融合系统 2008年11月27日 CWMT 2008评测研讨会,北京

Silenus Silenus是基于压缩森林的树到串系统。 压缩森林能够高效地表示大量的句法分析树。 压缩森林是一个超图,超图中的节点是标记,超边是带概率的上下文无关规则。 选自Mi et al 2008(a)的幻灯片 2008年11月27日 CWMT 2008评测研讨会,北京

Silenus:实验效果 实验结果表明,在训练集和测试集中引入压缩森林,能够很好地解决句法分析歧义性大、准确度低对树到串模型的负面影响。 选自Mi et al 2008(b)的幻灯片 实验结果表明,在训练集和测试集中引入压缩森林,能够很好地解决句法分析歧义性大、准确度低对树到串模型的负面影响。 2008年11月27日 CWMT 2008评测研讨会,北京

Bruin 利用最大熵模型解决二元分类问题 顺序拼接 逆序拼接 中国 的 经济 发展 利用最大熵模型解决二元分类问题 中国 的 经济 发展 China ‘s economy the development of 顺序拼接 逆序拼接 China ‘s economy the development of the development of China ‘s economy Bruin使用的是双语短语,将短语间的调序问题视作二元分类问题:顺序拼接或逆序拼接。 利用双语短语的边界词信息,使用最大熵模型解决二元分类问题。 2008年11月27日 CWMT 2008评测研讨会,北京

Mencius 于 昨天 抵达 泰国 于 昨晚 抵达 布拉格 于 X1 抵达 X2 昨天 泰国 arrived in Prague last night 于 X1 抵达 X2 昨天 泰国 arrived in X2 X1 yesterday Thailand arrived in Thailand yesterday Mencius在使用短语表时使用了部分匹配策略,能够更充分地利用短语表,在一定程度上缓解了数据稀疏的问题。 2008年11月27日 CWMT 2008评测研讨会,北京

X -> <在 X1 的 X2, the X2 in the X1> Change 加强 在 经济 领域 的 合作 。 strengthen the cooperation in the economy field . X -> <在 X1 的 X2, the X2 in the X1> Change是基于层次短语的系统 2008年11月27日 CWMT 2008评测研讨会,北京

SentComb cat sat the mat 不会产生新的译文! 站 在 垫子 上 的 猫 cat sitting on the mat hat on a mat 句级系统融合从各系统输出的译文中挑选出一个“最好”的译文,实际上等价于Reranking。 我们使用的是线性模型,主要特征是语言模型。 2008年11月27日 CWMT 2008评测研讨会,北京

WordComb:重复Rosti的工作 cat sat $e the mat sitting on hat a cat(2) sat(1) 3 4 5 mat(3) 6 hat(1) sitting(1) $e(1) a(1) cat sat on the mat 会产生新的译文! 2008年11月27日 CWMT 2008评测研讨会,北京

参加项目 我们参加了全部的评测项目 评测项目 领域 参评系统 机器翻译 汉英新闻 Bruin、Change、Mencius和WordComb 英汉新闻 Bruin、Change、Mencius、Silenus和SentComb 英汉科技 Bruin、Change、Mencius和SentComb 系统融合 SentComb 2008年11月27日 CWMT 2008评测研讨会,北京

数据处理 我们只使用了评测组织方提供的数据。 所采用的主要数据处理工具: ICTCLAS,汉语词语切分 Charniak’s parser,英语句法分析 GIZA++,词语对齐 SRILM,语言模型 2008年11月27日 CWMT 2008评测研讨会,北京

评测前的实验结果 项目 系统 BLEU 汉英新闻 Bruin 0.2071 Change 0.1985 Mencius 0.1976 WordComb 0.2085 英汉新闻 0.2756 0.2770 0.2711 Silenus 0.2939 SentComb 0.2951 英汉科技 0.2503 0.2489 0.2457 0.2551 2008年11月27日 CWMT 2008评测研讨会,北京

正式评测成绩 项目 领域 参评系统 类别 BLEU 机器翻译 汉英新闻 WordComb primary 0.2264 Bruin contrast 0.2158 Change 0.2060 英汉新闻 Silenus 0.2622 SentComb 0.2562 0.2419 英汉科技 0.4618 0.4530 0.4503 系统融合 0.2873 2008年11月27日 CWMT 2008评测研讨会,北京

总结 我们参加了CWMT 2008的全部评测项目,使用了4个机器翻译系统和2两个系统融合系统,取得了比较好的成绩。 我们将进一步完善现有系统,着重对系统融合技术进行改进。 2008年11月27日 CWMT 2008评测研讨会,北京

谢谢! 2008年11月27日 CWMT 2008评测研讨会,北京