厦门大学第四届机器翻译研讨会评测系统描述

Slides:



Advertisements
Similar presentations
机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
Advertisements

“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
太陽能太陽能  1 ) 钢化玻璃 其作用为保护发电 主体(如电池片),透光其选 用是有要求的, 1. 透光率必须 高(一般 91% 以上); 2. 超白钢 化处理 结构组成编辑结构组成编辑.
Xiao Fang An Quan Jiao Yu 广东省公安消防总队、广州支队、深圳支队.
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
强硬件 抓培训 促应用 凤台县第二实验小学 Second Experimental Primary School in Fengtai County.
美味料理 5223汪芮臣.
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
教學檔案的製作、評量與應用 連安青、游可如 國立東華大學附小教師.
第三章 秘书工作的起源与沿革.
千秋大业在担当 《中国共产党问责条例》解读提纲.
第九章 認識勞退新制及因應之道 大葉大學 助理教授 邱祈豪.
第三章 学校的结构、体系及类型 北京师范大学 余清臣.
庄暴见孟子 《孟子 》.
课外文言文阅读.
34 府学胡同的文天祥祠,相传是南宋民族英雄文天祥当年遭囚禁和就义的地方,1376年明洪武九年建祠 。
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
大型探索节目《谜》之 感恩.
新建本科院校 应用型人才培养若干问题探析 张德江.
國立臺北科技大學 推動提升服務品質說明會 人事室 賴巧舒 製作.
第三单元 从两汉到南北朝得分合.
2013年越秀区十大精品商务楼宇参评资料 中海物业东山广场项目
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
主題四-網路約會的合宜性 主題四-網路約會的合宜性 主題四-網路約會的合宜性 主題四-網路約會的合宜性 主題四-網路約會的合宜性
高考文言文的整体阅读.
回顾与展望:高州经验与广东医改 省卫生计生委、省医改办 黄 飞 2015年7月3日.
50年代 吳瀛濤 都市 這是衣服多彩的油畫 一曲豪華的樂章 且是現代產業的基地 今日文化的中心 甚至是罪惡的窩巢 冒險的樂園
文化資源導論期末成果發表 — 塭內社區 • 組員: ˙指導教授:張瑋琦教授 ˙助教:葉于甄助教
台灣電力公司南區施工處 執行統包經驗簡報 陳副處長文欣 報告.
父亲的菜园 王树槐 引导者:江山市长台小学 朱丽云.
愛心月課程活動 設計者:洪雪玲老師.
《乡村教师支持计划 年》 解读.
泥沙与水土保持 汇报人:曹文洪 2010年7月15~22日 新疆.
目 录 CONTENTS 公积金信息系统升级概述 缴存和提取业务培训 第一部分 第二部分 Part 1 Part 2
1-3 探究自然的科學方法.
我們最常去的地方還是我的故鄉苗栗, 您知道春天的樟樹是什麼香味嗎?
中国出了个毛泽东.
青春期男生女生交往.
道德讲堂 级新疆预科班.
固定资产加速折旧新政讲解 深圳国家税务局所得税处.
鸿门宴 制作yu.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
学习世界史的要求: 1、认真听课,认真记笔记 2、注意联系时事来学习 3、注意与中国史之间的联系.
项脊轩志 归有光.
凤 凰 中国古代传说中的百鸟之王,和龙一样为汉族的民族图腾。凤凰和麒麟一样,是雌雄统称,雄为凤,雌为凰,总称为凤凰,常用来象征祥瑞。亦称为丹鸟、火鸟、威凤等。
報告人員:一年五班8號楊博文 報告人員:一年十三班8號侯志龍 報告日期:12月26日
金属学与热处理 主讲: 杨慧.
本活動 想解決的問題是……. 本活動 想解決的問題是…… 130最少要加上多少才能被8整除? 130最少要減去多少才能被8整除? 《除法定理》 被乘數=乘數 x 商 + 餘數.
雞蛋這樣孵出小雞的 動物的生殖 Part I.
综合教程 2 Unit 1 Lifelong Learning
奠定学生西学文化底蕴,构筑学生内在精神世界
本法所稱區域計畫,係指基於地理、人口、資源、經濟活動等相 互依賴及共同利益關係,而制定之區域發展計畫。
生于忧患,死于安乐 《孟子》.
中国民族药物学概论 第二十一讲 壮医药 刘 圆 教授 主讲 西南民族大学 精品资源共享课程 西南民族大学 青藏高原研究院 民族医药研究院
追求一流 财务视角下的企业经营.
新 竹 縣 未 來 發 展 構 想 相.關.計.畫 休 閒 農 業 [ 執 行活動 ] 法 令 案 例 分 析.
CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学
蔡哲民 信望愛聖經網站董事與技術組負責人 崑山科技大學資訊傳播系助理教授
中科院自动化所评测技术报告(SYSTEM II)
阅读大地的徐霞客.
Yu-Chen 嘉義市立北興國民中學 新校舍符合永續建築 廚房新建工程 忠孝、仁愛、中正、至善樓修繕工程.
設計者:台中市 吳嵐婷 台北市興雅國中 林壽福
管理心理学 职业经理人心理素养提升 讲师:孙阳.
公务卡日常管理篇 办卡激活/遗失补办/ 停用销卡/额度调整 财务处 2016年.
聰明管理零用錢 主講人:高鳳儀 行政院金融監督管理委員會銀行局 指導 中華民國銀行公會暨信合社聯合社 主辦.
有理数的乘方(二).
綜合活動領域 -野外活動篇- 繩結(一) 感謝賴邑雯.陳夙娟老師提供---修改  .
Presentation transcript:

厦门大学第四届机器翻译研讨会评测系统描述 陈毅东 史晓东 周昌乐 {ydchen, mandel, dozero}@xmu.edu.cn 厦门大学信息科学与技术学院智能科学与技术系 2008年11月 北京

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

使用的融合方法和系统融合评测中使用的相同 概述 厦门大学参加了 汉英新闻领域机器翻译(开放) 汉英新闻领域系统融合 英汉新闻领域机器翻译(受限) 英汉科技领域机器翻译(受限) 使用的模型 汉英机器翻译:短语,短语+规则 英汉机器翻译:短语+规则、规则 使用的融合方法和系统融合评测中使用的相同

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

机器翻译系统概要(1) 统计翻译系统 短语模型 对数线性模型 单调解码,动态规划方法 融合特征:短语翻译概率(正向/反向)、词汇化短语翻译概率(正向/反向)、语言模型、长度惩罚因子、短语惩罚因子 单调解码,动态规划方法 汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型

机器翻译系统概要(2) 规则翻译系统 基本模块: 词法分析句法分析词义消歧译文生成 采用依存文法描述英语和汉语,文法由程序来描述 词典条目大约10万 结合了部分TM技术 没有专门针对这次评测进行调整

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

系统融合方法概要(1) 早在1994年就有研究者研究多引擎翻译系统。 多引擎系统的研究可以粗略地分成两类: 简单地在各系统的输出中选出一个最佳的结果。 从各系统的输出中各选取最佳片段并构成新的结果。 由于融合粒度更细,第二类方法常常可以获得更好的融合效果。 第二类系统融合技术需要解决的两个问题: 必须从候选翻译中抽取出与原文相对应的翻译片段。 必须在这些可用的翻译片段中筛选并组合成新的翻译结果。

系统融合方法概要(2) 参考文献 Chen Yu, Andreas Eisele, Christian Federmann, Eva Hasler, Michael Jellinghaus, and Silke Theison. 2007. Multi-Engine Machine Translaiton with an Open-Source Decoder for Statistical Machine Translaiton. In: Proceedings of the Second Workshop on Statistical Machine Translation, Prague, 193-196. 平行语料库 候选翻译 原文 新句对 短语表 短语模型训练模块 单语语料库 语言模型 语言模型训练模块 短语翻译解码模块 译文

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

评测数据与结果(1) 使用的外部工具 GIZA++工具包对双语语料进行词对齐,训练模式是15H53545 使用SRI语言模型工具包来训练语言模型 使用CRF++工具包来训练组块分析器(汉英测评中)。

评测数据与结果(2) 汉英新闻机器翻译评测 数据 结果 来源 量 双语句库 训练数据(common部分), LDC2005T06, LDC2003E07, LDC2006T04, LDC2003T17, LDC2004T07, LDC2002T01, LDC2002E18, LDC2003E14 96万句对 树库 LDC2005T01 1.8万句 英语语料 LDC2007T07 (xinhua part) 275M词 双语句库的英文部分 18M词 系统 BLEU4 NIST5 时间(s) xmu-constrast-memt(统计+规则) 0.2412 7.5082 6935.44 xmu-primary-pumpkin(统计) 0.2390 7.8401 5341.25

评测数据与结果(3) 汉英新闻系统融合评测 根据诸系统在ssmt2007测试集上的成绩仅挑选了前4名的系统参与融合 采用的数据情况同汉英新闻机器翻译评测 结果 constrast系统使用和汉英新闻机器翻译评测相同的参数,primary系统则将长度惩罚因子参数增加到原来的两倍。 系统 BLEU4 NIST5 时间(s) xmu-primary-memt1 0.2721 7.4408 15043.03 xmu-constrast-memt2 0.2321 5.1955 15108.88

评测数据与结果(4) 英汉新闻机器翻译评测 数据情况 结果 来源 量 双语句库 所提供的训练数据(common部分) 61万句对 汉语语料 双语句库的中文部分 8M词 系统 BLEU5 NIST6 时间(s) xmu-primary-memt(统计+规则) 0.2369 7.9624 3262.44 xmu-constrast-neon(规则) 0.2263 8.3199 36.45 pbtm(统计) 0.2020 -

评测数据与结果(5) 英汉科技机器翻译评测 数据情况 结果 xmu-constrast-memt2系统仅使用科技语料 来源 数据量 双语句库 所提供的训练数据(common部分) 61万句对 所提供的训练数据(中信所语料) 30万句对 汉语语料 双语句库的中文部分 14M词 系统 BLEU5 NIST6 时间(s) xmu-primary-memt1 (统计+规则) 0.4026 10.3247 3362.61 xmu-constrast-memt2 (统计+规则) 0.4004 10.2729 3091.70 xmu-constrast-neon (规则) 0.2816 9.1400 58.23

提纲 概述 机器翻译系统概要 系统融合方法概要 测评数据与结果 小结

小结 本次评测我们参加的系统在技术上没有太多的进步。 本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。

陈毅东 史晓东 {ydchen, mandel}@xmu.edu.cn 谢谢大家! 陈毅东 史晓东 {ydchen, mandel}@xmu.edu.cn