CWMT 2008 评测技术报告机器智能与翻译实验室哈尔滨工业大学 2008.11.

Slides:

Advertisements

Similar presentations

陳旺全醫師主講健康養生茶飲明目菊花茶明目菊花茶成分：菊花五錢、 500c.c 熱水沖泡成分：菊花五錢、 500c.c 熱水沖泡功效：可治療急慢性結膜炎、頭暈功效：可治療急慢性結膜炎、頭暈頭痛、口苦、口乾、高血壓頭痛、口苦、口乾、高血壓.

Advertisements

六大類食物五穀根莖類六大類食物油脂類蛋魚肉豆類奶類蔬菜類水果類. 五穀根莖類 : 提供熱量 : 部份蛋白質，維生素，礦物質，及膳食纖維包含麵 ( 及麵包饅頭 ) ，飯類，蕃薯等食物也就是一般所稱的 " 主食 " ( 蘿蔔不是這一類，是屬於蔬菜類喔！ ) 飲食建議吃三到六碗並推薦攝取全穀類食品.

揮別電腦族疲勞症候群主講人 : 陳潮宗中醫師. 常有症狀一起因＆症狀：起因＆症狀：坐姿不正最易引起腰酸背痛、過度看螢幕則眼睛疲勞酸痛。治療重點：治療重點：補固腰腎、明目保睛。

引言高血壓自我健康管理包含飲食、運動、及健康生活型態三大方向。飲食是改善高血壓的重要部分，並提供飲食方式來改善高血壓。

人事室專題計畫業務報告人事室謝明峯轉一、專任助理注意事項計畫案如有聘任專任助理者, 請依據「南華大學專案助理報到程序單」內容, 將資料繳交至人事室 ( 請於聘任到職日前繳交, 以免影響到本身權利 ) 。離職儲金或勞工退休金依勞工退休金條例相關規定,

山伯與英台在健康書院修業完成後，一行人逗陣開開心心的回自己的家鄉 …… 於是開啟了另一段 ~ 新梁祝的故事 ~ 在下梁山伯小女子祝英台我是阿成我是阿香.

第八章膳食與營養第一節均衡營養與膳食年 7 月公布新版「每日飲食指南」，依食物營養特性，分為六大類：全榖根莖類蔬菜類水果類低脂乳品類油脂與堅果種子類豆魚肉蛋類食全十美.

中醫臨床常見養生藥膳臺北市立聯合醫院中醫院區院長鄭振鴻. 壹、前言在臺灣地處亞熱帶的氣候，冬季溫暖，夏季炎熱，雨量多的特性。吃補的概念源自中國大陸，但生活習性與食物亦有其地域性，因此針對臺灣常用藥膳的食物與藥物的性能作用，解析其效用、功能，了解食物與人的關係，利用食物特性，藥物的效.

青春期女生可以早在八、九歲，或晚到十三、四歲才進入青春期。男生早的在十、十一歲，晚到十四、五歲，甚至更遲才進入青春期。

第八課路＊課前預習一二三＊題解＊作者介紹＊課文內容一、、、＊修辭回顧

第八章土地行政管理.

請愛惜自己衛生署日前公佈了去年國人的十大死因統計，惡性腫瘤（癌症）又第二十度蟬聯冠軍，而且是每四名死亡人口中，就有一人「因癌而」，

月子保姆理论知识试卷.

「互联网金融2.0时代」与房地产的融合广州互联网金融协会会长、广州e贷总裁方颂.

企业会计学（三）人大版本吕昌.

E時代盛宴健康123年菜發表會新春新氣象，處於資訊蓬勃E時代的您，是否已構思好如何為自己及家人準備一桌健康、豐盛的年菜？隨著國人健康意識的提升，對年菜訴求也有別於傳統年菜四大特點－高油、高鹽、高糖、低纖，加上其繁瑣的製備過程，對講求速度及效率的E時代族群而言，已不符現今年菜簡單製備、健康需求性。在這距離農曆春節只剩短短二個星期，豐原醫院營養室關心您的健康、滿足您的胃蕾，推出「E時代盛宴-健康123-年菜發表會」，以「一高、二少、三低」的健康原則，利用家中減少烹調油量的鍋具，如：烤箱、電鍋、不沾鍋等，製

雅樂舞基本動作與身體探索陳玉秀老師主授【本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣3.0版授權釋出】

嘴破怎麼辦？嘴角或嘴唇內常常破一小傷口的人，吃東西時真是痛苦萬分；有的人試著補充維他命C及B群，

第五章话语的语用意义(上) 主讲人：周明强.

現在最幸福 (Lee 上) 曹宇.

據點考核與評鑑報告人：臺南市政府照顧服務管理中心.

肺臟的藥膳介紹台中慈濟醫院中醫部陳建仲.

位置的表示方法.

合理水價之探討台灣省自來水公司前財務處經理王禮忠台灣省自來水公司財務處組長賴祐.

特殊族群運動健康訓練(I).

依据教材全国高等教育自学考试指定教材《西方行政学说史》，竺乾威主编，高等教育出版社。

水生命之源威海文登中心医院王倩倩.

正信讀書會主持群：姚永錩、鄭健、陳淑珍佛法的生活應用 2008/07/23.

非法集资典型案例评析南京师范大学法学院蔡道通 2016年1月.

专题（二）　交往沟通掌握技能命题解读背景材料新题演练考点链接 1.

松竹梅岁寒三友步入建交桃李杏村暖一家迈进职教活出精彩.

認識大腸直腸癌大腸直腸外科李元魁醫師.

主办:泰兴市质量强市领导小组办公室承办：泰兴市市场监督管理局.

99年成語200題庫(21-40).

第三章田径运动员选材集宁师范学院体育系宋小凤.

請愛惜自己衛生署日前公佈了去年國人的十大死因統計，惡性腫瘤（癌症）又第二十度蟬聯冠軍，而且是每四名死亡人口中，就有一人「因癌而」，

節能減碳—兒童廢物利用遊戲闖關活動設計者—賴姿良陳俐諭陳松吉.

作文教学如何适应高考的要求漳州市普教室李都明

牙齒保健常識胖福2050/12.

第1课欧洲的君主专制香山中学聂渭清.

第八单元第二课第一课时严守法律温州四中蒋莉青.

農委會及其他計畫執行應注意事項第四組涂怡禎日期：104年10月5、6日.

膀胱過動症 & 間質性膀胱炎台中榮總/埔里分院蔡青倍.

支气管哮喘怎么治疗？北京军都医院哮喘科咨询热线：.

高级财务会计.

默写基础知识： 1、家庭是由关系、关系或关系而结合成的亲属生活组织。家里有 ,家中有。

嘴破怎麼辦？嘴角或嘴唇內常常破一小傷口的人，吃東西時真是痛苦萬分；有的人試著補充維他命C及B群，有的人塗抹進口藥膏，

什么是颈椎病？颈椎病是指颈椎间盘退行性变，及其继发性椎间关节退行性变所致脊髓、神经、血管损害而表现的相应症状和体征。

小儿营养不良第四篇第二章第二节小儿营养不良.

2016年莱芜市乡村医生在岗培训启动会.

单元 SD 5 菜鸟学飞附件二想学飞的职场菜鸟.

第一单元中国传统文化主流思想的演变.

公務人員退休法、撫卹法法制與實務講習銓敘部退撫司中華民國99年8月.

《傅雷家书》学科：语文年级：九年级授课教师：王宁宁.

毛泽东思想和中国特色社会主义理论体系概论

第一節行政裁量與不確定法律概念第二節行政裁量

《生活与哲学》第一轮复习第七课唯物辩证法的联系观.

本课设置5个环节一、限时秒杀--5分钟二、摩拳擦掌--9分钟三、刀锋相见--20分钟四、现炒现卖--5分钟五、相约课后--1分钟.

从中国与联合国的关系演进看联合国的产生与发展

中科院自动化所评测技术报告(SYSTEM II)

中国农业科学院博士后学术论坛博士后基金申请的经验及体会中国农业科学院生物技术研究所秦华博士

聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝.

加減法文字題國小低年級學生對加減法文字題的瞭解小組成員陳育娟羅珠綾侯宜孜

飛行器製作與飛行講師:劉修建.

因果性：一个形而上学的预设赵敦华 2008年5月.

多姿多彩的世界.

單選題 1. 2. 3. 4. Q1：下列何者能作為商標樣式？

Presentation transcript:

CWMT 2008 评测技术报告机器智能与翻译实验室哈尔滨工业大学 2008.11

提交系统机器翻译: 2 机器翻译系统 + 1 系统融合结果系统融合: 3 融合系统

机器翻译主评系统概述 4元词形/词性语言模型基于词性的调序模型 Mosses 解码器引入句法特征的翻译模型

语言模型特征 4元词形序列 4元词性序列

调序模型特征 Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone Forward-Swap Forward-Discontinuous

Translation Model Features E2F短语翻译概率 E2F词汇翻译概率短语惩罚源语言短语结构性分数目标语短语结构性分数

元结构 (Meta Structure )

抽取短语及元结构元结构随短语一起被抽取出来: S4|D S5|E S6|F ||| 源短语 t3|CC ||| 目标短语 D*H ||| 源短语元结构序列 CC 目标语元结构

结构性分数

Translation Model Features E2F短语翻译概率 E2F词汇翻译概率短语惩罚源语言短语结构性分数目标语短语结构性分数

机器翻译对比系统概述融合策略 A Mosses 解码器对齐方法 1 融合策略 B 对齐方法 2 4元语言模型调序模型融合翻译模型 A

两种对齐方法 GIZA++ HIT-MITLAB Aligner(Yajuan Lv et al., 2003) 统计与字典相结合的方法采用贪心算法

对齐方法的差异测试数据: SSMT07 汉英训练数据集 - 815544句 G : Giza++ H : HIT 集合对齐对 H 7,089,061 G 10,675,740 H∩G 4,787,381 H∪G 12,977,420 H-G 2,301,680 G-H 5,888,359 G : Giza++ H : HIT H∩G = 45% *G = 67%*H 2018/12/5

对齐质量定义一个对齐对集合S的平均分数: Plex_f2n & Plex_n2f 为双向的词汇翻译概率表

对齐质量集合 AvgScore_f2n AvgScore_n2f H 0.23 0.26 G 0.19 0.21 H∩G 0.31 0.35 H∪G 0.17 0.18 H-G 0.05 0.06 G-H 0.10 H∩G > H > G > H∪G > H-G>G-H

两种融合策略数据级: 将两种对齐方法产生的对齐语料合并用合并后的语料训练翻译模型模型级: 分别用两种对齐结果训练获得两个翻译模型将两个翻译模型合并，作为最终的翻译模型

两种策略性能比较训练数据: SSMT07-815544 sentences 测试数据 SSMT07 C-E test data BLEU BLEU after PP UNK H 18.24 18.84 463 G 19.61 20.15 477 Data Level 20.34 20.83 363 Model Level 19.39 19.94 383

CWMT 2008 机器翻译评测结果主系统: 引入元结构特征的短语统计翻译模型对比系统: 引入对齐融合策略的短语统计翻译模型汉英新闻主系统: 引入元结构特征的短语统计翻译模型对比系统: 引入对齐融合策略的短语统计翻译模型汉英新闻英汉新闻英汉科技主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620

语言学分析 (基于 MS-Woodpecker) 主系统在3个评测中的排名: 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9) 中文检测点英文检测点汉英新闻英汉新闻英汉科技名词 2 11 形容词 5 7 动词代词 3 1 副词 6 量词 - 数量短语 9 动词短语谓宾短语主谓短语 8 介宾短语汉英新闻英汉新闻英汉科技名词 2 11 形容词 4 10 动词 1 8 代词副词短语形容词变形 6 3 数量短语连词短语 7 谓宾短语主谓短语

系统融合基于加权最小贝叶斯风险的句子级融合. 基于多特征及最小化错误训练的句子级融合. 词汇级与句子级融合相结合的方法.

加权最小贝叶斯风险方法（MBR）该方法基于最小贝叶斯风险 (Minimum Bayes Risk ) ，它在所有候选译文中寻找一个相对于其他所有译文具有最小贝叶斯风险的译文作为最佳译文:

加权最小贝叶斯风险方法（MBR）其中 L(E,E’) 为风险函数，这里我们使用两个译文的Bleu-4得分的倒数来表示. P(E,F) 为译文与源语言句子的联合概率, 这里我们使用译文的系统得分来表示.

加权最小贝叶斯风险方法（MBR）我们使用每个系统在开发集上的Bleu-4得分的归一化结果作为这个系统的权重，该权重被赋予每个属于该系统的译文:

在该方法中，我们使用多个句子级特征，对数线性模型和最小化错误多特征方法在该方法中，我们使用多个句子级特征，对数线性模型和最小化错误训练方法来重新计算每个译文的模型得分，并将得分最高的译文作为最佳译文: Pij : 第i个系统的第j个译文的模型得分 Wil : 第i个系统的第l个特征的权重 Xijl : 第i个系统的第j个译文的第l个特征的值

多特征方法特征：系统内排名系统得分的系统内归一化结果系统得分词汇数所有特征值被归于 [0,1] 之间

词汇级与句子级相结合的方法 (conMBR) 该方通过两个步骤将词汇级融合方法与句子级融合方法相结合：首先，运用词汇级融合方法生成一个新的最佳译文：Econ . 然后，在原译文中，选择与 Econ 具有最小风险的译文作为最终的最佳译文。

融合性能 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句 BLEU 参与融合的系统的译文 Sys_1 0.3390 Sys_2 0.2823 Sys_3 0.2818 Sys_4 0.2803 Sys_5 0.2800 融合后的译文 MBR 0.3420 conMBR 0.3370 Multi-Features 0.3402 MBR (Sys_2,3,4,5) 0.2932 Upper bound 0.4102 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句

融合性能 CWMT 2008 Test _Data 汉英翻译. 新闻领域 4012 句 BLEU 参与融合的系统的译文 Sys_1 0.2809 Sys_2 0.2412 Sys_3 0.2390 Sys_4 0.2331 Sys_5 0.2188 融合后的译文 MBR 0.2944 conMBR 0.2808 Multi-Features 0.2192

多特征方法在机器翻译评测中的结果汉英新闻英汉新闻汉英科技主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620 融合结果 0.2058 0.2581 0.4542

谢谢!