CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学 2008.11.

Slides:



Advertisements
Similar presentations
陳旺全醫師主講 健康養生茶飲 明目菊花茶 明目菊花茶 成分:菊花五錢、 500c.c 熱水沖泡 成分:菊花五錢、 500c.c 熱水沖泡 功效:可治療急慢性結膜炎、頭暈 功效:可治療急慢性結膜炎、頭暈 頭痛、口苦、口乾、高血壓 頭痛、口苦、口乾、高血壓.
Advertisements

六大類食物 五穀根莖類 六大類食物 油脂類 蛋魚肉豆類 奶類 蔬菜類 水果類. 五穀根莖類 : 提供熱量 : 部份蛋白質,維生素,礦物質,及膳食纖維 包含麵 ( 及麵包饅頭 ) ,飯類,蕃薯等食物 也就是一般所稱的 " 主食 " ( 蘿蔔不是這一類,是屬於蔬菜類喔! ) 飲食建議吃三到六碗 並推薦攝取全穀類食品.
揮別電腦族疲勞症候群 主講人 : 陳潮宗 中醫師. 常有症狀一 起因&症狀: 起因&症狀: 坐姿不正最易引起腰酸背痛、 過度看螢幕則眼睛疲勞酸痛。 治療重點: 治療重點:補固腰腎、明目保睛。
引言 高血壓自我健康管理包含飲食、 運動、 及健康生活型態三大方向。 飲食 是改善高血壓的重要部分, 並提 供飲食方式來改善高血壓。
人事室專題計畫業務報告 人事室 謝明峯 轉 一、專任助理注意事項 計畫案如有聘任專任助理者, 請依據「南 華大學專案助理報到程序單」內容, 將資 料繳交至人事室 ( 請於聘任到職日前繳交, 以免影響到本身權利 ) 。 離職儲金或勞工退休金 依勞工退休金條例相關規定,
山伯與英台在健康書院修業完 成後,一行人逗陣開開心心的 回自己的家鄉 …… 於是開啟了另一段 ~ 新梁祝的故事 ~ 在下 梁山伯 小女子 祝英台 我是 阿成 我是 阿香.
第八章 膳食與營養 第一節 均衡營養與膳食 年 7 月公布新版「每日飲食指南」, 依食物營養特性,分為六大類: 全榖根莖類 蔬菜類水果類 低脂乳品類 油脂與堅果種子類 豆魚肉蛋類 食全十美.
中醫臨床常見養生藥膳 臺 北 市 立 聯 合 醫 院中醫院區 院長 鄭振鴻. 壹、前言 在臺灣地處亞熱帶的氣候,冬季溫暖,夏 季炎熱,雨量多的特性。吃補的概念源自 中國大陸,但生活習性與食物亦有其地域 性,因此針對臺灣常用藥膳的食物與藥物 的性能作用,解析其效用、功能,了解食 物與人的關係,利用食物特性,藥物的效.
青春期 女生可以早在八、九歲, 或晚到十三、四歲才進入 青春期。 男生早的在十、十一歲, 晚到十四、五歲,甚至更 遲才進入青春期。
第八課 路 *課前預習 一 二 三 *題解 *作者介紹 *課文內容 一 、 、 、 *修辭回顧
第八章 土地行政管理.
請愛惜自己 衛生署日前公佈了去年國人的十大 死因統計,惡性腫瘤(癌症)又第 二十度蟬聯冠軍,而且是每四名死 亡人口中,就有一人「因癌而」,
月子保姆理论知识试卷.
「互联网金融2.0时代」与房地产的融合 广州互联网金融协会会长、广州e贷总裁 方颂.
企业会计学(三) 人大版本 吕 昌.
E時代盛宴 健康123年菜發表會 新春新氣象,處於資訊蓬勃E時代的您,是否已構思好如何為自己及家人準備一桌健康、豐盛的年菜?隨著國人健康意識的提升,對年菜訴求也有別於傳統年菜四大特點-高油、高鹽、高糖、低纖,加上其繁瑣的製備過程,對講求速度及效率的E時代族群而言,已不符現今年菜簡單製備、健康需求性。在這距離農曆春節只剩短短二個星期,豐原醫院營養室關心您的健康、滿足您的胃蕾,推出「E時代盛宴-健康123-年菜發表會」,以「一高、二少、三低」的健康原則,利用家中減少烹調油量的鍋具,如:烤箱、電鍋、不沾鍋等,製
生活常規.
雅樂舞基本動作與身體探索 陳玉秀老師主授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣3.0版授權釋出】
嘴破怎麼辦? 嘴角或嘴唇內常常破一小傷口的人, 吃東西時真是痛苦萬分; 有的人試著補充維他命C及B群,
第五章 话语的语用意义(上) 主讲人:周明强.
現在最幸福 (Lee 上) 曹宇.
據點考核與評鑑 報告人:臺南市政府 照顧服務管理中心.
肺臟的藥膳介紹 台中慈濟醫院 中醫部 陳建仲.
位置的表示方法.
合理水價之探討 台灣省自來水公司前財務處經理 王禮忠 台灣省自來水公司財務處組長 賴祐.
特殊族群運動健康訓練(I).
依据教材 全国高等教育自学考试指定教材 《西方行政学说史》, 竺乾威主编,高等教育出版社。
水 生命之源 威海文登中心医院 王倩倩.
正 信 讀 書 會 主 持 群 : 姚 永 錩 、 鄭 健 、 陳 淑 珍 佛法的生活應用 2008/07/23.
非法集资典型案例评析 南京师范大学法学院 蔡道通 2016年1月.
专题(二) 交往沟通 掌握技能 命 题 解 读 背 景 材 料 新 题 演 练 考 点 链 接 1.
松竹梅岁寒三友 步入建交 桃李杏村暖一家 迈进职教 活出精彩.
認識大腸直腸癌 大腸直腸外科 李元魁醫師.
主办:泰兴市质量强市领导小组办公室 承办:泰 兴 市 市 场 监 督 管 理 局.
99年成語200題庫(21-40).
第三章 田径运动员选材 集宁师范学院 体育系 宋小凤.
芳香小物.
兔 子.
請愛惜自己 衛生署日前公佈了去年國人的十大 死因統計,惡性腫瘤(癌症)又第 二十度蟬聯冠軍,而且是每四名死 亡人口中,就有一人「因癌而」,
節能減碳—兒童廢物利用 遊戲闖關活動 設計者—賴姿良 陳俐諭 陳松吉.
作文教学如何适应高考的要求 漳州市普教室 李都明
牙齒保健常識 胖福2050/12.
第1课 欧洲的君主专制 香山中学 聂渭清.
第八单元第二课第一课时 严守法律 温州四中 蒋莉青.
農委會及其他計畫 執行應注意事項 第四組 涂怡禎 日期:104年10月5、6日.
膀胱過動症 & 間質性膀胱炎 台中榮總/埔里分院 蔡青倍.
支气管哮喘怎么治疗? 北京军都医院哮喘科 咨询热线:.
高级财务会计.
默写基础知识: 1、家庭是由 关系、 关系或 关系而结合成的亲属生活组织。家里有 ,家中有 。
嘴破怎麼辦? 嘴角或嘴唇內常常破一小傷口的人, 吃東西時真是痛苦萬分; 有的人試著補充維他命C及B群, 有的人塗抹進口藥膏,
什么是颈椎病? 颈椎病是指颈椎间盘退行性变,及其继发性椎间关节退行性变所致脊髓、神经、血管损害而表现的相应症状和体征。
小儿营养不良 第四篇第二章第二节小儿营养不良.
2016年莱芜市乡村医生在岗培训 启动会.
单元 SD 5 菜鸟学飞 附件二 想学飞的职场菜鸟.
第一单元 中国传统文化主流思想的演变.
公務人員退休法、撫卹法 法制與實務講習 銓敘部退撫司 中華民國99年8月.
《傅雷家书》 学 科:语文 年 级:九年级 授课教师:王宁宁.
毛泽东思想和中国特色社会主义理论体系概论
第一節 行政裁量與不確定法律概念 第二節 行政裁量
《生活与哲学》第一轮复习 第七课唯物辩证法的联系观.
本课设置5个环节 一、限时秒杀--5分钟 二、摩拳擦掌--9分钟 三、刀锋相见--20分钟 四、现炒现卖--5分钟 五、相约课后--1分钟.
从中国与联合国的关系演进 看联合国的产生与发展
中科院自动化所评测技术报告(SYSTEM II)
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
加減法文字題 國小低年級學生對加減法文字題的瞭解 小組成員 陳育娟 羅珠綾 侯宜孜
飛行器製作與飛行 講師:劉修建.
因果性:一个形而上学的预设 赵敦华 2008年5月.
多姿多彩的世界.
單選題 1. 2. 3. 4. Q1:下列何者能作為商標樣式?
Presentation transcript:

CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学 2008.11

提交系统 机器翻译: 2 机器翻译系统 + 1 系统融合结果 系统融合: 3 融合系统

机器翻译主评系统概述 4元词形/词性语言模型 基于词性的调序模型 Mosses 解码器 引入句法特征的翻译模型

语言模型特征 4元词形序列 4元词性序列

调序模型特征 Distance Backward-Monotone Backword-Swap Backword-Discontinuous Forward-Monotone Forward-Swap Forward-Discontinuous

Translation Model Features E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数

元结构 (Meta Structure )

抽取短语及元结构 元结构随短语一起被抽取出来: S4|D S5|E S6|F ||| 源短语 t3|CC ||| 目标短语 D*H ||| 源短语元结构序列 CC 目标语元结构

结构性分数

Translation Model Features E2F短语翻译概率 E2F词汇翻译概率 短语惩罚 源语言短语结构性分数 目标语短语结构性分数

机器翻译对比系统概述 融合策略 A Mosses 解码器 对齐方法 1 融合策略 B 对齐方法 2 4元语言模型 调序模型 融合翻译模型 A

两种对齐方法 GIZA++ HIT-MITLAB Aligner(Yajuan Lv et al., 2003) 统计与字典相结合的方法 采用贪心算法

对齐方法的差异 测试数据: SSMT07 汉英训练数据集 - 815544句 G : Giza++ H : HIT 集合 对齐对 H 7,089,061 G 10,675,740 H∩G 4,787,381 H∪G 12,977,420 H-G 2,301,680 G-H 5,888,359 G : Giza++ H : HIT H∩G = 45% *G = 67%*H 2018/12/5

对齐质量 定义一个对齐对集合S的平均分数: Plex_f2n & Plex_n2f 为双向的词汇翻译概率表

对齐质量 集合 AvgScore_f2n AvgScore_n2f H 0.23 0.26 G 0.19 0.21 H∩G 0.31 0.35 H∪G 0.17 0.18 H-G 0.05 0.06 G-H 0.10 H∩G > H > G > H∪G > H-G>G-H

两种融合策略 数据级: 将两种对齐方法产生的对齐语料合并 用合并后的语料训练翻译模型 模型级: 分别用两种对齐结果训练获得两个翻译模型 将两个翻译模型合并,作为最终的翻译模型

两种策略性能比较 训练数据: SSMT07-815544 sentences 测试数据 SSMT07 C-E test data BLEU BLEU after PP UNK H 18.24 18.84 463 G 19.61 20.15 477 Data Level 20.34 20.83 363 Model Level 19.39 19.94 383

CWMT 2008 机器翻译评测结果 主系统: 引入元结构特征的短语统计翻译模型 对比系统: 引入对齐融合策略的短语统计翻译模型 汉英新闻 主系统: 引入元结构特征的短语统计翻译模型 对比系统: 引入对齐融合策略的短语统计翻译模型 汉英新闻 英汉新闻 英汉科技 主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620

语言学分析 (基于 MS-Woodpecker) 主系统在3个评测中的排名: 汉英新闻 (2/12) ; 英汉新闻 (8/11) ; 英汉科技 (7/9) 中文检测点 英文检测点 汉英新闻 英汉新闻 英汉科技 名词 2 11 形容词 5 7 动词 代词 3 1 副词 6 量词 - 数量短语 9 动词短语 谓宾短语 主谓短语 8 介宾短语 汉英新闻 英汉新闻 英汉科技 名词 2 11 形容词 4 10 动词 1 8 代词 副词短语 形容词变形 6 3 数量短语 连词短语 7 谓宾短语 主谓短语

系统融合 基于加权最小贝叶斯风险的句子级融合. 基于多特征及最小化错误训练的句子级融合. 词汇级与句子级融合相结合的方法.

加权最小贝叶斯风险方法 (MBR) 该方法基于最小贝叶斯风险 (Minimum Bayes Risk ) ,它在所有候选译 文中寻找一个相对于其他所有译文具有最小贝叶斯风险的译文作为最佳 译文:

加权最小贝叶斯风险方法 (MBR) 其中 L(E,E’) 为风险函数,这里我们使用两个译文的Bleu-4得分的倒数来表示. P(E,F) 为译文与源语言句子的联合概率, 这里我们使用译文的系统得分来 表示.

加权最小贝叶斯风险方法 (MBR) 我们使用每个系统在开发集上的Bleu-4得分的归一化结果作为这个系 统的权重,该权重被赋予每个属于该系统的译文:

在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误 多特征方法 在该方法中,我们使用多个句子级特征,对数线性模型和最小化错误 训练方法来重新计算每个译文的模型得分,并将得分最高的译文作为最 佳译文: Pij : 第i个系统的第j个译文的模型得分 Wil : 第i个系统的第l个特征的权重 Xijl : 第i个系统的第j个译文的第l个特征的值

多特征方法 特征: 系统内排名 系统得分的系统内归一化结果 系统得分 词汇数 所有特征值被归于 [0,1] 之间

词汇级与句子级相结合的方法 (conMBR) 该方通过两个步骤将词汇级融合方法与句子级融合方法相结合: 首先,运用词汇级融合方法生成一个新的最佳译文:Econ . 然后,在原译文中,选择与 Econ 具有最小风险的译文作为最终的最佳译文。

融合性能 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句 BLEU 参与融合的系统的译文 Sys_1 0.3390 Sys_2 0.2823 Sys_3 0.2818 Sys_4 0.2803 Sys_5 0.2800 融合后的译文 MBR 0.3420 conMBR 0.3370 Multi-Features 0.3402 MBR (Sys_2,3,4,5) 0.2932 Upper bound 0.4102 SSMT 2007 Test _Data 汉英翻译. 新闻领域 1002 句

融合性能 CWMT 2008 Test _Data 汉英翻译. 新闻领域 4012 句 BLEU 参与融合的系统的译文 Sys_1 0.2809 Sys_2 0.2412 Sys_3 0.2390 Sys_4 0.2331 Sys_5 0.2188 融合后的译文 MBR 0.2944 conMBR 0.2808 Multi-Features 0.2192

多特征方法在机器翻译评测中的结果 汉英新闻 英汉新闻 汉英科技 主系统 0.2051 0.2532 0.3743 对比系统 0.2104 0.2425 0.4620 融合结果 0.2058 0.2581 0.4542

谢谢!