ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院 2008-11.

Slides:



Advertisements
Similar presentations
迪士尼公主裙衫变化记. 《白雪公主和七个小孩人》 《白雪公主和七个小矮人》,是世界电影史上第一部长动 画片,也是迪士尼的第一部。《白雪公主》不仅为迪斯尼 带来了第一尊奥斯卡小人,更是拯救迪斯尼于水火的贵 人 —— 在经济大萧条的 1937 年的美国,《白雪公主》为迪 斯尼赚到了 850 万美元,这约等于现在的数亿美元!
Advertisements

机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
灰色系統理論中的關聯分析 建國科技大學 温坤禮 電機工程學系 灰色系統粗糙研究室 (Grey System Rough Center: GSRC)
“ 我们的 12 班 我们的家 ” ——2014 级 12 班 班级文化建设缩影. “ 做好人,读好书。 ” (理念上) “ 惜时好学,动静分明。 ” (态度上)
2007 年 6 月 楚雄师范学院计科系 离 散 数 学 第三章 逻辑代数 ( 上 ) 命题演算.
中国电子学会 SMT 专业技术资格认证委员会. 彭志聪 广东省电子学会 副理事长兼秘书长 高级工程师 成果曾获 国家科技进步三等奖,广东省科技进步二等奖 国家科委优秀科技成果二等奖,广东省科委一等奖 承担并主持经国家科协批准,中国电子学会在全国开展 的电子表面组装( SMT )专业技术资格社会化认证体系建.
拉动内需,改善经济 工商 1 班 陆丹丹 16 陆晨莉 19. 国务院出台内需十措施 确定 4 万亿投资 一 加快建设保障性安居工程 二 加快农村基础设施建设 三 加快铁路、公路和机场等重大基础设施建设 四 加快医疗卫生、文化教育事业发展 五 加强生态环境建设 六 加快自主创新和结构调整 七 加快地震灾区灾后重建各项工作.
第八章 土地行政管理.
莲 :荷花 芙蓉 芙蕖 晓出净慈寺送林子方 (宋) 杨万里 毕竟西湖六月中, 风光不与四时同。 接天莲叶无穷碧, 映日荷花别样红。
「互联网金融2.0时代」与房地产的融合 广州互联网金融协会会长、广州e贷总裁 方颂.
企业会计学(三) 人大版本 吕 昌.
中国法学教科书:原理与应用系列 国际经济法教学课件 高等教育出版社.
據點考核與評鑑 報告人:臺南市政府 照顧服務管理中心.
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
姚天顺 自然语言处理实验室 东北大学 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学
自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.
特殊族群運動健康訓練(I).
依据教材 全国高等教育自学考试指定教材 《西方行政学说史》, 竺乾威主编,高等教育出版社。
老子的素朴 厦门大学计算机科学系 庄朝晖.
正 信 讀 書 會 主 持 群 : 姚 永 錩 、 鄭 健 、 陳 淑 珍 佛法的生活應用 2008/07/23.
非法集资典型案例评析 南京师范大学法学院 蔡道通 2016年1月.
专题(二) 交往沟通 掌握技能 命 题 解 读 背 景 材 料 新 题 演 练 考 点 链 接 1.
松竹梅岁寒三友 步入建交 桃李杏村暖一家 迈进职教 活出精彩.
301——隆重登场.
小池 杨万里 泉眼无声惜细流, 树阴照水爱晴柔。 小荷才露尖尖角, 早有蜻蜓立上头.
爱 莲 说 周敦颐 爱 莲 说 周敦颐 水陆草木之花,可爱者甚蕃。晋陶渊明独爱菊。自李唐来,世人甚爱牡丹。予独爱莲之出淤泥而不染,濯清涟而不妖,中通外直,不蔓不枝,香远益清,亭亭净植,可远观而不可亵玩焉。 予谓菊,花之隐逸者也;牡丹,花之富贵者也;莲,花之君子者也。噫!菊之爱,陶后鲜有闻。莲之爱,同予者何人?牡丹之爱,宜乎众矣。
第八单元第二课第一课时 严守法律 温州四中 蒋莉青.
高级财务会计.
默写基础知识: 1、家庭是由 关系、 关系或 关系而结合成的亲属生活组织。家里有 ,家中有 。
翻譯、機器翻譯的重要性 歷史上 - 翻譯是文化與文化的對話 希臘羅馬典籍的翻譯(文藝復興時期) 印度佛經的漢譯與和譯(理學的興起)
什么是颈椎病? 颈椎病是指颈椎间盘退行性变,及其继发性椎间关节退行性变所致脊髓、神经、血管损害而表现的相应症状和体征。
揭秘 庄家 股市中的 为什么你的股票一买就跌,一卖就涨? 为什么出了利好,股价反而下跌? 为什么有的股票一直涨停?
院長:鄭錦聰 教授 各系負責老師 光電系:姬梁文老師 電機系:張凱雄老師 資工系:謝仕杰老師 電子系:陳柏宏 老師
基于实体约束的纳西-汉语双语词语 对齐方法
樱花.
第一单元 中国传统文化主流思想的演变.
公務人員退休法、撫卹法 法制與實務講習 銓敘部退撫司 中華民國99年8月.
《傅雷家书》 学 科:语文 年 级:九年级 授课教师:王宁宁.
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
第一節 行政裁量與不確定法律概念 第二節 行政裁量
珍惜时间 提高效率 初二1班
本课设置5个环节 一、限时秒杀--5分钟 二、摩拳擦掌--9分钟 三、刀锋相见--20分钟 四、现炒现卖--5分钟 五、相约课后--1分钟.
从中国与联合国的关系演进 看联合国的产生与发展
虚拟机实时迁移技术 (Live Migration)
日本語學習者的文法習得過程 ―以形容詞為中心―
统计机器翻译简介 刘群
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
机器翻译前沿动态 张家俊 中国科学院自动化研究所
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
基于自适应同步的网络结构识别 陆君安 School of Mathematics and Statistics, Wuhan University (复杂网络论坛,北京,April.27-29th,2011)
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
中科院自动化所评测技术报告(SYSTEM II)
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
模糊系统与模糊控制简介 --博士生论坛系列报告.
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
Answering aggregation question over knowledge base
暑期活动见闻 程龚.
細胞學說.
98年度兒童課後照顧學程 修課名單確認暨課程說明會 2009/09/15(二) 08:40~09:20.
加減法文字題 國小低年級學生對加減法文字題的瞭解 小組成員 陳育娟 羅珠綾 侯宜孜
飛行器製作與飛行 講師:劉修建.
因果性:一个形而上学的预设 赵敦华 2008年5月.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
外國學生漢字學習的認知與策略整理 兼談漢字教學的建議
Non-Projective Parsing for Statistical Machine Translation
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Some discussions on Entity Identification
Presentation transcript:

ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院 2008-11

提纲 引言 系统描述 词对齐 模型训练 SMT模型及解码器 实验 结论&讨论

1.引言 中英SMT系统中的两个问题 解决办法 两个评测 词对齐 (Word Alignment) 重定序 (Reordering) 词对齐中引入启发式规则,加入ITG约束 重定序模型中结合ITG和句法知识 两个评测 中-英新闻 英-中科技

2.系统描述 ZZX_MT:一个Log-Linear SMT系统 词对齐模块 模型训练模块 解码器模块

词对齐(1/2) 问题 解决思路 ITG:反向转录文法 (Wu 1997) 中-英词序差别大 非一一对应 工业 产品 质量 责任 条例 regulation on quality responsibility for industrial product 系统分智能终端和服务器。 服务器主要完成内容采集;个性化挖掘;预测及分组广播功能

词对齐(2/2) 词对齐中引入ITG约束算法

模型训练(1/2) 需要训练的模型 语言模型:SRILM 翻译模型: 重定序模型 问题:数据稀疏 解决办法:利用子块近似预测整个块的方向 如:

模型训练(2/2) 块的提取 翻译信息的提取 重定序信息的提取

解码器(1/3) SMT模型特征 翻译模型: 重定序模型 语言模型 词惩罚 短语惩罚 树的同构模型 计算源句法分析树与解码过程中生成的ITG树的结构相似性 尽量使得:句法树的每个子树能够映射到ITG树中的子树

解码器(2/3) 解码过程 数据结构 束搜索的CYK 为每个源短语创建的翻译选项列表。每个选项的结构如下 : 解码过程看作是ITG规则的应用序列,最终形成的目标句子与源句子会形成一棵ITG树 数据结构 为每个源短语创建的翻译选项列表。每个选项的结构如下 :

解码器(3/3) 解码算法

3.实验 两个受限翻译评测 测试环境 中-英新闻翻译评测 英-中科技翻译评测 操作系统:Windows2K CPU:AMD64 2.8G

中-英新闻翻译评测 (1/3) 语料来源 预处理 训练语料库: CWMT08提供的新闻语料(Common部分)作为训练集 去掉长句 全角符号处理 分词:中文ICTCLAS ,英文WMT05的Tokenizer工具 英文的词根化处理:词对齐过程中使用 句法分析:Stanford的Parser 训练语料库: 724,914 句对

中-英新闻翻译评测(2/2) 实验设计及结果 结论 同构模型对于翻译结果产生的积极的影响,各个指标均比两个对照组的结果好 方向偏好产生了负面的影响,原因可能有: 一是因为中英文的输出顺序变化非常大,简单的计算输出方向不具有解释能力,反而影响了模型的稳定性; 二是模型的权值调整过程中,过度拟合,导致在真实测试集上效果不佳

英-中科技翻译评测 语料来源 实验设计及结果 结论 CWMT08提供的科技语料(Special)作为训练集 采用类似的预处理后,共:616597个句对 实验设计及结果 结论 采用同构模型后产生了负面影响,原因需要进一步分析,可能有: 中文过于灵活,采用英文的句法对目标句子进行约束,可能导致某些好的组合难于出现 来源于我们程序的Bug,以字为单位,这导致了大量的短语对被过滤掉

4.总结&讨论 参与了两个单元的评测 试图在SMT系统中结合句法知识 结果不同 试图在词对齐中结合ITG约束 在中-英新闻任务中,采用同构模型提高了翻译质量, 在英-中科技任务中,同构模型的采用产生了负面影响,具体的原因我们将在后续进一步研究

主要参考文献 Franz Joseph Och and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19–52. Deyi Xiong, Qun Liu and Shouxun Lin. 2006. Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages521-528. Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, & Robert L. Mercer. 1993. The mathematics of statistical machine translation: parameter estimation. Computational Linguistics 19 (2), pp. 263-311. Kenji Yamada and Kevin Knight. 2001. A Syntax-based Statistical Translation Model. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pp. 523–530. Yang Liu, Qun Liu, & Shouxun Lin. 2006. Tree-to-string alignment template for statistical machine translation. In Coling-ACL 2006: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics; pp.609-616. Dekai Wu. 1997. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. Computational Linguistics, 23(3):374. Wen-Han Chao and Zhou-Jun Li. 2007. Incorporating Constituent Structure Constraint into Discriminative Word Alignment”, In proceedings of MT Summit XI, Copenhagen, Denmark, September 10-14, 2007. A. Stolcke. 2002. SRILM – An extensible language modeling toolkit. In Proceedings of the International Conference on Spoken Language Processing, pp. 901–904

谢谢