中科院自动化所评测技术报告(SYSTEM II)

Slides:



Advertisements
Similar presentations
高三英语有效复习策略 程国学. 一、高考备考的方向把握 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 一是明确高考英语可能考什么,我们应该怎样准.
Advertisements

考纲研读 语言知识要求 语言运用能力 附录 1: 语音项目表 附录 2: 语法项目表 附录 3: 功能意念项目表 附录 4: 话题项目表 附录 5: 词汇表 听力 阅读 写作 口语.
机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
第七节 心 悸 郑祖平. 一、概述 心悸是一种自觉心脏跳动的不适感或心 慌感。当心率加快时感到心脏跳动不适, 心率缓慢时则感到搏动有力。心悸时,心 率可快、可慢,也可有心律失常,心率和 心律正常者亦可有心悸。 一般认为与心肌收缩力心搏量的变化及 患者的精神状态注意力是否集中等多种因 素有关。
我国大城市交通发展面临的挑战 Challenges in the Transport Development in China’s Mega-cities 金凤君 ( Jin FengJun) 中国科学院地理科学与资源研究所 (Institute of Geographic Sciences and.
100 學年度 勞委會就業學程 國際企業管理學系-物業管理學程介紹. 何謂物業管理? 以台灣物業管理學會 所述,物業管理區分為 「物」、「業」、「人」三區塊。台灣物業管理學會 「物」係指傳統的建物設備、設施 「業」為不動產經營的資產管理 「人」則以生活服務、商業服務為主,並以人為 本位連結物與業,形成今日物業管理三足鼎立新.
中国电子学会 SMT 专业技术资格认证委员会. 彭志聪 广东省电子学会 副理事长兼秘书长 高级工程师 成果曾获 国家科技进步三等奖,广东省科技进步二等奖 国家科委优秀科技成果二等奖,广东省科委一等奖 承担并主持经国家科协批准,中国电子学会在全国开展 的电子表面组装( SMT )专业技术资格社会化认证体系建.
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
图书馆管理实务.
月子保姆理论知识试卷.
行政命令.
温故知新 问题一:我国科技发展经过怎样的历程? 中华民族在历史上曾创造了辉煌灿烂的文化,世界领先;
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
共产党领导的多党合作和政治协商制度: 中国特色的政党制度.
主讲:材料工程学院党总支宣传委员、党务秘书 教工党支部书记 王国志 2015年12月7日
自动化专业介绍 廖家平.
时间与我们的世界 Pb 段心蕊.
開南大學 資訊管理學系 學分學程相關說明.
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
人 因 工 程 四室一B 黃雅勤 四室一B 黃曉楓 四室一B 鄭羽真 四室一B 張起順.
宣讲数学课程标准 增强课程改革意识.
会计信息系统概述 第一章.
快乐生活,快乐学习 《中国古代诗歌散文欣赏》.
成功的招聘 一、明确用人需求 二、做好面试前的准备 三、行为事例STAR法 四、在面试中恰当的提问 五、做出正确的选聘决定.
報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2. 報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2.
“计算机与网络”工作室和相关特需课程建设
关于职教发展的几个理念 上海市教育科学研究院 周亚弟.
香港普通話研習社科技創意小學 周順強老師.
第七章 机械加工工艺规程的制定.
主講人:臺中市政府警察局 交通警察大隊 行政組組長簡仁照
家庭教育與服務學習.
安徽地税机打发票系统培训 2015年3月.
支气管哮喘怎么治疗? 北京军都医院哮喘科 咨询热线:.
普通高中课程改革的方案与推进策略 安徽省教育厅 李明阳.
Principles of Microcomputers
基于实体约束的纳西-汉语双语词语 对齐方法
四气调神大论.
智能化是信息化发展的必然趋势 中国社会科学院 童天湘
普通高中校本课程开发与实施 崔允漷 教授、博导 普通高中新课程国家级通识研修专题之一 华东师范大学课程与教学研究所副所长
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
作業系統的結構 日期 : 2018/9/17.
檢調機關函調、搜索、約談訊問之認識 (含教師因公涉訟輔助)
统计机器翻译简介 刘群
Word 2003 學習導引手冊 第一章 WORD 基本操作 作者 丁安強 博碩-Word 2003 學習導引手冊 Ch01.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
机器翻译前沿动态 张家俊 中国科学院自动化研究所
物流信息技术 Logistics Information Technology
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
讲师:田家华 第1章 认识计算机 本章要点   计算机的发展 计算机的组成.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
组长:吴蔚 项目组成员:吴蔚,邱丁兰,汪琳莺
International Financial Management 11th Edition
CWMT 2008 评测技术报告 机器智能与翻译实验室 哈尔滨工业大学
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
International Financial Management 11th Edition
校 園 雲端輸出管理系統 新印科技股份有限公司 聯絡人:伍宏一 電 話: /
織物的認識 演示者:陳明玲 美容科:家政概論.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
第三章 指數與對數 3-2 指數函數及其圖形.
计算机的产生和发展 王 永 辉 泾川电大工作站.
新高中通識教育科教案設計分享會 現代中國: 中國文化與現代生活 朱秀玲老師.
靜宜大學專用 PowerPoint 檔案 數位教材
香港傳統的農村生活.
厦门大学第四届机器翻译研讨会评测系统描述
ACM数据库 及其使用 iGroup亚太资讯公司 2007年10月.
桃園市108學年度國民中學資賦優異學生鑑定家長說明會
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

中科院自动化所评测技术报告(SYSTEM II) 魏玮 于东 王韦华 宗成庆 徐波

内容概要 技术说明与参评系统 评测环境概要 数据 总结 短语系统 分层短语系统 基于依存树到串系统 前后处理 系统融合 中国科学院自动化所 内容概要 技术说明与参评系统 短语系统 分层短语系统 基于依存树到串系统 前后处理 系统融合 CASIA_SYSTEM II英中翻译系统 评测环境概要 数据 总结 Institute of Automation, Chinese Academy of Sciences

技术说明-短语系统 典型的短语系统[2] 非单调解码,任意跳转 对数线性模型 10个特征 双向短语翻译概率p(e/f)和p(f/e) 中国科学院自动化所 技术说明-短语系统 典型的短语系统[2] 非单调解码,任意跳转 对数线性模型 10个特征 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 扭曲概率 句子长度惩罚 短语惩罚 方向概率[3] IBM扭曲模型[4] Institute of Automation, Chinese Academy of Sciences

技术说明-分层短语系统 主要借鉴了Wei[5]的基本思想,引入分层短语的概念 有效地结合了短语模型和同步上下文无关文法 中国科学院自动化所 技术说明-分层短语系统 主要借鉴了Wei[5]的基本思想,引入分层短语的概念 有效地结合了短语模型和同步上下文无关文法 分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题 沿用了统计线性对数方法进行概率计算,使用了如下6个特征: 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 Institute of Automation, Chinese Academy of Sciences

中国科学院自动化所 技术说明-依存树到串系统 在源语言端运用依存结构进行统计翻译的新模型:Dependency-String Structure Model (DSS模型) 由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法 DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的 解码时使用了8个特征,最后两个为依存子树的惩罚 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 符合依存子树惩罚 不符合依存子树惩罚 Institute of Automation, Chinese Academy of Sciences

技术说明-前后处理 前处理 后处理 时间,数字处理模块 地名,人名,机构名处理模块 英文转化为小写 预处理 中国科学院自动化所 技术说明-前后处理 前处理 时间,数字处理模块 地名,人名,机构名处理模块 英文转化为小写 预处理 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子) 标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字) 英文缩写处理 中文分词、英文Tokenization 后处理 大小写转换:未翻译词保留其原始格式 格式转换:去除中文中的空格 未登录词 Institute of Automation, Chinese Academy of Sciences

技术说明-系统融合[6][7] 中国科学院自动化所 Institute of Automation, Chinese Academy of Sciences

技术说明-外部技术 汉语分词工具:计算所开发的ICTCLAS3.0 双语词对齐工具:GIZA++ 语言模型训练工具:SRILM工具包 中国科学院自动化所 技术说明-外部技术 汉语分词工具:计算所开发的ICTCLAS3.0 双语词对齐工具:GIZA++ 语言模型训练工具:SRILM工具包 英文词性标注工具:Stanford Log-linear Part-Of-Speech Tagger 英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser) Institute of Automation, Chinese Academy of Sciences

参评系统-CASIA_SYSTEM II 中国科学院自动化所 Institute of Automation, Chinese Academy of Sciences

评测环境概要 软硬件环境 运行时间(约4000句测试集) 运行平台 操作系统 数量 CPU RAM PC机 Windows 2003 2 中国科学院自动化所 评测环境概要 软硬件环境 运行时间(约4000句测试集) 运行平台 操作系统 数量 CPU RAM PC机 Windows 2003 2 Pentium 4, 3.0G 2.0G 服务器 Linux (Ubuntu) 1 Xeon 2.0×2 16.0G 系统 新闻领域 (小时) 科技领域 (小时) 短语系统 16 分层短语 20 18 依存树到串 Institute of Automation, Chinese Academy of Sciences

数据 开发数据: 翻译模型训练数据: 语言模型训练数据: 新闻-2007 SSMT英中翻译测试集 中国科学院自动化所 数据 开发数据: 新闻-2007 SSMT英中翻译测试集 科技-CWMT08提供的Special语料中随机挑选200句 翻译模型训练数据: 新闻-CWMT08提供的Common,约85万句对和;NIST MT08评测提供语料,大约670万句对 科技- CWMT08提供的Special部分语料,约52万句对; NIST MT08评测提供语料,大约670万句对 语言模型训练数据: LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句 Institute of Automation, Chinese Academy of Sciences

数据过滤 过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域 科技领域 中国科学院自动化所 数据过滤 过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域 将NIST语料根据新闻任务发布的训练语料进行过滤 翻译模型最后使用的语料为538万句对 科技领域 将NIST语料根据科技任务发布的训练语料进行过滤的 翻译模型最后使用的语料为468万句对 语言模型也同样使用了过滤技术,最后过滤剩余1000万句 Institute of Automation, Chinese Academy of Sciences

测试结果 新闻领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 3个来自于基于分层短语的翻译系统(HPB) 中国科学院自动化所 测试结果 新闻领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 3个来自于基于分层短语的翻译系统(HPB) 3个来自于基于依存树到串的翻译系统 (DHPB) Institute of Automation, Chinese Academy of Sciences

测试结果 科技领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 2个来自于基于分层短语的翻译系统(HPB) 中国科学院自动化所 测试结果 科技领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 2个来自于基于分层短语的翻译系统(HPB) 2个来自于基于依存树到串的翻译系统(DHPB) 2个来自于基于短语的系统 (PB) Institute of Automation, Chinese Academy of Sciences

总结 新闻领域 科技领域 借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块; 中国科学院自动化所 总结 新闻领域 借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块; 并且针对英文的特点,在解码中融入句法分析树,在不增加时空复杂度的前提下提高了翻译质量 科技领域 由于缺乏这方面的语料资源,我们只能借用新闻领域的语料,利用数据过滤技术得到相关资源 但由于在选取开发集时,其规模和相关性受到制约,所以最后的参数训练并不能有效得收敛到最优 如何能够充分利用有限的资源,开发出更加鲁棒的训练及解码算法,是我们下一步要思考的问题 Institute of Automation, Chinese Academy of Sciences

参考文献 [1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研讨会,2008 中国科学院自动化所 参考文献 [1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研讨会,2008 [2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TC-STAR Evaluation Campaign 2006. In: TC-STAR workshop, 2006. [3] Yaser Al-Onaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL '06 [4] Philipp Koehn, et al. Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation, International Workshop on Spoken Language Translation 2005. [5] 魏玮,杜金华,徐波,基于组块分析的分层短语系统,第九届计算语言学年会,2007 [6] K.C. Sim, W. Byrne, M. Gales, H. Sahbi and P. Woodland. Consensus Network Decoding For Statistical Machine Translation System [A]. In: ICASSP, 2007. [7] 杜金华,魏玮,杨振东,徐波. 基于混淆网络的统计机器翻译多系统融合技术研究. 第三届统计机器翻译研讨会, 2007. Institute of Automation, Chinese Academy of Sciences

谢 谢