Download presentation
Presentation is loading. Please wait.
1
中科院自动化所评测技术报告(SYSTEM II)
魏玮 于东 王韦华 宗成庆 徐波
2
内容概要 技术说明与参评系统 评测环境概要 数据 总结 短语系统 分层短语系统 基于依存树到串系统 前后处理 系统融合
中国科学院自动化所 内容概要 技术说明与参评系统 短语系统 分层短语系统 基于依存树到串系统 前后处理 系统融合 CASIA_SYSTEM II英中翻译系统 评测环境概要 数据 总结 Institute of Automation, Chinese Academy of Sciences
3
技术说明-短语系统 典型的短语系统[2] 非单调解码,任意跳转 对数线性模型 10个特征 双向短语翻译概率p(e/f)和p(f/e)
中国科学院自动化所 技术说明-短语系统 典型的短语系统[2] 非单调解码,任意跳转 对数线性模型 10个特征 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 扭曲概率 句子长度惩罚 短语惩罚 方向概率[3] IBM扭曲模型[4] Institute of Automation, Chinese Academy of Sciences
4
技术说明-分层短语系统 主要借鉴了Wei[5]的基本思想,引入分层短语的概念 有效地结合了短语模型和同步上下文无关文法
中国科学院自动化所 技术说明-分层短语系统 主要借鉴了Wei[5]的基本思想,引入分层短语的概念 有效地结合了短语模型和同步上下文无关文法 分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题 沿用了统计线性对数方法进行概率计算,使用了如下6个特征: 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 Institute of Automation, Chinese Academy of Sciences
5
中国科学院自动化所 技术说明-依存树到串系统 在源语言端运用依存结构进行统计翻译的新模型:Dependency-String Structure Model (DSS模型) 由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法 DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的 解码时使用了8个特征,最后两个为依存子树的惩罚 双向短语翻译概率p(e/f)和p(f/e) 双向词汇化概率l(e/f)和l(f/e) 4gram语言模型 句子长度惩罚 符合依存子树惩罚 不符合依存子树惩罚 Institute of Automation, Chinese Academy of Sciences
6
技术说明-前后处理 前处理 后处理 时间,数字处理模块 地名,人名,机构名处理模块 英文转化为小写 预处理
中国科学院自动化所 技术说明-前后处理 前处理 时间,数字处理模块 地名,人名,机构名处理模块 英文转化为小写 预处理 乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子) 标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字) 英文缩写处理 中文分词、英文Tokenization 后处理 大小写转换:未翻译词保留其原始格式 格式转换:去除中文中的空格 未登录词 Institute of Automation, Chinese Academy of Sciences
7
技术说明-系统融合[6][7] 中国科学院自动化所
Institute of Automation, Chinese Academy of Sciences
8
技术说明-外部技术 汉语分词工具:计算所开发的ICTCLAS3.0 双语词对齐工具:GIZA++ 语言模型训练工具:SRILM工具包
中国科学院自动化所 技术说明-外部技术 汉语分词工具:计算所开发的ICTCLAS3.0 双语词对齐工具:GIZA++ 语言模型训练工具:SRILM工具包 英文词性标注工具:Stanford Log-linear Part-Of-Speech Tagger 英文依存树分析工具:Minimum-Spanning Tree Parser (MSTparser) Institute of Automation, Chinese Academy of Sciences
9
参评系统-CASIA_SYSTEM II 中国科学院自动化所
Institute of Automation, Chinese Academy of Sciences
10
评测环境概要 软硬件环境 运行时间(约4000句测试集) 运行平台 操作系统 数量 CPU RAM PC机 Windows 2003 2
中国科学院自动化所 评测环境概要 软硬件环境 运行时间(约4000句测试集) 运行平台 操作系统 数量 CPU RAM PC机 Windows 2003 2 Pentium 4, 3.0G 2.0G 服务器 Linux (Ubuntu) 1 Xeon 2.0×2 16.0G 系统 新闻领域 (小时) 科技领域 (小时) 短语系统 16 分层短语 20 18 依存树到串 Institute of Automation, Chinese Academy of Sciences
11
数据 开发数据: 翻译模型训练数据: 语言模型训练数据: 新闻-2007 SSMT英中翻译测试集
中国科学院自动化所 数据 开发数据: 新闻-2007 SSMT英中翻译测试集 科技-CWMT08提供的Special语料中随机挑选200句 翻译模型训练数据: 新闻-CWMT08提供的Common,约85万句对和;NIST MT08评测提供语料,大约670万句对 科技- CWMT08提供的Special部分语料,约52万句对; NIST MT08评测提供语料,大约670万句对 语言模型训练数据: LDC2007T38提供的Chinese Gigaword Third Edition,约3900万句 Institute of Automation, Chinese Academy of Sciences
12
数据过滤 过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域 科技领域
中国科学院自动化所 数据过滤 过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉) 新闻领域 将NIST语料根据新闻任务发布的训练语料进行过滤 翻译模型最后使用的语料为538万句对 科技领域 将NIST语料根据科技任务发布的训练语料进行过滤的 翻译模型最后使用的语料为468万句对 语言模型也同样使用了过滤技术,最后过滤剩余1000万句 Institute of Automation, Chinese Academy of Sciences
13
测试结果 新闻领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 3个来自于基于分层短语的翻译系统(HPB)
中国科学院自动化所 测试结果 新闻领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 3个来自于基于分层短语的翻译系统(HPB) 3个来自于基于依存树到串的翻译系统 (DHPB) Institute of Automation, Chinese Academy of Sciences
14
测试结果 科技领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 2个来自于基于分层短语的翻译系统(HPB)
中国科学院自动化所 测试结果 科技领域 采用基于MBR解码和混淆网络解码的多系统融合策略,融合6个结果 2个来自于基于分层短语的翻译系统(HPB) 2个来自于基于依存树到串的翻译系统(DHPB) 2个来自于基于短语的系统 (PB) Institute of Automation, Chinese Academy of Sciences
15
总结 新闻领域 科技领域 借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块;
中国科学院自动化所 总结 新闻领域 借鉴了汉英评测的经验,加入了英文命名实体翻译及前后处理模块; 并且针对英文的特点,在解码中融入句法分析树,在不增加时空复杂度的前提下提高了翻译质量 科技领域 由于缺乏这方面的语料资源,我们只能借用新闻领域的语料,利用数据过滤技术得到相关资源 但由于在选取开发集时,其规模和相关性受到制约,所以最后的参数训练并不能有效得收敛到最优 如何能够充分利用有限的资源,开发出更加鲁棒的训练及解码算法,是我们下一步要思考的问题 Institute of Automation, Chinese Academy of Sciences
16
参考文献 [1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研讨会,2008
中国科学院自动化所 参考文献 [1] 中科院自动化所评测技术报告(SYSTEM II),第四届机器翻译研讨会,2008 [2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TC-STAR Evaluation Campaign In: TC-STAR workshop, 2006. [3] Yaser Al-Onaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL '06 [4] Philipp Koehn, et al. Edinburgh System Description for the 2005 IWSLT Speech Translation Evaluation, International Workshop on Spoken Language Translation 2005. [5] 魏玮,杜金华,徐波,基于组块分析的分层短语系统,第九届计算语言学年会,2007 [6] K.C. Sim, W. Byrne, M. Gales, H. Sahbi and P. Woodland. Consensus Network Decoding For Statistical Machine Translation System [A]. In: ICASSP, 2007. [7] 杜金华,魏玮,杨振东,徐波. 基于混淆网络的统计机器翻译多系统融合技术研究. 第三届统计机器翻译研讨会, 2007. Institute of Automation, Chinese Academy of Sciences
17
谢 谢
Similar presentations