Download presentation
Presentation is loading. Please wait.
1
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
2
提纲 引言 系统描述 词对齐 模型训练 SMT模型及解码器 实验 结论&讨论
3
1.引言 中英SMT系统中的两个问题 解决办法 两个评测 词对齐 (Word Alignment) 重定序 (Reordering)
词对齐中引入启发式规则,加入ITG约束 重定序模型中结合ITG和句法知识 两个评测 中-英新闻 英-中科技
4
2.系统描述 ZZX_MT:一个Log-Linear SMT系统 词对齐模块 模型训练模块 解码器模块
5
词对齐(1/2) 问题 解决思路 ITG:反向转录文法 (Wu 1997) 中-英词序差别大 非一一对应
工业 产品 质量 责任 条例 regulation on quality responsibility for industrial product 系统分智能终端和服务器。 服务器主要完成内容采集;个性化挖掘;预测及分组广播功能
6
词对齐(2/2) 词对齐中引入ITG约束算法
7
模型训练(1/2) 需要训练的模型 语言模型:SRILM 翻译模型: 重定序模型 问题:数据稀疏 解决办法:利用子块近似预测整个块的方向
如:
8
模型训练(2/2) 块的提取 翻译信息的提取 重定序信息的提取
9
解码器(1/3) SMT模型特征 翻译模型: 重定序模型 语言模型 词惩罚 短语惩罚 树的同构模型
计算源句法分析树与解码过程中生成的ITG树的结构相似性 尽量使得:句法树的每个子树能够映射到ITG树中的子树
10
解码器(2/3) 解码过程 数据结构 束搜索的CYK 为每个源短语创建的翻译选项列表。每个选项的结构如下 :
解码过程看作是ITG规则的应用序列,最终形成的目标句子与源句子会形成一棵ITG树 数据结构 为每个源短语创建的翻译选项列表。每个选项的结构如下 :
11
解码器(3/3) 解码算法
12
3.实验 两个受限翻译评测 测试环境 中-英新闻翻译评测 英-中科技翻译评测 操作系统:Windows2K CPU:AMD64 2.8G
13
中-英新闻翻译评测 (1/3) 语料来源 预处理 训练语料库: CWMT08提供的新闻语料(Common部分)作为训练集 去掉长句
全角符号处理 分词:中文ICTCLAS ,英文WMT05的Tokenizer工具 英文的词根化处理:词对齐过程中使用 句法分析:Stanford的Parser 训练语料库: 724,914 句对
14
中-英新闻翻译评测(2/2) 实验设计及结果 结论 同构模型对于翻译结果产生的积极的影响,各个指标均比两个对照组的结果好
方向偏好产生了负面的影响,原因可能有: 一是因为中英文的输出顺序变化非常大,简单的计算输出方向不具有解释能力,反而影响了模型的稳定性; 二是模型的权值调整过程中,过度拟合,导致在真实测试集上效果不佳
15
英-中科技翻译评测 语料来源 实验设计及结果 结论 CWMT08提供的科技语料(Special)作为训练集
采用类似的预处理后,共:616597个句对 实验设计及结果 结论 采用同构模型后产生了负面影响,原因需要进一步分析,可能有: 中文过于灵活,采用英文的句法对目标句子进行约束,可能导致某些好的组合难于出现 来源于我们程序的Bug,以字为单位,这导致了大量的短语对被过滤掉
16
4.总结&讨论 参与了两个单元的评测 试图在SMT系统中结合句法知识 结果不同 试图在词对齐中结合ITG约束
在中-英新闻任务中,采用同构模型提高了翻译质量, 在英-中科技任务中,同构模型的采用产生了负面影响,具体的原因我们将在后续进一步研究
17
主要参考文献 Franz Joseph Och and Hermann Ney A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1):19–52. Deyi Xiong, Qun Liu and Shouxun Lin Maximum Entropy Based Phrase Reordering Model for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, & Robert L. Mercer The mathematics of statistical machine translation: parameter estimation. Computational Linguistics 19 (2), pp Kenji Yamada and Kevin Knight A Syntax-based Statistical Translation Model. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pp. 523–530. Yang Liu, Qun Liu, & Shouxun Lin Tree-to-string alignment template for statistical machine translation. In Coling-ACL 2006: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics; pp Dekai Wu Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. Computational Linguistics, 23(3):374. Wen-Han Chao and Zhou-Jun Li Incorporating Constituent Structure Constraint into Discriminative Word Alignment”, In proceedings of MT Summit XI, Copenhagen, Denmark, September 10-14, 2007. A. Stolcke SRILM – An extensible language modeling toolkit. In Proceedings of the International Conference on Spoken Language Processing, pp. 901–904
18
谢谢
Similar presentations