孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学 2008.11.28 一种面向统计机器翻译的同步文法 孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学 2008.11.28
提纲 多文本文法(MTG) 基于子图的MTG 模型训练 解码 实验及结果
多文本文法
MTG推导举例
多文本文法(MTG) 基于子图的MTG 模型训练 解码 实验及结果
机器翻译与同步文法 机器翻译的任务 同步文法模型 (1) (2)
MTG模型的表达能力 不同语言间存在异构性 构造同步文法模型需要什么? 短语模型上的方法可以延用吗?
语言的异构 L: L’:
子图定义 对于一棵句法树,它的子图必须满足以下两个条件: 定义1: 子图 1.它是一个单根的树状图 2.当遍历这棵树时,子图中的任意结点和边的对应关系与原句法树一致。 子图是一个三元组< g, R, L >
子图举例
子图对的定义 子图对的定义 一个子图对是一个三元组: 其中,g是源语言的一个子图;G是与g对应的目标语言的子图,~表示两个子图叶节点的对齐关系。
双语句法树
子图对
子图对相加
子图对相加
基于子图MTG的机器翻译 (1) (2)
子图MTG系统框架 input source language sentence Bilingual parse tress Language model Decoding system Training system Sub-graph pair table output: bilingual “parse tree”
多文本文法(MTG) 基于子图的MTG 模型训练 解码 实验及结果
模型的特征(1) 用对数线性模型融合特征 特征函数:
模型的特征(2)
子图MTG模型的规则过滤 面对的问题 基于同步文法的模型通常过于庞大 子图频繁度挖掘 是否保留所有的子图对
子图频繁度 子图频繁度定义:
子图过滤
多文本文法(MTG) 基于子图的MTG 模型训练 解码 实验及结果
解码算法 1 Vector<rule> XRules; 2 for l=1 to SentLength 3 for i=0 to SentLength-l 4 j=l+i; 5 guessrule(i,j, XRules); 6 foreach rule in XRules 7 if rule exists in Graph table 8 add new rule to [X,i,j]; 9 Get k-best derivations of [X,i,j];
每个结点的k-best计算 Make a heap as a priority queue For every rule push its 1st best translation into the heap While(candi.size()<k && heap.size() != 0) candi.push back(heap.top()) pop heap push neighbors of heap.top() into heap
多文本文法(MTG) 基于子图的MTG 模型训练 解码 实验及结果
IWSLT2004测试 System BLEU-4 Pharaoh 0.3548±0.0082 Sub-graph pairs 0.3714±0.0085
一些翻译结果 Pharaoh They must compensate our losses Subgraph They will be compensation for our losses They will compensate our losses According to regulations, they will be our loss compensation According to regulations, they will compensate our losses
未来的工作 更丰富的子图信息 规则削减 -依据频繁度过滤 -合并规则 更高效搜索算法及剪枝策略
谢 谢 !