张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28
引言 翻译从词一级过渡到短语一级 短语的选择问题,短语翻译概率 短语和短语之间的重排序问题 Pharaoh:简单的重排序惩罚 层次型模型:利用“长”短语对“短”短语进行调序 ITG/BTG:组合所有可能的情况
他 说 ,□□□□ he said that □□□□ he said , □□□□ □□□□ , he said . 中文短语 英文短语 中文短语 英文短语 当一个中文短语和一个英文短语组成短语翻译对时,其在句子中和临近短语对的相对位置基本是固定的,即,当“他 说 ,”翻译成“he said that”时,它和后面的短语对永远是顺序的组合关系。 他 说 , he said that 他 说 , he said , 他 说 , , he said .
引言 构造一个模型,可以有效的表示这种组合关系 能够自动从语料中学习 简单并且有效
管理局 将会 向 财政 司 负责 。 The Authority will be accountable to the Financial Secretary . □□□□ 1. 每一层只允许相同的调序 准则存在,即当前层或者为 单调顺序层,或者为单调反 序层 2. 不同的短语组合顺序需要 产生新的层,两层交替存在 3. 每一个句子对产生唯一的 一颗句法树,树的叶子节点 是词对
压平的双语句法树 属性 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现 每一层只允许相同的调序准则存在,即当前层或者为单调顺序层,或者为单调反序层 不同的短语组合顺序需要产生新的层,两层交替存在 每一个句子对产生唯一的一颗句法树,树的叶子节点是词对 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现
树的生成 管理局 将会 向 财政 司 负责 。 The ○ 1 Authority ● 2 will 3 be 4 account… 5 to 6 the 7 Financial 8 Secretary 9 . 10 A B C D E F G
短语属性抽取 短语属性抽取
解码 自底向上的动态解码 短语对定义 组合关系 类别A:训练语料中出现过的短语对,带有“层次”属性 类别B:训练语料中未出现的短语对,新组合的短语对 组合关系 A A:根据A的“层次”属性决定,优先组合相同的“层次”属性,不相同时,生成新的层后组合 A B 或者 B A:根据A的“层次”属性决定 B B:顺序和反序都要考虑
实验 NIST 中英评测(训练语料100万句) C-E Dev (MT06) Test (MT08) BLEU NIST Pharaohdl=0 0.1915 6.7974 0.1490 5.9296 Pharaohdl=4 0.2007 6.8480 0.1550 5.9237 FBPT 0.1950 7.1094 0.1659 6.4732 Hiero* 0.2172 6.9973 0.1815 6.2417
和层次型短语比较 层次型短语 <X1> 之一 ||| one of <X1> <X1> 的 <X2> ||| the <X2> of <X1> 压平的句法树方法 之一/one of 反序属性 例:□□之一/one of □□
利用压平的双语句法树进行短语重排序 在翻译的过程中,某些词或者短语是不需要和周围的词进行顺序交换的,这种方法利用短语在句法树中的位置属性,减少这部分调序操作 自动得到句法树,以及短语的所处层属性,解码的时候,需要遵循这一属性 具有处理非连续短语的能力 实验结果,相对Pharaoh (dl=4) 7%的提高,低于层次型短语方法
谢 谢!