Learning Bilingual Linguistic Reordering Model for Statistical Machine Translation NAACLHLT09 2009 Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang Department of Computer Science National Tsing Hua University Presented by Fu Chunlin 10/22/2009 计算所讨论班,北京
提出一种包含更多语言学特征的重排序模型 用于基于BTG的统计机器翻译 工作: 实验:汉-英 从对齐语料抽取的词性和词类信息,以及特殊的长度信息 利用上述特征训练一个最大熵重排序模型。 实验:汉-英
先前的相关工作1 扁平模型。重排序的概率由一个固定的概率值决定。 扭曲模型。由相邻目标短语的源短语的相对位置决定。 缺点:与上下文信息无关,准确率低 扭曲模型。由相邻目标短语的源短语的相对位置决定。 缺点:缺乏上下文的信息,对于长距离的调序更差。
先前的相关工作2 MEBTG。最大熵括号转录语法。将重排序看作是一个分类问题来预测不同情况下保序和逆序的可能性。利用首词或尾词作为重排序的特征 缺点1: 例如:“the details of / the plan”,两个块的首词均为the,不足以正确指导调序。简单的解决办法:利用块的首尾边界同时作为特征,但仍然局限于只利用词汇特征,存在数据稀疏的问题。
先前的相关工作2 缺点2: 块A1的尾词特征,“计划/plan”可以被另一个类似的名词替换(如:plans,events,meetings),训练数据中可能无法包含所有类似的情况。
其他相关工作 除了利用首尾词的词汇化特征,还利用了源短语端句法特征。 LABTG。在源语言端加入了句法标记和词性特征。 注:均利用了句法标注,当源短语为非句法短语时,要么采用一个恒定的概率,或者利用词性特征。 linguistically annotated BTG (LABTG)
作者提出的方法 主要需要解决的问题:数据稀疏和如何抽取更具有代表性的特征。 在模型中利用了词性和词类这种语言学信息 在模型中利用了双边界特征,并考虑了短语的长度特征,而不仅仅是首词或尾词特征。 模型基于BTG-SMT, 例如求块A的概率
利用词性与词类信息—源语言端 源语言端,即在汉语句子中加入词性标注 e.g. Nc 地名 Nd 时间 VA 不及物动词 VC 及物动词 。。。
利用词性与词类信息—目标语言端 目标语言端,如果同样加入POS特征,会造成另一个数据稀疏的问题:一个源语言可能对应多个不同词性序列的目标语言 因此,利用mkcls工具包对目标语言进行词聚类。 {"T1L=14", "T1R=18", "T2L=14", "T2R=50"} 因此,基本将前文提到“the details of / the plan”泛化为“the ... NOUN” and “the ... of”.的能力
词性和词类标注可能会遇到的问题 在特征集中,重排序实例(a)和(b)在源语言端有相同的特征: 因此,引入了长度特征来缓解这个问题
引入长度特征 如R class: {"R1=Na", "R2=Caa", "R3=Na"} 源语言端和目标语言端均加入这个特征
最后抽取的重排序特征实例 上面这个实例可得出: {“S.B1=Nes”, “S.B2=Nv”, “S.B3=DE”, “S.B4=Na”, “T.B1=14”, “T.B2=18”, “T.B3=14”, "T.B4=50"}
实验-训练 短语表和重排序模型 Hong Kong Parallel Text (LDC2004T08) and Xinhua News Agency (LDC2007T09) Size:2.2M ,句子长度不超过60. 分词与词性标注工具:CKIP Chinese word segmentation system 语言模型 Xinhua news from English Gigaword Third Edition (LDC2007T07) 开发集 NIST MT-08 test set, 句子长度不超过20 测试集 NIST MT-06 test set
实验-结果1
实验-结果2 对比在MEBTG中加入词类特征的结果
实验-结果3 对比在BTG系统中增加边界特征和长度特征的结果
实验-结果4 对比词类特征(WC)和长度特征的影响
总结 提出了基于双语语言学的重排序模型来改进当前的BTG-SMT。 主要解决了两个问题: 解决了词汇化模型中的数据稀疏问题 提出了一种更具有代表性的特征方法。
Thanks!