融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所 2008.11.28.

融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所

背景自从IBM翻译模型的提取，特别是基于短语的翻译模型提出后，调序模型始终是统计机器翻译的关键问题，是研究的热点
从基于距离的扭曲模型、词汇化的调序模型到层次化的短语翻译模型、最大熵调序模型，都非常有效地提高了翻译质量

想法这些模型没有充分利用语言所固有的语法信息，在不需要调序的地方浪费了大量的计算时间
这些模型没有充分利用句子的先验知识，譬如句型，因为不同的句型具有不同的调序策略

句型在调序中的作用几个例子：

句型调序分析特殊疑问句中至少有一固定的短语（我们称为特殊疑问短语）在翻译成英语时通常出现在句首；
一般疑问句在翻译时有特定的例如can, do, is等引导词；在非疑问句中，有很大比例的句子中出现介词短语、时间地点短语，这些短语在汉语中出现在动词前，而在翻译时一般出现在动词的后面

口语语料分析我们分析277k 中英对齐句对发现，大约 17.2% 是特殊疑问句, 约 25.5% 为一般疑问句，其余为非疑问句。
可见在口语翻译中，基于句型的调序是非常有意义且具有研究价值的

基于句型调序的翻译框架（汉英） C1：特殊疑问句，C2:一般疑问句，C3：非疑问句英语输出汉语输入句子后向、前向调序模型翻译引擎
后向调序模型翻译引擎分类器

基于句型调序的翻译框架（英汉） C1、C2和C3的意义同上图，“逆”表示与上图的算法相似但调序方向相反汉语结果输出英语输入句子
逆后向、前向调序模型逆后向调序模型汉语结果输出分类器英汉翻译引擎

模型与算法句型的分类算法：SVM-based 前向调序模型、逆前向调序模型后向调序算法、逆后向调序模型

句型分类算法 SVM的优势，分类准确，几乎不受标点的影响（我们知道标点是句型关键性的特征）实验：
语料：三类句型分别问1000句，80%作为训练，20%作为测试实验结果：

前向调序模型适用句型：特殊疑问句调序对象：特殊疑问短语调序的两个关键问题：特殊疑问短语的识别正确的调序位置

调序的两个关键问题特殊疑问短语的识别我们在语法上给特殊疑问短语一个定义：包含特殊疑问词的完整的语法成分。
特殊疑问词是利用互信息得到的一个闭集：什么、哪、多（多长、多久）、怎、谁、几、为什么、何在汉语中，从语法层面看来，特殊疑问短语可能会是任何一类语法成分，从语法层无法识别我们采用chunking的浅层句法分析来识别特殊疑问短语

调序的两个关键问题正确的调序位置分析翻译实例我们发现，调序的位置分为3类：句首、子句首、特定模板短语（从对齐语料习得）后分别举例：
这个味道怎么样？=》怎么样这个味道？请问，去海滩怎么走？ =》请问，怎么走去海滩？你认为到那要多长时间？=》你认为要多长时间到那？

逆前向调序模型适用句型和处理对象与前向模型一样面向英汉翻译任务同样面临调序的两个关键问题：对翻译结果的修正特殊疑问短语的识别
正确的调序位置

调序的两个关键问题特殊疑问短语的识别同前向模型调序的目标位置：特殊疑问句的结构调序规则

调序的两个关键问题特殊疑问句的两种结构调序规则作为强调部分出现在句末作为动词短语的修饰成分出现在动词短语的前面
若SQP为动词短语，则将其调至包含该SQP的子句末尾若SQP不是动词短语，而且中有动词短语，则保持其位置不变；否则将其调至包含该SQP的子句末尾

后向调序模型针对句型：所有句型调序对象：在翻译中最有可能调序的短语=》介词短语、时间地点短语调序的两个关键问题
介词短语、时间地点短语与动词短语的识别调序策略

调序的两个关键问题介词短语、时间地点短语与动词短语的识别采用chunking浅层句法分析
虚拟动词短语（VVP）的定义：由于识别错误等原因，有时在介词短语、时间地点短语后没有识别出动词短语。为加强该模型的适应性，我们定义自此介词或时间地点短语后到子句的结束为伪动词短语，并赋予其动词短语的功能。例：请在这里签名。“签名”被识别为NP，在我们的模型中，它就是VVP

调序的两个关键问题调序策略：利用最大熵模型决定识别出的介词或时间地点短语是否需调序到紧跟着它们的动词短语后。调序规则：

逆后向调序模型面向英汉翻译任务介词短语、时间地点短语等的识别方法同后向模型调序方向相反

逆后向调序模型调序规则

实验设计与结果 baseline：利用我们实验室实现的基于短语的统计机器翻译系统利用单调的解码策略

实验设计与结果语料说明：表1：汉英翻译相关语料表2：英汉翻译相关语料句子数训练语料汉语 32，4626 英语开发集 534
表1：汉英翻译相关语料表2：英汉翻译相关语料句子数训练语料汉语 32，4626 英语开发集 534 测试集 504 句子数训练语料汉语 31，1438 英语开发集 325 测试集 498

实验设计与结果实验结果：表3：汉英翻译实验结果表4：英汉翻译实验结果 BLEU（%） BASELINE 37.45 STR 40.18
表3：汉英翻译实验结果表4：英汉翻译实验结果 BLEU（%） BASELINE 37.45 STR 40.18 BLEU（%） BASELINE 0.5037 STR 0.5105

总结与展望句型信息对口语翻译的帮助非常大研究汉语的特点才能更有效地提高机器翻译质量

THANKS!

融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所 2008.11.28.

Similar presentations

Presentation on theme: "融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所 2008.11.28."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所 2008.11.28.

Similar presentations

Presentation on theme: "融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所 2008.11.28."— Presentation transcript:

Similar presentations

About project

反馈

融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所 2008.11.28.

Presentation on theme: "融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所 2008.11.28."— Presentation transcript: