融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所 2008.11.28.

Slides:



Advertisements
Similar presentations
天然 養生 樂活 年貨集錦 田森館 - 艾草之家. ‧環保健康生活小常識 : 日常使用的家中日用品,包含各種各樣的化學物質,這些化學物質,有些頗具 毒性,有些雖然沒有急毒性,但暴露日久卻會造成慢性中毒,導致健康受損, 甚至致命。 環境荷爾蒙會影響人類或其他生物的生殖能力與發育,其中一類的「壬基酚 (
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
“ 皖新传媒杯 ” 微课比赛参赛作品 课题名称 if 引导的条件状语从句 授课年级 八年级 学 科 英 语 所在县区 + 所在学校 + 教师 / 团队姓名: 淮北市 西园中学 刘 晓.
if 条件状语从句的含义 Jack 对 Rose 说: “ 如果你跳,我也会跳! ” If you jump,I will jump!
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
CWMT’08统计机器翻译研讨会自动化所技术报告
Unit 7- Unit 12 重点.
(人教PEP)三年级英语下册课件 Unit 4 Do you like pears?.
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
第二节 工业地域的形成 工业联系 工业集聚 工业地域
Lesson 14 people and plants. Think about it [讨论] 1 Which do you eat more, plants or meat? 2 Can we live without plants? Why or why not?
璜田中心学校 胡海霞 Section A bank save money Café house chat and drink coffee.
當代國際企業.
常用逻辑用语复习课 李娟.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
Topic2 Where are you from?
高三语法复习: 强调.
Wentao Ding Linfeng Shi Jiajie Yu
语杠理论 -- 句法结构的砖石.
基于规则的英汉翻译技术报告 景元 西安汇申软件有限公司 西安
M5U1 He is playing the suona ,but the phone rings.
SOA – Experiment 3: Web Services Composition Challenge
走进编程 程序的顺序结构(二).
Wentao Ding Linfeng Shi Jiajie Yu
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
中国科学院计算技术研究所CWMT 2008评测技术报告
情态动词1 情态动词的概念 情态动词的位置和特点.
基于规则抽取的 时间表达式识别.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
动名词(续2).
SOA – Experiment 2: Query Classification Web Service
英语句型之—— 强调句型.
C语言程序设计 主讲教师:陆幼利.
基本句型(二) S+Vt+O+C.
适用:外研版新标准七年级 英语语法加油站 系列微课 现在进行时(一) 泰顺县实验中学 包晶晶.
语法复习----代词.
Clean-up Day 清洁日. Clean-up Day 清洁日 Clean-up Day 清洁日.
Verb的时态 肯定句:主语+ V (时态) +… . 否定句:主语 + 助V +not + V原 +… .
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
牛津9A Unit6 Grammar.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
分词(二).
Be动词的用法 am is are.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
定语从句(8).
了解介词.
國民年金 np97006.
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
There be 句型中的be动词 所在知识模块:外研社新标准英语第三模块 My School  学科:初中英语 适用年级:七年级上册.
主谓一致 (Agreement) 一、概念 在英语中,随着主语的人称或数的变化谓语动词采用单数或复数形式。 二、怎么判断?
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
NAACLHLT Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang
基本句型(二) S+V+P.
S + Vt. + O (主语+谓语+宾语 句型).
形式语言学的战国时期 与 支配及约束理论.
(4)状语 (其逻辑主语一般就是句子的主语).
高中英语语法.
Minion So as you can imagine, if your skin gets burned it can be very serious. (Line 4 in Para. 1)
词的搭配(一).
The Past Participle used as Adverbial
第十七讲 密码执行(1).
第十二讲 密码执行(上).
一般过去时的 一般疑问句 By Wenhe Primary School.
Presentation transcript:

融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所 2008.11.28

背景 自从IBM翻译模型的提取,特别是基于短语的翻译模型提出后,调序模型始终是统计机器翻译的关键问题,是研究的热点 从基于距离的扭曲模型、词汇化的调序模型到层次化的短语翻译模型、最大熵调序模型,都非常有效地提高了翻译质量

想法 这些模型没有充分利用语言所固有的语法信息,在不需要调序的地方浪费了大量的计算时间 这些模型没有充分利用句子的先验知识,譬如句型,因为不同的句型具有不同的调序策略

句型在调序中的作用 几个例子:

句型调序分析 特殊疑问句中至少有一固定的短语(我们称为特殊疑问短语)在翻译成英语时通常出现在句首; 一般疑问句在翻译时有特定的例如can, do, is等引导词; 在非疑问句中,有很大比例的句子中出现介词短语、时间地点短语,这些短语在汉语中出现在动词前,而在翻译时一般出现在动词的后面

口语语料分析 我们分析277k 中英对齐句对发现,大约 17.2% 是特殊疑问句, 约 25.5% 为一般疑问句,其余为非疑问句。 可见在口语翻译中,基于句型的调序是非常有意义且具有研究价值的

基于句型调序的翻译框架(汉英) C1:特殊疑问句,C2:一般疑问句,C3:非疑问句 英语输出 汉语输入句子 后向、前向调序模型 翻译引擎 后向调序模型 翻译引擎 分类器

基于句型调序的翻译框架(英汉) C1、C2和C3的意义同上图,“逆”表示与上图的算法相似但调序方向相反 汉语结果输出 英语输入句子 逆后向、前向调序模型 逆后向调序模型 汉语结果输出 分类器 英汉翻译引擎

模型与算法 句型的分类算法:SVM-based 前向调序模型、逆前向调序模型 后向调序算法、逆后向调序模型

句型分类算法 SVM的优势,分类准确,几乎不受标点的影响 (我们知道标点是句型关键性的特征) 实验: 语料:三类句型分别问1000句,80%作为训练,20%作为测试 实验结果:

前向调序模型 适用句型:特殊疑问句 调序对象:特殊疑问短语 调序的两个关键问题: 特殊疑问短语的识别 正确的调序位置

调序的两个关键问题 特殊疑问短语的识别 我们在语法上给特殊疑问短语一个定义:包含特殊疑问词的完整的语法成分。 特殊疑问词是利用互信息得到的一个闭集:什么、哪、多(多长、多久)、怎、谁、几、为什么、何 在汉语中,从语法层面看来,特殊疑问短语可能会是任何一类语法成分,从语法层无法识别 我们采用chunking的浅层句法分析来识别特殊疑问短语

调序的两个关键问题 正确的调序位置 分析翻译实例我们发现,调序的位置分为3类:句首、子句首、特定模板短语(从对齐语料习得)后 分别举例: 这个 味道 怎么样 ?=》怎么样 这个 味道 ? 请问 , 去 海滩 怎么 走 ? =》请问 , 怎么 走 去 海滩 ? 你 认为 到 那 要 多长 时间 ?=》你 认为 要 多 长 时间 到 那 ?

逆前向调序模型 适用句型和处理对象与前向模型一样 面向英汉翻译任务 同样面临调序的两个关键问题: 对翻译结果的修正 特殊疑问短语的识别 正确的调序位置

调序的两个关键问题 特殊疑问短语的识别同前向模型 调序的目标位置: 特殊疑问句的结构 调序规则

调序的两个关键问题 特殊疑问句的两种结构 调序规则 作为强调部分出现在句末 作为动词短语的修饰成分出现在动词短语的前面 若SQP为动词短语,则将其调至包含该SQP的子句末尾 若SQP不是动词短语,而且中有动词短语,则保持其位置不变;否则将其调至包含该SQP的子句末尾

后向调序模型 针对句型:所有句型 调序对象:在翻译中最有可能调序的短语=》介词短语、时间地点短语 调序的两个关键问题 介词短语、时间地点短语与动词短语的识别 调序策略

调序的两个关键问题 介词短语、时间地点短语与动词短语的识别 采用chunking浅层句法分析 虚拟动词短语(VVP)的定义:由于识别错误等原因,有时在介词短语、时间地点短语后没有识别出动词短语。为加强该模型的适应性,我们定义自此介词或时间地点短语后到子句的结束为伪动词短语,并赋予其动词短语的功能。 例:请 在 这里 签名 。“签名”被识别为NP,在我们的模型中,它就是VVP

调序的两个关键问题 调序策略:利用最大熵模型决定识别出的介词或时间地点短语是否需调序到紧跟着它们的动词短语后。 调序规则:

逆后向调序模型 面向英汉翻译任务 介词短语、时间地点短语等的识别方法同后向模型 调序方向相反

逆后向调序模型 调序规则

实验设计与结果 baseline: 利用我们实验室实现的基于短语的统计机器翻译系统 利用单调的解码策略

实验设计与结果 语料说明: 表1:汉英翻译相关语料 表2:英汉翻译相关语料 句子数 训练语料 汉语 32,4626 英语 开发集 534 表1:汉英翻译相关语料 表2:英汉翻译相关语料 句子数 训练语料 汉语 32,4626 英语 开发集 534 测试集 504 句子数 训练语料 汉语 31,1438 英语 开发集 325 测试集 498

实验设计与结果 实验结果: 表3:汉英翻译实验结果 表4:英汉翻译实验结果 BLEU(%) BASELINE 37.45 STR 40.18 表3:汉英翻译实验结果 表4:英汉翻译实验结果 BLEU(%) BASELINE 37.45 STR 40.18 BLEU(%) BASELINE 0.5037 STR 0.5105

总结与展望 句型信息对口语翻译的帮助非常大 研究汉语的特点才能更有效地提高机器翻译质量

THANKS!