张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28.

Slides:



Advertisements
Similar presentations
第五章 导数和微分 §1 导数的概念 一、问题的提出 1. 自由落体运动的瞬时速度问题 如图, 取极限得.
Advertisements

做個有動力的公務人員 ─ 談公 務人員的執行力與應變力 演講人:國立台中高農 陳金進校長. 壹、前言 ㄧ、爾俸爾祿,民脂民膏,公務員的素 質關係國家的形象。 二、寧為幹事不為推事,更不當無所事 事。 三、公務員的尊嚴來自公務的執行力與 應變力。
2010高考科学备考策略 夯实基础 抓纲织网 掌握技巧 提高能力 辽宁省实验中学 徐广宇 2010年9月13日.
新生入学交通学院院情介绍 东南大学交通学院概况 各位专家,外面申报的中心名称是现代城市交通建设协同创新中心, 1.
租赁公司与 商业银行合作模式 ——银租贸易融资合作简介
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
问卷调查的规范与技术 问卷调查的规范与技术.
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
CWMT’08统计机器翻译研讨会自动化所技术报告
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
99年成語200題庫(21-40).
电子信息类专业英语.
第十二章 心理测验的编制 一、确定测验的目的 二、分析测量目标 三、测题的产生 四、测验的标准化 五、测验基本特征的鉴定 六、编写测验指导书.
1. 학교생활.
秘书理论与实务 主持教师:陶今.
第五讲 城市对外交通规划 主要内容提要 ★ 城市铁路交通规划 ★ 城市公路交通规划 ★ 城市航空交通规划 ★ 城市水运交通规划
路军伟 山东大学管理学院 财务分析 ——之导论:为什么要学习财务分析 路军伟 山东大学管理学院
大屯火山是否會再噴發? 組員:王士銘 溫永興 林佩怡 鄭玉潔.
為孩子編織一個支持網  台北市家庭暴力暨性侵害防治中心.
新能源技术.
報告人:古博文 彰師大運動健康研究所副教授 人權教育基金會執行長 100年8月
程序的形式验证 - 简介 中国科学院软件研究所 张文辉 1.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
How Do You Study For A Test ?
平興國中數學週記 作者:孫藝庭 班級:817 指導老師: 阿寶老師.
Hadoop I/O By ShiChaojie.
网络常用常用命令 课件制作人:谢希仁.
Lexicographical order VS canonical order
中国科学院计算技术研究所CWMT 2008评测技术报告
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
基于规则抽取的 时间表达式识别.
整合思维导图的初中英语教学设计 主讲人:卢璐.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
数据说明 郝蕊.
使用矩阵表示 最小生成树算法.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
第3,4次课 一个简单的语法制导翻译器 2.3~2.5.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
UI 软件 设计 页面布局(三).
教專評轉型規劃草案說明 臺中市教專中心秘書 張素女
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
光子能量线性_不同灵敏层厚度 photon,Cell Size 5x5mm
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
牛津9A Unit6 Grammar.
实体描述呈现方法的研究 实验评估 2019/5/1.
Be动词的用法 am is are.
Web安全基础教程
iSIGHT 基本培训 使用 Excel的栅栏问题
了解介词.
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
財務報表分析 6 短期流動性之分析.
本节内容 结构体 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
There be 句型中的be动词 所在知识模块:外研社新标准英语第三模块 My School  学科:初中英语 适用年级:七年级上册.
双语例句搜索 句库+巨酷 Web: Beijing 2008.
树和图 tree and graph 蔡亚星.
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
NAACLHLT Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang
全息照相 ——电科091 储佩佩.
_01自己实现简单的消息处理框架模型 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司
闽教版小学英语第二册 Unit 1 Birthday PartB 福清占泽中心小学 英语组.
基于列存储的RDF数据管理 朱敏
基因信息的传递.
Adj + Noun映射到知识库中的classes
插入排序的正确性证明 以及各种改进方法.
精進優質 計畫方案 104-1良師甲工精進教學計畫 計畫目標 各教學單位辦理教師增能研習,期能對新課程的架構與 精神有更深一層的認知與準備。
学习目标 1、什么是列类型 2、列类型之数值类型.
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所 dakun04@iscas.ac.cn 2008-11-28

引言 翻译从词一级过渡到短语一级 短语的选择问题,短语翻译概率 短语和短语之间的重排序问题 Pharaoh:简单的重排序惩罚 层次型模型:利用“长”短语对“短”短语进行调序 ITG/BTG:组合所有可能的情况

他 说 ,□□□□ he said that □□□□ he said , □□□□ □□□□ , he said . 中文短语 英文短语 中文短语 英文短语 当一个中文短语和一个英文短语组成短语翻译对时,其在句子中和临近短语对的相对位置基本是固定的,即,当“他 说 ,”翻译成“he said that”时,它和后面的短语对永远是顺序的组合关系。 他 说 , he said that 他 说 , he said , 他 说 , , he said .

引言 构造一个模型,可以有效的表示这种组合关系 能够自动从语料中学习 简单并且有效

管理局 将会 向 财政 司 负责 。 The Authority will be accountable to the Financial Secretary . □□□□ 1. 每一层只允许相同的调序 准则存在,即当前层或者为 单调顺序层,或者为单调反 序层 2. 不同的短语组合顺序需要 产生新的层,两层交替存在 3. 每一个句子对产生唯一的 一颗句法树,树的叶子节点 是词对

压平的双语句法树 属性 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现 每一层只允许相同的调序准则存在,即当前层或者为单调顺序层,或者为单调反序层 不同的短语组合顺序需要产生新的层,两层交替存在 每一个句子对产生唯一的一颗句法树,树的叶子节点是词对 中英语料上的统计数据表明:98%的短语仅仅在其中的一层出现过,解码时,这些短语仍然仅在这样的层中出现

树的生成 管理局 将会 向 财政 司 负责 。 The ○ 1 Authority ● 2 will 3 be 4 account… 5 to 6 the 7 Financial 8 Secretary 9 . 10 A B C D E F G

短语属性抽取 短语属性抽取

解码 自底向上的动态解码 短语对定义 组合关系 类别A:训练语料中出现过的短语对,带有“层次”属性 类别B:训练语料中未出现的短语对,新组合的短语对 组合关系 A A:根据A的“层次”属性决定,优先组合相同的“层次”属性,不相同时,生成新的层后组合 A B 或者 B A:根据A的“层次”属性决定 B B:顺序和反序都要考虑

实验 NIST 中英评测(训练语料100万句) C-E Dev (MT06) Test (MT08) BLEU NIST Pharaohdl=0 0.1915 6.7974 0.1490 5.9296 Pharaohdl=4 0.2007 6.8480 0.1550 5.9237 FBPT 0.1950 7.1094 0.1659 6.4732 Hiero* 0.2172 6.9973 0.1815 6.2417

和层次型短语比较 层次型短语 <X1> 之一 ||| one of <X1> <X1> 的 <X2> ||| the <X2> of <X1> 压平的句法树方法 之一/one of 反序属性 例:□□之一/one of □□

利用压平的双语句法树进行短语重排序 在翻译的过程中,某些词或者短语是不需要和周围的词进行顺序交换的,这种方法利用短语在句法树中的位置属性,减少这部分调序操作 自动得到句法树,以及短语的所处层属性,解码的时候,需要遵循这一属性 具有处理非连续短语的能力 实验结果,相对Pharaoh (dl=4) 7%的提高,低于层次型短语方法

谢 谢!