NAACLHLT Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang

Slides:



Advertisements
Similar presentations
目 录目 录  公司介绍  产品介绍  使用说明 中国资讯行 中国资讯行成立于 1995 年,主要从事中国商业信息中文数据的收集、整合、 传播和服务,致力于建立中文的中国在线商业数据库资讯一站式服务平台。 中国资讯行有限公司每天通过对全国 1200 余家媒体、国外百余家媒体的适 时监测,并和国内.
Advertisements

深圳市沙井中学:刘沅南制作. 1 、出生的小宝宝 ( 新生命)是怎么来的呢? 新生命都是从一个细胞 —— 受精卵发育而 来的。 2 、 受精卵又是如何产生的呢? 是精子和卵细胞相互结合产生的。
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
中国电子学会 SMT 专业技术资格认证委员会. 彭志聪 广东省电子学会 副理事长兼秘书长 高级工程师 成果曾获 国家科技进步三等奖,广东省科技进步二等奖 国家科委优秀科技成果二等奖,广东省科委一等奖 承担并主持经国家科协批准,中国电子学会在全国开展 的电子表面组装( SMT )专业技术资格社会化认证体系建.
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
少年儿童营养配餐与饮食安全 科学饮食为孩子的未来积攒本钱.
授课人:王苗.
对应用型本科建设中若干问题的认识 张家钰
“初中历史课堂有效讨论” 课例展示 执教者 95中江涛.
二、信用工具和外汇.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
最新消息插播! 意見反應: 我是貴校學生的家長,請問貴校該給工讀生的薪水何時才肯發呢?現在已經是十一月中了,九月十月的薪水還沒入帳我們不知道是卡在哪個環節,但貴校是否知道有多少同學需要這筆錢去過生活、繳納房租? …………………………………………………….? 請各位報帳同仁、專兼任助理們務必養成平時定期清帳的習慣,不要等到年終或結案前才開始緊張。
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
肖 冰 深圳市达晨创业投资有限公司 副总裁 深圳市达晨财信创业投资管理公司 总裁
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
机器翻译原理与方法 第五讲 基于句法的统计机器翻译方法
公务卡使用说明.
香港迪士尼 51317林佳臻.
99年成語200題庫(21-40).
财务知识培训 杨 秀 玲 2014年10月.
岡山區103年第12次 登革熱聯繫會報會議 岡山區公所 103年12月30日 1.
第一章会计技能的内容 1.1会计技能的重要性.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
生物科 陳鳳娟老師.
请带上耳机.
CNKI走进上海农林职业技术学院 同方知网(北京)技术有限公司 上海分公司 培训讲师: 卢娜
教學意見調查 線上填答說明 (104學年度第2學期).
开辟新的治疗途径的控制淡水鱼类 细菌性出血病的革命性的药物
香港推廣教育的生態發展 香港中文大學 專業進修學院院長 李仕權博士. 香港中文大學 專業進修學院 School of Continuing and Professional Studies The Chinese University of Hong Kong.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
综合教程 2 Unit 1 Lifelong Learning
班级小插曲.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
Hadoop I/O By ShiChaojie.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
港口股份有限公司东源分公司 降本增效 部门:机械队流机二班 发言人:程广州.
中国科学院计算技术研究所CWMT 2008评测技术报告
中科院自动化所评测技术报告(SYSTEM II)
What have we learned?.
VISP+MS 国际高校访问学生 及统计理学硕士项目
基于规则抽取的 时间表达式识别.
第一部 上班族賺錢密碼.
SaaS流程模型的自动演化 Research Group for Cooperative Information Systems
Machine Translation for Conversational Texts
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
學生事務處 學生諮詢及簡介會 年2月1日.
香港中文大學宗教系 Department of Religion The Chinese University of Hong Kong
感受历史,肩负未来.
清華大學 青少年科技文化夏令營 迎生聚會 2006年7月7日 香港教育工作者聯會會所.
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
厦门大学第四届机器翻译研讨会评测系统描述
2019/4/26 关注NE官方微信,获取更多服务.
Deep Learning Research & Application Center
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
大 綱 科技管理學院介紹 經濟系V.S. 其它商管學系 系所發展三部曲與特色 現況與教學師資分配 學生課程與學習資源 系友畢業後概況
新豐鄉.
基于列存储的RDF数据管理 朱敏
Adj + Noun映射到知识库中的classes
工程寫作與報告 開放大陸生來台 指導老師:王順生 老師 范書豪.
Department of Philosophy The Chinese University of Hong Kong
Yuenan Hou, Zheng Ma, Chunxiao Liu, and Chen Change Loy
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
英文科課程地圖.
Presentation transcript:

Learning Bilingual Linguistic Reordering Model for Statistical Machine Translation NAACLHLT09 2009 Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang Department of Computer Science National Tsing Hua University Presented by Fu Chunlin 10/22/2009 计算所讨论班,北京

提出一种包含更多语言学特征的重排序模型 用于基于BTG的统计机器翻译 工作: 实验:汉-英 从对齐语料抽取的词性和词类信息,以及特殊的长度信息 利用上述特征训练一个最大熵重排序模型。 实验:汉-英

先前的相关工作1 扁平模型。重排序的概率由一个固定的概率值决定。 扭曲模型。由相邻目标短语的源短语的相对位置决定。 缺点:与上下文信息无关,准确率低 扭曲模型。由相邻目标短语的源短语的相对位置决定。 缺点:缺乏上下文的信息,对于长距离的调序更差。

先前的相关工作2 MEBTG。最大熵括号转录语法。将重排序看作是一个分类问题来预测不同情况下保序和逆序的可能性。利用首词或尾词作为重排序的特征 缺点1: 例如:“the details of / the plan”,两个块的首词均为the,不足以正确指导调序。简单的解决办法:利用块的首尾边界同时作为特征,但仍然局限于只利用词汇特征,存在数据稀疏的问题。

先前的相关工作2 缺点2: 块A1的尾词特征,“计划/plan”可以被另一个类似的名词替换(如:plans,events,meetings),训练数据中可能无法包含所有类似的情况。

其他相关工作 除了利用首尾词的词汇化特征,还利用了源短语端句法特征。 LABTG。在源语言端加入了句法标记和词性特征。 注:均利用了句法标注,当源短语为非句法短语时,要么采用一个恒定的概率,或者利用词性特征。 linguistically annotated BTG (LABTG)

作者提出的方法 主要需要解决的问题:数据稀疏和如何抽取更具有代表性的特征。 在模型中利用了词性和词类这种语言学信息 在模型中利用了双边界特征,并考虑了短语的长度特征,而不仅仅是首词或尾词特征。 模型基于BTG-SMT, 例如求块A的概率

利用词性与词类信息—源语言端 源语言端,即在汉语句子中加入词性标注 e.g. Nc 地名 Nd 时间 VA 不及物动词 VC 及物动词 。。。

利用词性与词类信息—目标语言端 目标语言端,如果同样加入POS特征,会造成另一个数据稀疏的问题:一个源语言可能对应多个不同词性序列的目标语言 因此,利用mkcls工具包对目标语言进行词聚类。 {"T1L=14", "T1R=18", "T2L=14", "T2R=50"} 因此,基本将前文提到“the details of / the plan”泛化为“the ... NOUN” and “the ... of”.的能力

词性和词类标注可能会遇到的问题 在特征集中,重排序实例(a)和(b)在源语言端有相同的特征: 因此,引入了长度特征来缓解这个问题

引入长度特征 如R class: {"R1=Na", "R2=Caa", "R3=Na"} 源语言端和目标语言端均加入这个特征

最后抽取的重排序特征实例 上面这个实例可得出: {“S.B1=Nes”, “S.B2=Nv”, “S.B3=DE”, “S.B4=Na”, “T.B1=14”, “T.B2=18”, “T.B3=14”, "T.B4=50"}

实验-训练 短语表和重排序模型 Hong Kong Parallel Text (LDC2004T08) and Xinhua News Agency (LDC2007T09) Size:2.2M ,句子长度不超过60. 分词与词性标注工具:CKIP Chinese word segmentation system 语言模型 Xinhua news from English Gigaword Third Edition (LDC2007T07) 开发集 NIST MT-08 test set, 句子长度不超过20 测试集 NIST MT-06 test set

实验-结果1

实验-结果2 对比在MEBTG中加入词类特征的结果

实验-结果3 对比在BTG系统中增加边界特征和长度特征的结果

实验-结果4 对比词类特征(WC)和长度特征的影响

总结 提出了基于双语语言学的重排序模型来改进当前的BTG-SMT。 主要解决了两个问题: 解决了词汇化模型中的数据稀疏问题 提出了一种更具有代表性的特征方法。

Thanks!