机器翻译前沿动态 张家俊 中国科学院自动化研究所

Slides:



Advertisements
Similar presentations
GRAMMAR ---Articles( 冠词 ). Articles( 冠词 ) The Indefinite Article( 不 定冠词): a/an 泛指 The definite article( 定 冠词): the 特指 Exercise 零冠词即不用冠词.
Advertisements

第八讲 蒙医药 中国民族药物学概论 刘 圆 教授 主讲 西南民族大学 青藏高原研究院 民族医药研究院 中国民族药物学概论 西南民族大学 精品资源共享课程.
中国电子学会 SMT 专业技术资格认证委员会. 彭志聪 广东省电子学会 副理事长兼秘书长 高级工程师 成果曾获 国家科技进步三等奖,广东省科技进步二等奖 国家科委优秀科技成果二等奖,广东省科委一等奖 承担并主持经国家科协批准,中国电子学会在全国开展 的电子表面组装( SMT )专业技术资格社会化认证体系建.
班級:四食四甲 學號: 姓名:陳雅欣 日期:101年10月15日
An Introduction to Database Systems
拉伸和收缩包装技术 1. 简 介 2. 主要特点 3. 常见收缩包装设备 4. 常见拉伸包装设备.
中考英语补全对话、 书面表达命题与备考 宝鸡市教育局教研室 任军利
Time Objectives By the end of this chapter, you will be able to
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
姚天顺 自然语言处理实验室 东北大学 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学
咫尺天涯路 第一步往往很难迈出 于是就没有了下一步 于是就没有了路 路尽天绝处 尝试着再走一步 万水千山 只源于最初的那一步.
二、人大附中如何形成自己的学校文化特色 1.以人为本, 创造适合每个学生发展的教育,形成人大附中精神文化的特色。
专题八 书面表达.
[感受经济全球化] 我的手机.
我心目中的一位领导人 ——邓小平.
外语教师的职业发展 韶关学院外语学院 安晓灿.
邹勇,教授,西南财经大学经贸外语学院 刘玥辰,硕士研究生,西南财经大学经贸外语学院
教師晨會經驗分享 小學雙語實驗教育實施現況之研究 計畫主持人:陳金粧校長、馮思義副校長 指導顧問:陳惠邦教授、鄧奮忠主任、呂慧芬組長
收录引证检索技巧及规范 规划战略与信息中心:苏郁洁
9/9/ /9/2017 让城市静下来 CHANGSHA ——1216班毛迪 “对一座城市的梦想,总是夹杂着某种复杂的感情。分明是喜欢一座城市,心底里却时不时隐藏着怨气;有点想离去,心头却总郁积着暖暖的留恋。” 9/9/2017.
天方杂谈集 (三) 《特别文摘》每期都有发现、发生、发噱栏目,摘其部分内容分集制作成幻灯片,请大家共享。
普特英语网-北外PASS留学基地2012年秋系列英语讲座:
R.
班级小插曲.
全球化语境下的大学英语教学的三点思考 上海交通大学外国语学院 俞理明.
汉语作为第二语言教学 讲授:魏红 博士/教授.
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
A Lesson In a Lab Introduction Vocabulary and Speaking.
Visualizing and Understanding Neural Machine Translation
PRIMT: A Pick-Revise Framework for Interactive Machine Translation
Unit 1What’s he like? read and write. Unit 1What’s he like? read and write.
Introduction to incoPat 4.0
Applications of Digital Signal Processing
统计机器翻译简介 刘群
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
潘思潔 台灣/美國 國內華語:國立師大華語 教學研究所師 資班結業 海外華語:僑委會華文教 師研習會結業 通過教育部海內外華語教
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
北京- 中国 Beijing - CHINA.
Time Objectives By the end of this chapter, you will be able to
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
基于自适应同步的网络结构识别 陆君安 School of Mathematics and Statistics, Wuhan University (复杂网络论坛,北京,April.27-29th,2011)
The role of leverage in cross-border mergers and acquisitions
黎建辉 INF方面阶段性总结.
Time Objectives By the end of this chapter, you will be able to
Formal Pivot to both Language and Intelligence in Science
中科院自动化所评测技术报告(SYSTEM II)
ABAP程式設計 課程簡介 靜宜大學資管系 楊子青 2011年9月13日.
基于深度学习模型的高效语音识别 推理结构及搜索算法研究 (解码器研究方向) Inference Architecture & Search Optimization for Deep Learning based ASR 姓名:陈哲怀 导师:俞 凯.
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
Answering aggregation question over knowledge base
Mendengar Percakapan (1) Pertemuan 5
Ⅲ. rewarding communicate access embarrassing positive commitment
厦门大学第四届机器翻译研讨会评测系统描述
心得分享-王政雄 血汗工廠是許多落後國家長期以來一直存 在的問題,尤其是僱用童工的問題,很難想 像一群比我們年紀還小的小孩每天必須在險 惡的環境下工作,還得面對老闆的壓榨,雖 然薪資很低,但為了生活不得不接受,當地 政府也為了自身利益而忽略了人民的權益, 雖然透過媒體的報導之後,因社會的與論壓 力而改善,但其餘沒被紕漏的仍然存在。
Liang Zhang, Jianmin Wang
词语超市: jì计算 计划 妙计 设计suàn算术 算账 心算 口算 mào冒犯 冒险 冒失 假冒 饱览lǎn 博览 游览 浏览 会馆guǎn 展览馆 jĭn紧张 紧急 赶紧 加紧 怦然心跳pēng.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Introduction of this course
主 宾 表 定 状 补 不定式 √ 动名词 分 词.
An Quick Introduction to R and its Application for Bioinformatics
My Country 我 的 国 家.
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
AI-ECON Research Center Department of Economics National Chengchi University.
高级大数据人才培养丛书之一,大数据挖掘技术与应用
Non-Projective Parsing for Statistical Machine Translation
校本课程开发: 从规范流程到关注价值 江苏省锡山高级中学.
1993年….
Hybrid fractal zerotree wavelet image coding
Some discussions on Entity Identification
Presentation transcript:

机器翻译前沿动态 张家俊 中国科学院自动化研究所 www.nlpr.ia.ac.cn/cip/jjzhang.htm jjzhang@nlpr.ia.ac.cn

机器翻译 定义:机器翻译是利用计算机将一种自然语言(源语言)自动转换为另一种自然语言(目标语言)的技术。

数据驱动的机器翻译 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对

双语平行句对 他 喜欢 北京 。 他 来自 日本 。 He likes Beijing . He is from Japan . 他 在 东京 居住 。 日本 临近 中国 。 He lives in Tokyo . Japan is near China . 日本 的 首都 是 东京 。 中国 是 亚洲 国家 。 The capital of Japan is Tokyo . China is an Asian Country . 北京 是 中国 的 首都 。 北京 位于 中国 的 北方 。 Beijing is the capital of China . Beijing is located in the North of China . … … … …

源语言到目标语言的映射函数 学习映射函数 𝒇 𝑺→𝑻 𝒇 𝑺→𝑻 𝑆 1 𝑇 1 𝑆 2 𝑇 2 ⋮ ⋮ 𝑆 𝑖 𝑇 𝑖 ⋮ ⋮ 𝑆 𝑁 𝑇 𝑁 𝒇 𝑺→𝑻 𝑆 𝑁𝑒𝑤 𝑇 𝑁𝑒𝑤 5

源语言到目标语言的映射函数 映射函数 𝒇 𝑺→𝑻 我 在 长沙 做了 报告 I gave a talk in Changsha Chinese: 我 在 长沙 做了 报告 映射函数 𝒇 𝑺→𝑻 English: I gave a talk in Changsha

映射函数𝒇 𝑺→𝑻 的发展 符号映射 编码解码 Transformer ConvNMT NMT 2017.6 2017.5 2014 Chinese: 我 在 长沙 做了 报告 Phrase Seg: 在 长沙 做了 报告 Phrase Trans: I in Changsha gave a talk Phrase Reorder: English: gave a talk in Changsha 符号映射 Transformer ConvNMT NMT 2017.6 2017.5 2014 Phrase-based SMT 我 在 长沙 做了 报告 I gave a talk in Changsha 向量映射 双向编码 注意机制 解码网络 词汇概率 编码解码 2003 IBM Model 1990

映射函数𝒇 𝑺→𝑻 的发展 𝑜𝑢𝑡𝑝𝑢𝑡: 𝑦 1 𝑦 2 𝑦 3 𝑦 4 𝑜𝑢𝑡𝑝𝑢𝑡: 𝑦 1 𝑦 2 𝑦 3 𝑦 4 𝒚 1 𝒚 2 𝒚 3 𝒚 1 𝒚 2 𝒚 3 𝑐𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛 𝑛𝑜𝑛−𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑦 𝑠𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑛𝑜𝑛−𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑦 𝑐𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛 𝑠𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝒙 1 𝒙 2 𝒙 3 𝒙 1 𝒙 2 𝒙 3 𝑖𝑛𝑝𝑢𝑡: 𝑥 1 𝑥 2 𝑥 3 𝑖𝑛𝑝𝑢𝑡: 𝑥 1 𝑥 2 𝑥 3 𝑎 𝐶𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛𝑎𝑙 𝑁𝑀𝑇 𝑏 𝑆𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑁𝑀𝑇 8

映射函数𝒇 𝑺→𝑻 的发展 LSTM+Transformer Transformer ConvNMT NMT 2018 2017.6 2017.5 2014 Phrase-based SMT 2003 IBM Model 1990

近两年的研究热点 𝑎 2017年𝐴𝐶𝐿系列文章 𝑏 2018年𝐴𝐶𝐿系列文章

从关键词看热点与趋势 2017 2018 Shared 2017独有 2018独有 Translation Machine Neural Domain Data Adaptation Decoding Learning Monolingual Source Attention Models Syntax Context System Unsupervised Multi Model Evaluation Document Non-autoregressive Decoder Search Language Zero

语音翻译 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 12

语音翻译 源语言文本 语音识别 机器翻译 源语言语音输入 目标语言文本 13

端到端语音翻译 Ron J. Weiss, Jan Chorowski1, Navdeep Jaitly, Yonghui Wu and Zhifeng Chen. 2017. Sequence-to-Sequence Models Can Directly Translate Foreign Speech. In Proceedings of INTERSPEECH 2017. 14

针对语音识别的加噪训练 Yong Cheng, Zhaopeng Tu, Fandong Meng, Junjie Zhai, and Yang Liu. 2018. Towards Robust Neural Machine Translation. In Proceedings of ACL 2018. 15

缺乏上下文篇章翻译 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 16

缺乏上下文篇章翻译 Jiacheng Zhang, Huanbo Luan, Maosong Sun, Feifei Zhai, Jingfang Xu, Min Zhang and Yang Liu. 2018. Improving the Transformer Translation Model with Document-Level Context. In Proceedings of EMNLP 2018. 17

自左往右串行解码并行解码 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 18

自左往右串行解码并行解码 Jiatao Gu, James Bradbury, Caiming Xiong, Victor O.K. Li and Richard Socher. 2018. Non-autoregressive Neural Machine Translation. In Proceedings of ICLR 2018. 19

缺乏领域相关数据领域适应 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 20

领域适应 Chenhui Chu and Rui Wang. 2018. A Survey of Domain Adaptation for Neural Machine Translation. In Proceedings of COLING 2018. 21

领域适应 领域外模型 数据融合 Chenhui Chu and Rui Wang. 2018. A Survey of Domain Adaptation for Neural Machine Translation. In Proceedings of COLING 2018. 22

缺乏数据无监督机器翻译 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 23

无监督机器翻译 下半场刚开始,法布雷加斯头球 前顶,桑切斯突入禁区右侧18码 处挑射,皮球打中横梁弹回。这 是巴萨本赛季第31次打中门框。 巴萨第53分钟锁定胜局,蒂亚戈 传球,特略面对洛文斯突破至小 禁区左侧边缘低射远角入网,3- 0。这是他本赛季第8粒入球。第 61分钟,罗德里右路传中,阿尔 维斯解围不及时,蒙塔内斯禁区 边缘内抢断后劲射被巴尔德斯没 收。 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer and Marc’Aurelio Ranzato. 2018. Phrase-based and Neural Unsupervised Machine Translation. In Proceedings of EMNLP 2018. Best Paper Award 24

无监督机器翻译 𝑫𝒊𝒄𝒕 𝑿,𝒀 二 狗 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 two 下半场刚开始,法布雷加斯头球 前顶,桑切斯突入禁区右侧18码 处挑射,皮球打中横梁弹回。这 是巴萨本赛季第31次打中门框。 巴萨第53分钟锁定胜局,蒂亚戈 传球,特略面对洛文斯突破至小 禁区左侧边缘低射远角入网,3- 0。这是他本赛季第8粒入球。第 61分钟,罗德里右路传中,阿尔 维斯解围不及时,蒙塔内斯禁区 边缘内抢断后劲射被巴尔德斯没 收。 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. two 二 狗 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 25

无监督机器翻译 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝒇 𝟏 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟏 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝑆 1 𝑆 2 ⋮ 𝑆 𝑖 𝑆 𝑁 𝑇 1 𝑇 2 ⋮ 𝑇 𝑗 𝑇 𝑀 𝒇 𝟏 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝑇′ 1 𝑇′ 2 ⋮ 𝑇′ 𝑖 𝑇′ 𝑁 𝑆 1 ∗ 𝑆 2 ∗ ⋮ 𝑆 𝑗 ∗ 𝑆 𝑀 ∗ 𝑆′ 1 𝑆′ 2 ⋮ 𝑆′ 𝑖 𝑆′ 𝑁 𝑇 1 ∗ ⋮ 𝑇 𝑀 ∗ 𝒇 𝟎 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟏 𝑻→𝑺 𝒇 𝟏 𝑺→𝑻 26

研究趋势 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 ① 更优的语音翻译模型更好的机器同传 27

研究趋势 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 ②以段落、篇章为输入单元的翻译模型 ③面向篇章的机器翻译译文质量自动评价 28

研究趋势 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 ④寻找解码效率和译文质量之间的平衡点 29

研究趋势 四个假设 (1)文本翻译 (2)以句子为输入单元 (3)自左往右的译文生成 (4)依赖大规模双语句对 双语对照数据 源语言测试数据 机器翻译模型 目标语言译文 基于数据驱动的模型学习 解码器 (3)自左往右的译文生成 (4)依赖大规模双语句对 ⑤面向结构差异较大语言对的无监督翻译 30

似曾相识的热点 Domain Adaptation LSTM+Transformer Transformer ConvNMT NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 2003 2004 IBM Model 1990 Ron J. Weiss, Bing Zhao, Matthias Eck, Stephan Vogel. 2004. Language Model Adaptation for Statistical Machine Translation with structured query models. In Proceedings of COLING 2004.

似曾相识的热点 Document Translation Domain Adaptation LSTM+Transformer Transformer ConvNMT Document Translation NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 2011 2003 2004 IBM Model 1990 Zhengxian Gong, Min Zhang and Guodong Zhou. 2011. Cache-based Document-level Statistical Machine Translation. In Proceedings of EMNLP 2011.

似曾相识的热点 以史为鉴顶会频现 Unsupervised SMT Document Translation LSTM+Transformer Unsupervised SMT Transformer ConvNMT Document Translation NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 以史为鉴顶会频现 2011 2013 2011 2003 2004 IBM Model Sujith Ravi and Kevin Knight. 2011. Deciphering Foreign Languages. In Proceedings of ACL 2011. 1990 Jiajun Zhang and Chengqing Zong. 2013. Learning a Phrase-based Translation Model from Monolingual Data with Application to Domain Adaptation. In Proceedings of ACL 2013.

谢 谢 ! Thanks!