机器翻译前沿动态张家俊中国科学院自动化研究所

机器翻译前沿动态张家俊中国科学院自动化研究所 www.nlpr.ia.ac.cn/cip/jjzhang.htm

机器翻译定义：机器翻译是利用计算机将一种自然语言（源语言）自动转换为另一种自然语言（目标语言）的技术。

数据驱动的机器翻译四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对双语对照数据
源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对

双语平行句对他喜欢北京。他来自日本。 He likes Beijing . He is from Japan .
他在东京居住。日本临近中国。 He lives in Tokyo . Japan is near China . 日本的首都是东京。中国是亚洲国家。 The capital of Japan is Tokyo . China is an Asian Country . 北京是中国的首都。北京位于中国的北方。 Beijing is the capital of China . Beijing is located in the North of China . … … … …

源语言到目标语言的映射函数学习映射函数 𝒇 𝑺→𝑻 𝒇 𝑺→𝑻 𝑆 1 𝑇 1 𝑆 2 𝑇 2 ⋮ ⋮ 𝑆 𝑖 𝑇 𝑖 ⋮ ⋮ 𝑆 𝑁
𝑇 𝑁 𝒇 𝑺→𝑻 𝑆 𝑁𝑒𝑤 𝑇 𝑁𝑒𝑤 5

源语言到目标语言的映射函数映射函数 𝒇 𝑺→𝑻 我在长沙做了报告 I gave a talk in Changsha
Chinese: 我在长沙做了报告映射函数 𝒇 𝑺→𝑻 English: I gave a talk in Changsha

映射函数𝒇 𝑺→𝑻 的发展符号映射编码解码 Transformer ConvNMT NMT 2017.6 2017.5 2014
Chinese: 我在长沙做了报告 Phrase Seg: 在长沙做了报告 Phrase Trans: I in Changsha gave a talk Phrase Reorder: English: gave a talk in Changsha 符号映射 Transformer ConvNMT NMT 2017.6 2017.5 2014 Phrase-based SMT 我在长沙做了报告 I gave a talk in Changsha 向量映射双向编码注意机制解码网络词汇概率编码解码 2003 IBM Model 1990

映射函数𝒇 𝑺→𝑻 的发展 𝑜𝑢𝑡𝑝𝑢𝑡: 𝑦 1 𝑦 2 𝑦 3 𝑦 4 𝑜𝑢𝑡𝑝𝑢𝑡: 𝑦 1 𝑦 2 𝑦 3 𝑦 4 𝒚 1 𝒚 2
𝒚 3 𝒚 1 𝒚 2 𝒚 3 𝑐𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛 𝑛𝑜𝑛−𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑦 𝑠𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑛𝑜𝑛−𝑙𝑖𝑛𝑒𝑎𝑟𝑖𝑡𝑦 𝑐𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛 𝑠𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝒙 1 𝒙 2 𝒙 3 𝒙 1 𝒙 2 𝒙 3 𝑖𝑛𝑝𝑢𝑡: 𝑥 1 𝑥 2 𝑥 3 𝑖𝑛𝑝𝑢𝑡: 𝑥 1 𝑥 2 𝑥 3 𝑎 𝐶𝑜𝑛𝑣𝑜𝑙𝑢𝑡𝑖𝑜𝑛𝑎𝑙 𝑁𝑀𝑇 𝑏 𝑆𝑒𝑙𝑓−𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑁𝑀𝑇 8

映射函数𝒇 𝑺→𝑻 的发展 LSTM+Transformer Transformer ConvNMT NMT 2018 2017.6
2017.5 2014 Phrase-based SMT 2003 IBM Model 1990

近两年的研究热点 𝑎 2017年𝐴𝐶𝐿系列文章 𝑏 2018年𝐴𝐶𝐿系列文章

从关键词看热点与趋势 2017 2018 Shared 2017独有 2018独有 Translation Machine Neural
Domain Data Adaptation Decoding Learning Monolingual Source Attention Models Syntax Context System Unsupervised Multi Model Evaluation Document Non-autoregressive Decoder Search Language Zero

语音翻译四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对双语对照数据
源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 12

语音翻译源语言文本语音识别机器翻译源语言语音输入目标语言文本 13

端到端语音翻译 Ron J. Weiss, Jan Chorowski1, Navdeep Jaitly, Yonghui Wu and Zhifeng Chen Sequence-to-Sequence Models Can Directly Translate Foreign Speech. In Proceedings of INTERSPEECH 2017. 14

针对语音识别的加噪训练 Yong Cheng, Zhaopeng Tu, Fandong Meng, Junjie Zhai, and Yang Liu Towards Robust Neural Machine Translation. In Proceedings of ACL 2018. 15

缺乏上下文篇章翻译四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对双语对照数据

缺乏上下文篇章翻译 Jiacheng Zhang, Huanbo Luan, Maosong Sun, Feifei Zhai, Jingfang Xu, Min Zhang and Yang Liu Improving the Transformer Translation Model with Document-Level Context. In Proceedings of EMNLP 2018. 17

自左往右串行解码并行解码四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对
双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 18

自左往右串行解码并行解码 Jiatao Gu, James Bradbury, Caiming Xiong, Victor O.K. Li and Richard Socher Non-autoregressive Neural Machine Translation. In Proceedings of ICLR 2018. 19

缺乏领域相关数据领域适应四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对
双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 20

领域适应 Chenhui Chu and Rui Wang A Survey of Domain Adaptation for Neural Machine Translation. In Proceedings of COLING 2018. 21

领域适应领域外模型数据融合 Chenhui Chu and Rui Wang A Survey of Domain Adaptation for Neural Machine Translation. In Proceedings of COLING 2018. 22

缺乏数据无监督机器翻译四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对双语对照数据

无监督机器翻译下半场刚开始，法布雷加斯头球前顶，桑切斯突入禁区右侧18码处挑射，皮球打中横梁弹回。这是巴萨本赛季第31次打中门框。巴萨第53分钟锁定胜局，蒂亚戈传球，特略面对洛文斯突破至小禁区左侧边缘低射远角入网，3- 0。这是他本赛季第8粒入球。第 61分钟，罗德里右路传中，阿尔维斯解围不及时，蒙塔内斯禁区边缘内抢断后劲射被巴尔德斯没收。 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer and Marc’Aurelio Ranzato Phrase-based and Neural Unsupervised Machine Translation. In Proceedings of EMNLP Best Paper Award 24

无监督机器翻译 𝑫𝒊𝒄𝒕 𝑿,𝒀 二狗 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 two
下半场刚开始，法布雷加斯头球前顶，桑切斯突入禁区右侧18码处挑射，皮球打中横梁弹回。这是巴萨本赛季第31次打中门框。巴萨第53分钟锁定胜局，蒂亚戈传球，特略面对洛文斯突破至小禁区左侧边缘低射远角入网，3- 0。这是他本赛季第8粒入球。第 61分钟，罗德里右路传中，阿尔维斯解围不及时，蒙塔内斯禁区边缘内抢断后劲射被巴尔德斯没收。 The Baggies reduced the deficit before half-time through James Morrison after he had got ahead of Phil Jones to steer home a cross from the right. The introduction of Lukaku, on loan from Chelsea, at the start of the second half ultimately proved to be the turning point. The Belgian found the net with a quality low finish from 20 yards before Robin van Persie's 26th league goal of the campaign, from a cross by Valencia, made it 4-2. two 二狗 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 25

无监督机器翻译 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝒇 𝟏 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟏 𝑻→𝑺
𝒇 𝟎 𝑺→𝑻 𝒇 𝟎 𝑻→𝑺 𝑆 1 𝑆 2 ⋮ 𝑆 𝑖 𝑆 𝑁 𝑇 1 𝑇 2 ⋮ 𝑇 𝑗 𝑇 𝑀 𝒇 𝟏 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝑇′ 1 𝑇′ 2 ⋮ 𝑇′ 𝑖 𝑇′ 𝑁 𝑆 1 ∗ 𝑆 2 ∗ ⋮ 𝑆 𝑗 ∗ 𝑆 𝑀 ∗ 𝑆′ 1 𝑆′ 2 ⋮ 𝑆′ 𝑖 𝑆′ 𝑁 𝑇 1 ∗ ⋮ 𝑇 𝑀 ∗ 𝒇 𝟎 𝑻→𝑺 𝒇 𝟎 𝑺→𝑻 𝒇 𝟏 𝑻→𝑺 𝒇 𝟏 𝑺→𝑻 26

研究趋势四个假设（1）文本翻译（2）以句子为输入单元（3）自左往右的译文生成（4）依赖大规模双语句对
双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 ① 更优的语音翻译模型更好的机器同传 27

双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 ②以段落、篇章为输入单元的翻译模型 ③面向篇章的机器翻译译文质量自动评价 28

双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 ④寻找解码效率和译文质量之间的平衡点 29

双语对照数据源语言测试数据机器翻译模型目标语言译文基于数据驱动的模型学习解码器（3）自左往右的译文生成（4）依赖大规模双语句对 ⑤面向结构差异较大语言对的无监督翻译 30

似曾相识的热点 Domain Adaptation
LSTM+Transformer Transformer ConvNMT NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 2003 2004 IBM Model 1990 Ron J. Weiss, Bing Zhao, Matthias Eck, Stephan Vogel Language Model Adaptation for Statistical Machine Translation with structured query models. In Proceedings of COLING 2004.

似曾相识的热点 Document Translation Domain Adaptation
LSTM+Transformer Transformer ConvNMT Document Translation NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 2011 2003 2004 IBM Model 1990 Zhengxian Gong, Min Zhang and Guodong Zhou Cache-based Document-level Statistical Machine Translation. In Proceedings of EMNLP 2011.

似曾相识的热点以史为鉴顶会频现 Unsupervised SMT Document Translation
LSTM+Transformer Unsupervised SMT Transformer ConvNMT Document Translation NMT Domain Adaptation 2018 2017.6 2017.5 2014 Phrase-based SMT 以史为鉴顶会频现 2011 2013 2011 2003 2004 IBM Model Sujith Ravi and Kevin Knight Deciphering Foreign Languages. In Proceedings of ACL 2011. 1990 Jiajun Zhang and Chengqing Zong Learning a Phrase-based Translation Model from Monolingual Data with Application to Domain Adaptation. In Proceedings of ACL 2013.

谢谢 ! Thanks!

机器翻译前沿动态张家俊中国科学院自动化研究所

Similar presentations

Presentation on theme: "机器翻译前沿动态张家俊中国科学院自动化研究所"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

机器翻译前沿动态 张家俊 中国科学院自动化研究所

Similar presentations

Presentation on theme: "机器翻译前沿动态 张家俊 中国科学院自动化研究所"— Presentation transcript:

Similar presentations

About project

反馈

机器翻译前沿动态张家俊中国科学院自动化研究所

Presentation on theme: "机器翻译前沿动态张家俊中国科学院自动化研究所"— Presentation transcript: