第十二届全国机器翻译研讨会 2016年8月,乌鲁木齐 神经机器翻译前沿进展 刘洋
机器翻译 目标:利用计算机实现自然语言的自动翻译 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon
发展历史 趋势:让机器更“自主”地学习如何翻译 规则 机器翻译 统计 机器翻译 数据驱动 机器翻译 1990 神经 机器翻译 1980 2013
数据驱动的机器翻译 核心问题:如何为翻译过程建立概率模型? 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon
统计机器翻译 隐变量对数线性模型:在隐式语言结构上设计特征 布什 与 沙龙 举行 了 会谈 Bush held a talk with (Och and Ney, 2002) Bush held a talk with Sharon
基于短语的统计机器翻译 短语翻译模型:以隐结构短语为基本翻译单元 布什 与 沙龙 举行 了 会谈 布什 与 沙龙 举行 了 会谈 Bush with Sharon held a talk Bush with Sharon held a talk Bush held a talk with Sharon (Koehn et al., 2003)
统计机器翻译的优缺点 优点 缺点 隐结构可解释性高 利用局部特征和动态规划处理指数级结构空间 线性模型难以处理高维空间中线性不可分的情况 需要人类专家设计隐式结构及相应的翻译过程 需要人类专家设计特征 离散表示带来严重的数据稀疏问题 难以处理长距离依赖
难点:长距离调序 held Bush a President talk Sharon at with Minister Israeli the House Prime White 如何用上述词语拼成合理的译文?
统计机器翻译示例
深度学习带来新思路 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015)
机器翻译方法对比 英国爱丁堡大学在WMT英德评测数据上的BLEU值。NMT 2015年结果来自蒙特利尔大学。来源:Rico Sennrich报告和斯坦福ACL 2016 Tutorial。
神经机器翻译 利用神经网络实现自然语言的映射 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon (Sutskever et al, 2014) Bush held a talk with Sharon
编码器-解码器框架 利用递归神经网络实现源语言的编码和目标语言的解码 布什 与 沙龙 举行 了 会谈 </s> Bush held a talk with Sharon </s> (Sutskever et al., 2014)
递归神经网络的优缺点 优点 缺点 适合处理变长线性序列 理论上能够利用无限长的历史信息 “梯度消失”或“梯度爆炸” (Pascanu et al., 2013)
长短时记忆 通过门阀技术缓解“梯度消失”和“梯度爆炸” (Hochreiter and Schmidhuber, 1997)
神经网络学到了什么? (Sutskever et al., 2014)
编码器-解码器架构的优缺点 优点:利用长短时记忆处理长距离依赖 缺点:任意长度的句子都编码为固定维度的向量 (Sutskever et al., 2014)
基于注意力的神经机器翻译 利用注意力机制动态计算源语言端相关上下文 布什 与 沙龙 举行 了 会谈 </s> Bush held a talk with Sharon </s> (Bahdanau et al., 2015)
注意力 思想:集中关注影响当前词的上下文 (Cheng et al., 2016a)
神经机器翻译中的注意力 源语言词语目标语言词的关联强度 (Bahdanau et al., 2015; Cheng et al., 2016b)
注意力机制提升长句翻译效果 RNNenc: 固定源语言上下文,RNNsearch: 动态源语言上下文 (Bahdanau et al., 2015)
注意力机制的其他应用 注意力机制已成为深度学习的主流技术 “看图说话”:为图片自动生成文本描述 (Xu et al., 2015)
近期研究进展 神经机器翻译在近两年取得飞速发展 受限词汇量 (Luong et al., 2015a ; Jean et al., 2015) 细粒度意义单元 (Chung et al., 2016; Sennrich et al., 2016a) 先验约束 (Tu et al., 2016; Cohn et al., 2016) 记忆机制 (Wang et al., 2016; Tang et al., 2016) 训练准则 (Shen et al., 2016; Ranzato et al., 2016) 单语数据利用 (Cheng et al., 2016c; Sennrich et al., 2016b) 多语言 (Dong et al., 2015; Zoph and Knight, 2016) 多模态 (Duong et al., 2016; Hitschler et al., 2016)
进展1:受限词汇量 受计算复杂度限制,仅能使用有限的词汇量 在后处理阶段单独翻译未登录词 (Luong et al., 2015a; Jean et al., 2015; Li et al., 2016)
进展2:细粒度意义单元 以细粒度意义单元取代词,降低词汇量 字母与词语的混合模型,词语模型解决常用词翻译,字母模型解决生僻词翻译 (Luong and Manning, 2016; Chung et al., 2016; Sennrich et al., 2016a)
进展3:先验约束 利用先验知识约束神经机器翻译 很多 机场 都 被迫 关闭 了 输入 很多 机场 都 被迫 关闭 了 不考虑 覆盖度 Many airports were closed to close 考虑 覆盖度 Many airports were forced to close down 先验:不应重复翻译,也不应漏翻 (Tu et al., 2016; Cohn et al., 2016; Cheng et al., 2016b; Shi et al., 2016)
进展4:记忆机制 利用记忆机制提高神经机器翻译 将“外存”引入神经机器翻译 (Wang et al., 2016; Tang et al., 2016)
进展5:训练准则 提出更好的准则,提高与评价的相关性 训练数据 训练目标 优化 最小风险训练:针对评价指标训练神经网络 (Shen et al., 2016; Rezanto et al., 2016)
进展6:单语数据利用 利用海量的单语语料库提高神经机器翻译 利用自动编码器实现半监督学习 (Cheng et al., 2016c; Sennrich et al., 2016b)
进展7:多语言 利用向量空间贯通多种自然语言 多种语言共享源语言编码器 (Dong et al., 2015; Zoph and Knight, 2016; Firat et al., 2016)
进展8:多模态 利用向量空间贯通文本、语音和图像 不经过语音识别,直接将源语言语音翻译成目标语言文本 (Duong et al., 2016; Hitschler et al., 2016)
神经机器翻译教程和开源工具 教程 开源工具 Neural Machine Translation, ACL 2016 Tutorials Introduction to NMT with GPUs, Kyunghyun Cho 开源工具 GroundHog:加拿大蒙特利尔大学 Blocks:加拿大蒙特利尔大学 TensorFlow:Google EUREKA-MangoNMT:中国科学院自动化研究所
统计机器翻译 Vs 神经机器翻译 统计机器翻译 神经机器翻译 表示 离散 连续 模型 线性 非线性 训练 MERT MLE / MRT 可解释性 高 低 训练复杂度 处理全局调序 句法 门阀、注意力 内存需求
神经机器翻译面临的挑战 如何设计表达能力更强的模型? 如何提高语言学方面的可解释性? 如何降低训练复杂度? 如何与先验知识相结合? 如何实现多模态翻译?
总结 神经机器翻译:通过神经网络直接实现自然语言 的相互映射。 神经机器翻译近年来取得迅速发展,有望取代统 计机器翻译成为新的主流技术。 神经机器翻译在架构、可解释性、训练算法等方 面仍面临挑战,需要进一步深入探索。
谢谢! http://nlp.csai.tsinghua.edu.cn/~ly/
参考文献 Franz Och and Hermann Ney. 2002. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. In Proceedings of ACL. Philipp Koehn, Franz Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proceedings of NAACL. Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS. Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. 2013. On the Difficulty of Training Recurrent Neural Networks. In Proceedings of ICML. Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation.
参考文献 Dzmitry Bahdanau, KyungHyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR. Jianpeng Cheng, Li Dong, and Mirella Lapata. 2016a. Long Short-Term Memory-Networks for Machine Reading. In Proceedings of EMNLP. Yong Cheng, Shiqi Shen, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016b. Agreement-based Joint Training for Bidirectional Attention-based Neural Machine Translation. In Proceedings of IJCAI. Kelvin Xu, Jimmy Lei Ba, Ryan Jiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, and Yoshua Bengio. 2015. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. In Proceedings of ICML. Minh-Thang Luong, Ilya Sutskever, Quoc V. Le, Oriol Vinyals, and Wojciech Zaremba. 2015a. Addressing the Rare Word Problem in Neural Machine Translation. In Proceedings of ACL.
参考文献 Sebastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2015. On Using Very Large Target Vocabulary for Neural Machine Translation. In Proceedings of ACL. Junyoung Chung, Kyunghyun Cho, and Yoshua Bengio. 2016. A Character-level Decoder without Explicit Segmentation for Neural Machine Translation. In Proceedings of ACL. Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016a. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL. Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. 2016. Modeling Coverage for Neural Machine Translation. In Proceedings of ACL. Trevor Cohn, Cong Duy Vu Hoang, Ekaterina Vymolova, Kaisheng Yao, Chris Dyer, and Gholamreza Haffari. 2016. Incorporating Structural Alignment Biases into an Attentional Neural Translation Model. In Proceedings of NAACL.
参考文献 Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu. 2016. Memory-enhanced Decoder for Neural Machine Translation. In Proceedings of EMNLP. Yaohua Tang, Fandong Meng, Zhangdong Lu, Hang Li, and Philip Yu. 2016. Neural Machine Translation with External Phrase Memory. arXiv:1606.01792v1. Shiqi Shen, Yong Cheng, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016. Minimum Risk Training for Neural Machine Translation. In Proceedings of ACL. Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. 2015. Sequence level training with recurrent neural networks. In Proceedings of ICLR. Yong Cheng, Wei Xu, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016c. Semi-Supervised Learning for Neural Machine Translation. In Proceedings of ACL.
参考文献 Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016b. Improving Neural Machine Translation Models with Monolingual Data. In Proceedings of ACL. Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-Task Learning for Multiple Language Translation. In Proceedings of ACL. Barret Zoph and Kevin Knight. 2016. Multi-Source Neural Translation. In Proceedings of NAACL. Long Duong, Antonios Anastasopoulos, David Chiang, Steven Bird, and Trevor Cohn. 2016. An Attentional Model for Speech Translation Without Transcription. In Proceedings of NAACL. Julian Hitschler, Shigehiko Schamoni, and Stefan Riezler. 2016. Multimodal Pivots for Image Caption Translation. In Proceedings of ACL.
参考文献 Xiaoqing Li, Jiajun Zhang and Chengqing Zong. 2016. Towards Zero Unknown Word in Neural Machine Translation. In Proceedings of IJCAI. Minh-Thang Luong and Christopher Manning. 2016. Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models. In Proceedings of ACL. Chen Shi, Shujie Liu, Shuo Ren, Shi Feng, Mu Li, Ming Zhou, Xu Sun, and Houfeng Wang. 2016. Knowledge- Based Semantic Embedding for Machine Translation. In Proceedings of ACL. Orhan Firat, Baskaran Sankaran, Yaser Al-Onaizan, Fatos Vural and Kyunghyun Cho. 2016. Zero-Resource Translation with Multi-Lingual Neural Machine Translation. In Proceedings of EMNLP. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. 2015. Deep Learning. Nature.