第十二届全国机器翻译研讨会 2016年8月,乌鲁木齐 神经机器翻译前沿进展 刘洋.

Slides:



Advertisements
Similar presentations
FREE-TYPE POEM GENERATION QIXIN WANG, TIANYI LUO, DONG WANG, CHAO XING AAAI & IJCAI 2016.
Advertisements

《普通話自學速成-相輔相成讀打學習法》 是利用資訊科技, 將以上各項基本功相輔相成學習, 就能獲得高質和高效的成果。
2015年6月论文头脑风暴 大连理工大学 郭君
第三章 秘书工作的起源与沿革.
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
粒子物理卓越创新中心优秀青年骨干 选拔报告
Unsupervised feature learning: autoencoders
每日一拼 yuèliàng xiang yi ge hai xiu de shao nv yi hui er duo jin yun jian yi hui er you liao kai mian sha lu chu jiao rong zheng ge shi jie dou bei yue.
疲倦寂寞多感喟 卻無法得著安慰 1.煩忙人生的時光中 微聲盼望 Fan mang ren shang de shi guang zhong
台灣傳統節日- 七夕情人節 作者:顏敏如.
第3章第2節 國共戰爭.
数学建模实践 与学生科研素质培养 报告人:王文娟.
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
收录引证检索技巧及规范 规划战略与信息中心:苏郁洁
dtnl 拼音王国 欢迎来到 大家好, 恭喜你们成为小学生。 我是你们的好朋友朵朵, 我们一起去拼音王国吧,
L.
R.
最知心的朋友 My Best Friend 其它敬拜赞美诗歌 27首.
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
聚會即將開始…….. 為讓您有個舒服的聚會 邀請您~~~
同路人 Tong lu ren 敬拜赞美詩歌 45首.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
虚拟机实时迁移技术 (Live Migration)
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
深層學習 暑期訓練 (2017).
Visualizing and Understanding Neural Machine Translation
中科院“百人计划”终期评估汇报 卢 克 清 中科院西安光学精密机械研究所.
统计机器翻译简介 刘群
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
Lexington Chinese School
机器翻译前沿动态 张家俊 中国科学院自动化研究所
당신을 향한 노래.
主永活在我心 zhu yong huo zai wo xin
基本框架 输出: 情感分类 句子表示 向量化 输入:
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
空谷的回音.
宣教的中国 xuan jiao de zhong guo
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
如鹰展翅上腾 Soar Like an Eagle
我也会感到疲惫 偶尔也会觉得累 There are times when I am down
同 路 人 敬拜赞美詩歌 45首.
当你找到我 Dang Ni Zhao Dao Wo
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
基于自适应同步的网络结构识别 陆君安 School of Mathematics and Statistics, Wuhan University (复杂网络论坛,北京,April.27-29th,2011)
Sun Above the Clouds & Gift of Knowing You.
中科院自动化所评测技术报告(SYSTEM II)
Introduction to AI and ML
我的心要称颂耶和华 因他的慈爱永远长存 Oh my heart sing praises to the Lord
高职申请 申 请 人:孟增 竞聘岗位:副教授 研究方向:结构优化设计及可靠性分析 设岗学科:工程力学 土木与水利工程学院
最知心的朋友.
Flexible and Creative Chinese Poetry Generation Using Neural Memory
有一夜梦中醒来 我的神对我说 I woke up one night God said to me
Long short term memory 郭琦鹏
一个RDF数据自然语言生成器的设计与实现
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
Answering aggregation question over knowledge base
模式识别与智能系统研究中心介绍 2017年8月.
Advanced word vector representations
暑期活动见闻 程龚.
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
厦门大学第四届机器翻译研讨会评测系统描述
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
李宏毅專題 Track A, B, C 的時間、地點開學前通知
CCF计算机视觉专委会走进高校第29期 序列数据深度学习及其思考 浙江大学计算机学院人工智能研究所 吴飞
1993年….
汉语拼音总复习.
Some discussions on Entity Identification
Presentation transcript:

第十二届全国机器翻译研讨会 2016年8月,乌鲁木齐 神经机器翻译前沿进展 刘洋

机器翻译 目标:利用计算机实现自然语言的自动翻译 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon

发展历史 趋势:让机器更“自主”地学习如何翻译 规则 机器翻译 统计 机器翻译 数据驱动 机器翻译 1990 神经 机器翻译 1980 2013

数据驱动的机器翻译 核心问题:如何为翻译过程建立概率模型? 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon

统计机器翻译 隐变量对数线性模型:在隐式语言结构上设计特征 布什 与 沙龙 举行 了 会谈 Bush held a talk with (Och and Ney, 2002) Bush held a talk with Sharon

基于短语的统计机器翻译 短语翻译模型:以隐结构短语为基本翻译单元 布什 与 沙龙 举行 了 会谈 布什 与 沙龙 举行 了 会谈 Bush with Sharon held a talk Bush with Sharon held a talk Bush held a talk with Sharon (Koehn et al., 2003)

统计机器翻译的优缺点 优点 缺点 隐结构可解释性高 利用局部特征和动态规划处理指数级结构空间 线性模型难以处理高维空间中线性不可分的情况 需要人类专家设计隐式结构及相应的翻译过程 需要人类专家设计特征 离散表示带来严重的数据稀疏问题 难以处理长距离依赖

难点:长距离调序 held Bush a President talk Sharon at with Minister Israeli the House Prime White 如何用上述词语拼成合理的译文?

统计机器翻译示例

深度学习带来新思路 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015)

机器翻译方法对比 英国爱丁堡大学在WMT英德评测数据上的BLEU值。NMT 2015年结果来自蒙特利尔大学。来源:Rico Sennrich报告和斯坦福ACL 2016 Tutorial。

神经机器翻译 利用神经网络实现自然语言的映射 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon (Sutskever et al, 2014) Bush held a talk with Sharon

编码器-解码器框架 利用递归神经网络实现源语言的编码和目标语言的解码 布什 与 沙龙 举行 了 会谈 </s> Bush held a talk with Sharon </s> (Sutskever et al., 2014)

递归神经网络的优缺点 优点 缺点 适合处理变长线性序列 理论上能够利用无限长的历史信息 “梯度消失”或“梯度爆炸” (Pascanu et al., 2013)

长短时记忆 通过门阀技术缓解“梯度消失”和“梯度爆炸” (Hochreiter and Schmidhuber, 1997)

神经网络学到了什么? (Sutskever et al., 2014)

编码器-解码器架构的优缺点 优点:利用长短时记忆处理长距离依赖 缺点:任意长度的句子都编码为固定维度的向量 (Sutskever et al., 2014)

基于注意力的神经机器翻译 利用注意力机制动态计算源语言端相关上下文 布什 与 沙龙 举行 了 会谈 </s> Bush held a talk with Sharon </s> (Bahdanau et al., 2015)

注意力 思想:集中关注影响当前词的上下文 (Cheng et al., 2016a)

神经机器翻译中的注意力 源语言词语目标语言词的关联强度 (Bahdanau et al., 2015; Cheng et al., 2016b)

注意力机制提升长句翻译效果 RNNenc: 固定源语言上下文,RNNsearch: 动态源语言上下文 (Bahdanau et al., 2015)

注意力机制的其他应用 注意力机制已成为深度学习的主流技术 “看图说话”:为图片自动生成文本描述 (Xu et al., 2015)

近期研究进展 神经机器翻译在近两年取得飞速发展 受限词汇量 (Luong et al., 2015a ; Jean et al., 2015) 细粒度意义单元 (Chung et al., 2016; Sennrich et al., 2016a) 先验约束 (Tu et al., 2016; Cohn et al., 2016) 记忆机制 (Wang et al., 2016; Tang et al., 2016) 训练准则 (Shen et al., 2016; Ranzato et al., 2016) 单语数据利用 (Cheng et al., 2016c; Sennrich et al., 2016b) 多语言 (Dong et al., 2015; Zoph and Knight, 2016) 多模态 (Duong et al., 2016; Hitschler et al., 2016)

进展1:受限词汇量 受计算复杂度限制,仅能使用有限的词汇量 在后处理阶段单独翻译未登录词 (Luong et al., 2015a; Jean et al., 2015; Li et al., 2016)

进展2:细粒度意义单元 以细粒度意义单元取代词,降低词汇量 字母与词语的混合模型,词语模型解决常用词翻译,字母模型解决生僻词翻译 (Luong and Manning, 2016; Chung et al., 2016; Sennrich et al., 2016a)

进展3:先验约束 利用先验知识约束神经机器翻译 很多 机场 都 被迫 关闭 了 输入 很多 机场 都 被迫 关闭 了 不考虑 覆盖度 Many airports were closed to close 考虑 覆盖度 Many airports were forced to close down 先验:不应重复翻译,也不应漏翻 (Tu et al., 2016; Cohn et al., 2016; Cheng et al., 2016b; Shi et al., 2016)

进展4:记忆机制 利用记忆机制提高神经机器翻译 将“外存”引入神经机器翻译 (Wang et al., 2016; Tang et al., 2016)

进展5:训练准则 提出更好的准则,提高与评价的相关性 训练数据 训练目标 优化 最小风险训练:针对评价指标训练神经网络 (Shen et al., 2016; Rezanto et al., 2016)

进展6:单语数据利用 利用海量的单语语料库提高神经机器翻译 利用自动编码器实现半监督学习 (Cheng et al., 2016c; Sennrich et al., 2016b)

进展7:多语言 利用向量空间贯通多种自然语言 多种语言共享源语言编码器 (Dong et al., 2015; Zoph and Knight, 2016; Firat et al., 2016)

进展8:多模态 利用向量空间贯通文本、语音和图像 不经过语音识别,直接将源语言语音翻译成目标语言文本 (Duong et al., 2016; Hitschler et al., 2016)

神经机器翻译教程和开源工具 教程 开源工具 Neural Machine Translation, ACL 2016 Tutorials Introduction to NMT with GPUs, Kyunghyun Cho 开源工具 GroundHog:加拿大蒙特利尔大学 Blocks:加拿大蒙特利尔大学 TensorFlow:Google EUREKA-MangoNMT:中国科学院自动化研究所

统计机器翻译 Vs 神经机器翻译 统计机器翻译 神经机器翻译 表示 离散 连续 模型 线性 非线性 训练 MERT MLE / MRT 可解释性 高 低 训练复杂度 处理全局调序 句法 门阀、注意力 内存需求

神经机器翻译面临的挑战 如何设计表达能力更强的模型? 如何提高语言学方面的可解释性? 如何降低训练复杂度? 如何与先验知识相结合? 如何实现多模态翻译?

总结 神经机器翻译:通过神经网络直接实现自然语言 的相互映射。 神经机器翻译近年来取得迅速发展,有望取代统 计机器翻译成为新的主流技术。 神经机器翻译在架构、可解释性、训练算法等方 面仍面临挑战,需要进一步深入探索。

谢谢! http://nlp.csai.tsinghua.edu.cn/~ly/

参考文献 Franz Och and Hermann Ney. 2002. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. In Proceedings of ACL. Philipp Koehn, Franz Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proceedings of NAACL. Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS. Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. 2013. On the Difficulty of Training Recurrent Neural Networks. In Proceedings of ICML. Sepp Hochreiter and Jurgen Schmidhuber. 1997. Long Short-Term Memory. Neural Computation.

参考文献 Dzmitry Bahdanau, KyungHyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR. Jianpeng Cheng, Li Dong, and Mirella Lapata. 2016a. Long Short-Term Memory-Networks for Machine Reading. In Proceedings of EMNLP. Yong Cheng, Shiqi Shen, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016b. Agreement-based Joint Training for Bidirectional Attention-based Neural Machine Translation. In Proceedings of IJCAI. Kelvin Xu, Jimmy Lei Ba, Ryan Jiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, and Yoshua Bengio. 2015. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. In Proceedings of ICML. Minh-Thang Luong, Ilya Sutskever, Quoc V. Le, Oriol Vinyals, and Wojciech Zaremba. 2015a. Addressing the Rare Word Problem in Neural Machine Translation. In Proceedings of ACL.

参考文献 Sebastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. 2015. On Using Very Large Target Vocabulary for Neural Machine Translation. In Proceedings of ACL. Junyoung Chung, Kyunghyun Cho, and Yoshua Bengio. 2016. A Character-level Decoder without Explicit Segmentation for Neural Machine Translation. In Proceedings of ACL. Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016a. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL. Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. 2016. Modeling Coverage for Neural Machine Translation. In Proceedings of ACL. Trevor Cohn, Cong Duy Vu Hoang, Ekaterina Vymolova, Kaisheng Yao, Chris Dyer, and Gholamreza Haffari. 2016. Incorporating Structural Alignment Biases into an Attentional Neural Translation Model. In Proceedings of NAACL.

参考文献 Mingxuan Wang, Zhengdong Lu, Hang Li and Qun Liu. 2016. Memory-enhanced Decoder for Neural Machine Translation. In Proceedings of EMNLP. Yaohua Tang, Fandong Meng, Zhangdong Lu, Hang Li, and Philip Yu. 2016. Neural Machine Translation with External Phrase Memory. arXiv:1606.01792v1. Shiqi Shen, Yong Cheng, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016. Minimum Risk Training for Neural Machine Translation. In Proceedings of ACL. Marc’Aurelio Ranzato, Sumit Chopra, Michael Auli, and Wojciech Zaremba. 2015. Sequence level training with recurrent neural networks. In Proceedings of ICLR. Yong Cheng, Wei Xu, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. 2016c. Semi-Supervised Learning for Neural Machine Translation. In Proceedings of ACL.

参考文献 Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016b. Improving Neural Machine Translation Models with Monolingual Data. In Proceedings of ACL. Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang. 2015. Multi-Task Learning for Multiple Language Translation. In Proceedings of ACL. Barret Zoph and Kevin Knight. 2016. Multi-Source Neural Translation. In Proceedings of NAACL. Long Duong, Antonios Anastasopoulos, David Chiang, Steven Bird, and Trevor Cohn. 2016. An Attentional Model for Speech Translation Without Transcription. In Proceedings of NAACL. Julian Hitschler, Shigehiko Schamoni, and Stefan Riezler. 2016. Multimodal Pivots for Image Caption Translation. In Proceedings of ACL.

参考文献 Xiaoqing Li, Jiajun Zhang and Chengqing Zong. 2016. Towards Zero Unknown Word in Neural Machine Translation. In Proceedings of IJCAI. Minh-Thang Luong and Christopher Manning. 2016. Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models. In Proceedings of ACL. Chen Shi, Shujie Liu, Shuo Ren, Shi Feng, Mu Li, Ming Zhou, Xu Sun, and Houfeng Wang. 2016. Knowledge- Based Semantic Embedding for Machine Translation. In Proceedings of ACL. Orhan Firat, Baskaran Sankaran, Yaser Al-Onaizan, Fatos Vural and Kyunghyun Cho. 2016. Zero-Resource Translation with Multi-Lingual Neural Machine Translation. In Proceedings of EMNLP. Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. 2015. Deep Learning. Nature.