Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi

Slides:



Advertisements
Similar presentations
限制性定语从句和非限制性定语从句 区别:( 1 )限制性定语从句与其先行词 关系密切,如果去掉该从句,剩余部分 的意思不完整甚至失去意义;非限制性 定语从句只是其先行词的附加说明,如 去掉,句子剩余部分意思仍然完整。 A man who does not try to learn from others.
Advertisements

第七课:电脑和网络. 生词 上网 vs. 网上 我上网看天气预报。 今天早上看了网上的天气预报。 正式 zhèngshì (报告,会议,纪录) 他被这所学校正式录取 大桥已经落成,日内就可以正式通车 落伍 luòw ǔ 迟到 chídào 他怕迟到,六点就起床了.
口試準備及口語表達技巧 民國 98 年 2 月 26 日 12:00pm 國立三重高中 陸芳瑜老師 1.
性別主流化 人力資源暨公共關係學系 助理教授 陳月娥.
性別主流化 人力資源暨公共關係學系 助理教授 陳月娥.
對於學習不力學生的學習輔導經驗分享 張其清 新北市立新北高工 主任輔導教師.
Time Objectives By the end of this chapter, you will be able to
国家自然科学基金项目申请 经验交流与心得体会
高考主题讲座 高考语文 董 腾.
-CHINESE TIME (中文时间): Free Response idea: 你周末做了什么?
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
如何进行小学英语 阅读教学 北京航空航天大学附小 谢乃莹.
Π π π 大學生你 了沒 別讓落伍找上你 嘉藥學程 幫你打造第二專長 讓你揚眉吐氣~ 嘉南藥理科技大學 教務處 課務組 製.
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
Do you have a soccer ball?
(讲座幻灯课件请在网上下载,让我们一起思考!)
Sing your own songs. 汉译英: 1) 他有四本贴满邮票的集邮册。 2) 那个瓶子里装满了水。 3) 轮到我展示自己的爱好了。 4) 她喜欢和其他青少年交换邮票。 5) 老人从口袋里拿出两元钱。 6) 这头大象太大,过不了这个门。 7) 我们打算明年组织一个集邮俱乐部。 That.
职业素质训练 ——职业规划 一、授课目的:通过课程的学习,让学生明白职业规划的重要性,学会进行个人的职业规划,并对IT行业的现状有一个基本的了解。 二、授课方法:老师讲授与学生自我练习相结合。 三、授课思路: 1、通过调查分析、提问及案例分析引发学生思考职业规划的重要性; 2、阐述职业规划的含义,引导学生分析职业规划的三个要点,从而对职业规划有一个清晰的认识;
从2008年度时尚先生看我们的时代精神方向.
學習行為觀察與評估 講 師:陳怡華.
第七單元 大眾運輸好方便 凡事小心才安全.
罗湖区第二届智慧杯中学政治学科小课题研究
消費者行為 CONSUMER BEHAVIOR
面試的準備與因應 面試!面勢!面飾!面釋!面適! 樹德科技大學 陳逸聰 教授
从离线考试的翻译题谈起 - - 英译汉 词汇翻译技巧2则
深層學習 暑期訓練 (2017).
Visualizing and Understanding Neural Machine Translation
Module 5.
Some Effective Techniques for Naive Bayes Text Classification
102學年曉明女中社會科科展 暨小論文寫作說明 官淑雲.
机器翻译前沿动态 张家俊 中国科学院自动化研究所
Unit title: 嗨!Hi! Introducing yourself in Chinese
Source: IEEE Access, vol. 5, pp , October 2017
顏色yán sè COLORS 紅色 藍色 綠色 黃色 紫色 白色 黑色 咖啡色 bái sè hēi sè hóng sè lǜ sè
Short Version : 6. Work, Energy & Power 短版: 6. 功,能和功率
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
Area of interaction focus
This Is English 3 双向视频文稿.
重點 資料結構之選定會影響演算法 選擇對的資料結構讓您上天堂 程式.
5/02 今天的学习目标 (Today’s Learning Objectives)
Lesson 44:Popular Sayings
基于课程标准的校本课程教学研究 乐清中学 赵海霞.
Flexible and Creative Chinese Poetry Generation Using Neural Memory
第十五课:在医院看病.
sequence-to-sequence
Hobbies II Objectives A. Greet a long time no see friend: Respond to the greeting: B. Ask the friend if he/she likes to on this weekend? She/he doesn’t.
指導老師:葉淳媛老師 組 員:施金翰 廖仁輝 李柏蔚 黃威耀 邱哲偉 張育彬 報告日期:100年12月6日
Long short term memory 郭琦鹏
嘉義縣國民小學學生學力檢測試題分析 陳炫任 國立嘉義大學.
初中英语4班研修组简报 第五期.
Making Connection Sound with Symbol
第八單元 清晨摸黑騎鐵馬 反光配件要加碼.
Competitive Intelligence Are we really becoming a profession?
Common Qs Regarding Earnings
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
從資訊素養與資訊尋求行為談大學圖書館利用教育
Module 4 Unit 1 This is my head..
Representation Learning of Knowledge Graphs with Hierarchical Types
Google Local Search API Research and Implementation
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
為什麼要考國中教育會考 學生:了解自己的學力水準,並為下一學習階段作準備。
Introduction of this course
More About Auto-encoder
Speaker : YI-CHENG HUNG
Views on the News 不同的观点 选自《多维阅读第11级》.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
以分为镜知对错 以卷为鉴晓得失 —邯郸市一模得与失
Google教改项目-撰写申报书探讨 华东师范大学 琚小明.
Climbing a Rock Wall 攀岩 选自《多维阅读第10级》.
Presentation transcript:

Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi ArXiv.org Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi yonghui,schuster,zhifengc,qvl,mnorouzi@google.com 十年前,我们发布了Google Translate(谷歌翻译),这项服务背后的核心算法是基于短语的机器翻译(PBMT:Phrase-Based Machine Translation)。自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个高难度的目标。 Kai Chen 2016/10/18

Outline SMT: Statistical Machine Translation NMT: Neural Machine Translation GNMT:Google Neural Machine Translation

SMT(统计机器翻译) 思想:机器自动从大规模的语料中学习得到转化规则n-gram 方法:将输入句子分解成词和短语,然后很大程度上对它们 进行独立地翻译 缺点:SMT需要人为设计许多特征,无法覆盖所有的语言规 则;难以利用全局的特征;过于依赖词语对齐、分词、规则 抽取等预处理工作; Ok, here is a question, As we all know that Go is a very famous game to human, but how does computer play this game, especially against human ? Here, I will introduce the main idea ,in other words, the traditional Algorithm to you to show the details.

SMT(统计机器翻译) D=(x1,y1) ,(x2,y2), ... , (xn,yn) 代表一个包含N个平行句对 p(y|x) 对数似然函数 宗成庆、张霄军《统计机器翻译》

NMT(神经机器翻译) s -> s

NMT 用原有SMT系统得到候选译文后,再用神经网络对候选译文进行重排序(re-rank)

NMT 语言模型 基于神经网络的语言模型最早由Bengio于2003年提出,通过将每个词映射成为一个固定长度的实数向量有效缓解了数据稀疏性问题 Mikolov等人提出基于RNN的语言模型

NMT 前面所谈到的语言模型都在翻译第n个词时,只考虑目标语言端的前n-1个词,Devlin 认为源语言端的信息也非常重要,由此提出神经网络联合模型(NNJM),使翻译效果有了很大提升。

NMT 改变:将整个输入句子视作翻译的基本单元 方法:两个 Recurrent Neural Networks (RNNs) 递归神经网络。一个用来处理输入的文本 (encoder network),一个用来生成翻译后的文本 (decoder network)。 Here, we have to main steps. Firstly, we need a cost function to decide whether the path we choose is the optimal path. Then, computer need to search all the possible cells it can drop the chessman by minimizing cost function V(S). But In Go, b=two hundred and fifty ,d=one hundred and fifty. What a huge number !!! We cannot search the optimal path by force!

RNN (循环神经网络) 用于输入维度不固定的情景,如机器翻译、手写字体识别、语音识别 Here, we have to main steps. Firstly, we need a cost function to decide whether the path we choose is the optimal path. Then, computer need to search all the possible cells it can drop the chessman by minimizing cost function V(S). But In Go, b=two hundred and fifty ,d=one hundred and fifty. What a huge number !!! We cannot search the optimal path by force!

RNN (循环神经网络) 梯度爆炸(blow up)梯度消失(vanish) 反向传播得到的梯度结果展开后大致长成 Here, we have to main steps. Firstly, we need a cost function to decide whether the path we choose is the optimal path. Then, computer need to search all the possible cells it can drop the chessman by minimizing cost function V(S). But In Go, b=two hundred and fifty ,d=one hundred and fifty. What a huge number !!! We cannot search the optimal path by force!

LSTM(Long short-term memory) input gate: 表示是否允许当前的输入信息加入到隐层状态中 output gate: 表示是否允许当前的隐藏层节点的输出值传递到下一层 forget gate: 表示是否保留当前节点的历史状态 Here, we have to main steps. Firstly, we need a cost function to decide whether the path we choose is the optimal path. Then, computer need to search all the possible cells it can drop the chessman by minimizing cost function V(S). But In Go, b=two hundred and fifty ,d=one hundred and fifty. What a huge number !!! We cannot search the optimal path by force!

Encoder-Decoder Architecture for MT 从机器学习的角度看,机器翻译其实就是一个有监督学习的过程,学习一个任意长度的序列到另一个任意长度的序列的过程

Encoder-Decoder Architecture for MT 将源语言单词映射到一个固定维度的稠密向量(Word Embedding) 使用LSTM讲源语言句子压缩成一个向量hT Decoder 使用LSTM逆向将hT分解成目标语言的词语序列

NMT的优劣 优点: 相比于SMT,这种方法所需的工程设计更少。 缺点: 1.速度慢:对大规模的数据集,训练的速度慢;推断 (即最后翻译) 的速度也慢,因为涉及到大量的参数; 2.准确率低,不稳健(lack robustness):处理罕见词时比较低效; 3.有时候并不翻译所有输入的内容,即,没有完全覆盖 (cover)所有的输入文本。

NMT的一些改进 模拟外部对准模型(external alignment model)来处理罕见词 使用注意(attention)来对准输入词和输出词 将词分解成更小的单元以应对罕见词 尽管有这些进步,但 NMT 的速度和准确度还没能达到成为 Google Translate 这样的生产系统的要求

Attention

GNMT 我们的模型由带有 8 个编码器和 8 个解码器的深度 LSTM 网络组成,其使用了注意(attention)和残差连接(residual connections)。 为了提升并行性从而降低训练时间,我们的注意机制将解码器的底层连接到了编码器的顶层。 为了加速最终的翻译速度,我们在推理计算过程中使用了低精度运算。 为了改善对罕见词的处理,我们将词分成常见子词(sub-word)单元(词的组件)的一个有限集合,该集合既是输入也是输出。这种方法能自然地处理罕见词的翻译、并能最终提升系统的整体准确度。 我们的波束搜索技术(beam search technique)使用了一个长度规范化(length-normalization)过程,并使用了一个覆盖度惩罚(coverage penalty),其可以激励很可能能覆盖源句子中所有的词的输出句子的生成。 Traditionally, BaseLine method called MCST, which means the Monte Carlo Search Tree is used in reduce the huge search space. Here is the overview of MCST, I won’t tell the details about the method, but There are many problems: Time consuming, Low accuracy ! That is why AlphaGo proposed.

GNMT

GNMT

Q&A

韩春雨事件 5月《自然·生物技术》 新的基因编辑技术NgAgo-gDNA 多国学者表示无法重复试验 《自然》要求韩提供实验细节 8月韩提供新版本的实验要求 10月10日 国内13名科学家实名声称新版本实验无法重复,要求第三方机构介入调查