姚天顺 自然语言处理实验室 东北大学 tsyao@china.com 2004.7.11 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学 tsyao@china.com 2004.7.11.

Slides:



Advertisements
Similar presentations
机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
Advertisements

國立臺東大學 英美語文學系 National Taitung University Department of English.
吴学兵 (北京大学天文学系) 部分内容基于“中国大学天文联合发展研讨会”资料
耶穌 (願主賜他平安) 在伊斯蘭教的地位.
高级商务英语(第一次课).
???.
(科学网博客) 科技编辑类论文选题与写作 任 胜 利 《自然科学进展》编辑部 (科学网博客)
北師附小第十六屆(1961) 五十周年校友會 中華民國一百年十月二十二日.
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.
创新高等英语教育与人才培养: 大力推进商务英语专业发展 王立非.
日本中国语学会关东支部扩大会议・中央大学
He said: What is a team? Team is not to let the other person failed, and do not let any team member fail!
Today – Academic Presentation 学术报告
第 一 章 數位學習概論 課程名稱:數位學習 授課老師:李春雄 博士 2017/3/17.
大学管理与人事人才工作的一些思考 黄达人 二〇一〇年十二月二十七日.
Relation Detection And Recognition
申请美国大学的一些常见问题 许晓鸣 (多伦多教育研究会)
第一章 導論.
全球化语境下的大学英语教学的三点思考 上海交通大学外国语学院 俞理明.
Figure Interpreting. Introduction In recording an English figure, its three digits make one subsection, while in Chinese, its four digits make one subsection.
深層學習 暑期訓練 (2017).
Motivational Curriculum Design For A Lesson--Dating (约会)
统计机器翻译简介 刘群
國立體育大學教育訓練 EBSCOhost 系列資料庫 內容與操作說明
隐马尔科夫模型和词性标注.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
机器翻译前沿动态 张家俊 中国科学院自动化研究所
1/31 今天的学习目标 (Today’s Learning Objectives)
Hui-Ju Chuang University of Hawaii-Manoa
植生工程植材選用決策支援系統 指導:錢滄海 授課:林俐玲 學生:楊孟叡.
吕阳 IME2012飞跃总结 吕阳
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
資料查詢與資料庫檢索 圖書館推廣服務組 校內分機 /04/09 1.
韓籍學習者習得現代漢語否定詞「不」與「沒」之研究
1 Introduction Prof. Lin-Shan Lee.
China Standardization activities of ITS
Summer English and Data Science
现代信息检索 Modern Information Retrieval
I'm waiting for the pure, clear, waiting for me
Formal Pivot to both Language and Intelligence in Science
药物和疾病啥关系 ? 李智恒.
中科院自动化所评测技术报告(SYSTEM II)
VISP+MS 国际高校访问学生 及统计理学硕士项目
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
Data Scientists 資料科學學位學程 新生說明會
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
Who is he? He is my idol. Jack Ma.
The First Course in Speech Lab
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
ProQuest 农业&生物期刊全文数据库.
Machine Translation for Conversational Texts
1 Introduction Prof. Lin-Shan Lee.
暑期活动见闻 程龚.
管理學 CH 陳彥伶 高明聖.
清華大學 青少年科技文化夏令營 迎生聚會 2006年7月7日 香港教育工作者聯會會所.
Review and Analysis of the Usage of Degree Adverbs
108年度 「校園社區化改造之學校社區共讀站計畫」
指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉
108年度 「校園社區化改造之學校社區共讀站計畫」
李宏毅專題 Track A, B, C 的時間、地點開學前通知
序贯监督学习框架下的 耀斑短期预报 哈尔滨工业大学 黄鑫.
中药饮片调剂技术 中药饮片调剂室基本设施.
Arguments to the main Function and Final Project
高级大数据人才培养丛书之一,大数据挖掘技术与应用
Non-Projective Parsing for Statistical Machine Translation
108年度 「校園社區化改造之學校社區共讀站計畫」
每天, 想要「瘦一點」的想法, 在你腦中出現多少次?
Presentation transcript:

姚天顺 自然语言处理实验室 东北大学 tsyao@china.com 2004.7.11 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学 tsyao@china.com 2004.7.11

1. 前言 有这么两条消息: 5月10日《参考消息》 “随着又有10个国家加入欧盟,欧盟现有20种官方语言。年度翻译预算增加到10亿美元。” 1. 前言 有这么两条消息: 5月10日《参考消息》 “随着又有10个国家加入欧盟,欧盟现有20种官方语言。年度翻译预算增加到10亿美元。” 5月28日《参考消息》 “欧盟新通过一项议案,所有成员国在欧盟会议上的文件不得超过15页A4纸,以减轻翻译人员的工作量。”

机器翻译的现状和未来到底怎么样了? 有计算机的那一天就有机器翻译的研究。 计算机事业蓬勃发展,但机器翻译的道路至今仍然十分艰难。

最近的五年到十年,机器学习方法又受到学术界 特别的重视,数学方法大量地引进了语言信息处理。 自然语言处理的研究是进了一大步, 上世纪的八十年代,特别是九十年代, 语料库语言学在计算语言学界兴起。 最近的五年到十年,机器学习方法又受到学术界 特别的重视,数学方法大量地引进了语言信息处理。 自然语言处理的研究是进了一大步, 但对于机器翻译而言,真实的效果在哪里呢?

回忆基于规则的机器翻译系统作为主流技术的时代, 不管怎么样?多少还出现过一些有市场价值的系统, 例如译星、华建和史晓东等的汉英翻译系统。 华建的机器翻译,居然取得了国内单项软件出口的最 高出售价。 欧洲和日本情况也是这样,当前主流的机器翻译还都 是基于规则的机器翻译系统。

基于语料库的机器翻译方法,一般说来可以分为两类: 一类是基于统计的机器翻译系统, 另一类和基于模板的机器翻译方法。 基于统计的机器翻译,简称为统计机器翻译。 统计机器翻译把源语言中任何一个句子都可能是目标语言中 某些句子相似,这些句子的相似程度可能都不相同。那么,一个 好的机器翻译系统就是那种能找到最相似句子的系统。 但是这样的汉外机器翻译系统在我们国家从来也没有出现 过。

“The candide System of Machine Translation。” 1994年,IBM公司的A. Berger, P. Brown 等人发表了一个技术报 告,即著名的论文: “The candide System of Machine Translation。” 他们用统计方法,各种不同的对齐技术,给出了命名为Candide 的统计机器翻译系统. 利用汉莎语料库(Hansard corpus,英法双语语料库),总共 有 2,205,733 英法句对作为训练语料, 实现了国际上第一个较为著名的英语到法语的统计机器翻译系 统。

一开始,系统的成绩不错,整体的系统的译准率超过了基于 解释、转换、和生成的规则系统。 ARPA(美国国防部高级研究计划署)把这个 Candide 翻译 系统进行评测,并和国际上利用常规的规则系统构造的 SYSTRAN 机器翻译系统作比较,结果是,

流利程度 适当程度 时间比率率 1992 1993 1992 1993 1992 1993 SYSTRAN .466 .540 .686 .743  Candide .511 .580 .575 .670   Transman .819 .838 .837 .850 .688 .625 Manual .833 .840   Transman is the part of the Candide system used as a translation assis- tance tool, i.e. a machine-aided translation system. 这个结果很了不起,在某种程度上推动了经验主义思潮更进一步向前 发展。

由于计算语言的复杂性,Candide系统还请了一些语言学家来帮助他们做形态分析、语义标注、和词典等。 这样的系统,看来很有希望,不知为什么,由于IBM 公司外部和内部财政方面的原因,支持被撤走,他们的工作坚持到1995年,就被迫停止。呼声很高的系统被中断了。 有人说,纯统计的机器翻译注定是要失败的!

美国著名机器翻译学者Yorick Wilks在批评 Candide系统 时指出: “他们在系统中引入符号结构就说明了,纯统计的假设已经失败了” (“Incorporating symbolic structure shows the pure statistics hypothesis has failed”) 可见,统计方法是令人鼓舞的,可是它还没有解决所有困 难的问题。

Syntax for Statistical Machine Translation 2.新统计机器翻译系统的出现 2000年,在Johns Hopkins 的暑假Workshop,有来自南加州大学、 罗切斯特大学、约翰.霍普金斯大学、施乐公司、宾州大学、斯丹福大学等学 校的研究人员, 以Och为主的13人,写了一个Final Report: Syntax for Statistical Machine Translation Och博士发表的论文: “Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”, 获ACL2002大会最佳论文奖。 2001—2003年七月,在美国马里兰州Johns Hopkins美国商业部的 NIST/TIDES (National Institute of Standards and Technology) at University in Baltimore, Maryland 评比过程中获最好成绩。 构造了23种阿拉伯和汉语到英语的机器翻译系统。 TIDES: Translingual Information Detection, Extraction and Summarization

Och的气很盛,他说, 伟大的希腊科学家Archimedes说: “Give me a place to stand on, and I will move the world.” Och说: “Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.” 这是不是说,Och博士已经找到 机器翻译的有效方法了?

3.统计机器翻译语法 Berger 关于机器翻译的失败,一个主要问题是: 统计机器翻译(SMT)往往有显而易见的语法错误。 Och希望在SMT里整体组合语法结构。 不断添加反映语法知识的特征函数来解决不同语法层次的翻 译问题,按照最大熵的模型,在各个语法层次都能给出可能的特 征函数 希望从最简单的二元特征到复杂的树 -- 树的结构分析都能够 造翻译模型。

3.1 逻辑-线性模型 翻译成可能的目标句子(English) 那么,所有可能的目标句的最大概率: 机器翻译的目的是:给定一个源句子Chinese) , 翻译成可能的目标句子(English) 那么,所有可能的目标句的最大概率:

(1993),是一种后验概率的直接模型(称为直接最大熵翻译模型)。 其中 e 和 f 的位置正好颠倒. Och 和 Ney 在 2002年提出的翻译模型, 不同于 Brown 等的设想 (1993),是一种后验概率的直接模型(称为直接最大熵翻译模型)。 其中 e 和 f 的位置正好颠倒. 利用Berger等人(1996)提出的最大熵框架,在这个框架里,有一组 特征函数: 对于每一个特征函数,存在一个模型参数, 按照最大熵理论,直接概率模型: 这是标准的最大熵计算公式。其中分母可以不计。

逻辑-线性模型总体结构如下图所示:

China’s 14 open border cities marked economic achievements. 一个统计机器翻译系统设计成为: 切分(短语)、对齐、重排、生成。 由汉语句子: 中国十四个边境开放城市经济建设成就显著. 翻译成英文句子: China’s 14 open border cities marked economic achievements. 切分:

对齐模板处理形象理解为: 本质上存在一个隐变量 ,再取参数 , 就有 特征函数由原来的转换成

各种语法现象的特征函数 浅层语法的特征函数 WoRD Selection Phrase Alignment Alignment Template Selection Language Model Features

深层句法特征函数 深层处理的句法特征函数是通过两种模型形成: 1、Tree to String 的特征函数 1) 中文句子和英文分析树,对齐概率和的特征函数, 2)计算对齐最好的特征函数

树到树的对齐模型是十分复杂的。例如汉英句对: 2、Tree to Tree 的特征函数 树到树的对齐模型是十分复杂的。例如汉英句对: 中国十四个边境开放城市经济建设成就显著. Fourteen Chinese open border city make signficant achievements in economic construction. 标注后的双语句子: 中国_NR 14_CD 个_M 边境_NN 开放_NN 城市_NN 经济_NN 建设_NN 成就_NN 显著_VV。(不讨论标注的正确性) Fourteen_CD Chinese_JJ open_JJ border_NN cities_NNS make_VBP signficant_JJ achievements_NNS in_IN economic_JJ construction_NN. 他们的分析树分别是:例如

这里有两类标注: The Part-of-Speech Tagging Guildelines for Penn Chinese Treebank。 The University of Pennsylvania Treebank Tag-set。 其中, NR proper noun 专有名字 CD cardinal number 基数 M measure word 量词 NN common noun 普通名字 VV other verb 是、有以外的动词 JJ other noun modifier 其他名字修饰符 VBP verb, present tense, 3rd person singular 动词,现在式,第3人称 IN preposition or conjunction, subordinating 介词或连词,连接逐句或从句

中国 十四 个 边境 开放 城市 经济 建设 成就 显著.

构是可以自动转换和对齐的,如 A A B Z === X Y Z X Y 有的就不可以自动对齐转换 A B C W X Y Z 同一个含义的两种语言的分析树有着不同的结构。其中有的结 构是可以自动转换和对齐的,如 A A B Z === X Y Z X Y 有的就不可以自动对齐转换 A B C W X Y Z 没法对齐到 WYXZ

“Natural language generation in the context of machine translation” 2002年,Hajie等人在他们(11人)的论文: “Natural language generation in the context of machine translation” 提出了非同构的平行树间的两边进行多于两个节点的 m-to-n 的匹配。给出一点弹性处理的许可。 例如两个树的词序不变而结构不同等的原来不可对齐问题,在 没有引起明显的计算复杂度的情况下,也允许子树对齐。 由于这样的考虑,他们就提出了所谓克隆(Clone)操作的概 念。 克隆操作: 允许在源树中,拷贝一个节点到目标树的任意地方。克隆以 后,就像以前一样使用树分解(decomposition)和子树对齐。除 了克隆以外,其他的基本算法都不变。 硬性解决不解之难。

Och的设想取自于Gildea的工作。 Gildea在2003年的论文中提到,在他们的系统里选用韩英军事领域双语语料。 语料包括5083句,使用4982句作为训练语料,101句作评测。韩语句子的平均长度是13个字。对齐结果的比较,如下表所示:

Och的狂妄,可能并没有解决问题。 就像阿基米德虽然伟大,但还是不能撬起一个地球, 但是,最终还没有找到统计机器翻译可遵循的研究道路。路在那里啊?

统计机器翻译的领头人物可能是南加州大学ISI的Kevin Knight。 Tree to String, Tree to Tree 的对齐,可能是实现机器翻译的一 个瓶颈问题。 统计机器翻译的领头人物可能是南加州大学ISI的Kevin Knight。 提出了基于语法的语言模型(Syntax-based Language Models), 与一种tree-to-string翻译模型(YK01)组合在一起,得到较好的翻译 精度。 这里所提的基于语法,不是普通意义上的人工规则,而是在树库条 件下自动生成语法。是很有意思的。但其试验结果:346个句子 System Perfect Translation Syntactically Correct but Semantically Wrong Semantically Correct Syntactically Wrong Wrong YC YT BT 45 31 26 67 19 11 70 87 164 209 223

YC, 就是他们文章上写的系统, 也就是 YK01翻译模型, Cha01语言模型 和 基于森林的解码器组成的系统。 YT, YK01翻译模型, 标准三元语言模型 和 YK02解码器 BT, BPPM93翻译模型, GJM+01贪婪解码器 注:E. Charniak, Kevin Knight and K. Yamada, Suntax-based Language Models for Statistical Machine Translation.

另一位是:约翰 霍普金斯大学计算机系的 Jason Eisner 讨论非同构树(Non-Isomorphic Tree)映射问题。 即通过训练美对齐的树或者树和串混合的队,学习 tree-to-tree 映 射。 提出一种所谓 STSG。 它是一种共时树置换文法(Synchronous tree substitution grammar)。 这是对齐的基本树队(有序)的聚集。 它也是一个简单的共时树邻接文法(Synchronous tree-adjoining 现已用所有的树对作训练集,利用EM算法获得基本树的概率,和 Viterbi解码器找到最优的翻译。 这些方法也是在暑期(2002)约翰 霍普金斯大学CLSP暑期研讨会 开发和实现的。效果有待考验。 注:Jasson Eisner, Laerning Non-Isomorphic Tree Mapping for Machine Translation

以前的 不仅如此, 在机器学习方面,最近又有了新的发展。 自然语言处理的学习都被认为是一种带标序列学习问题: Label Sequence Learning 以前的 Hidden Markov Models Maximum Entropy Markov Models 都是带标序列学习问题。 现在提出一种新的理论和方法 Condition Random Fields 那有事么不同呢?直观地讲:

可以比喻如下图形: HMM MEMM CRF

Long-distance dependences 这主要是解决了两大问题: Long-distance dependences 长距离相关 Overlapping features 重叠特征 这是个重大的改进,学术界出现了CRF热。 HMM 方法早就不行了,Och用 MEMM 也可以改进, 出现了CRF。

统计语言学的前景将黯然失色,对他们的信心将产生怀疑。 当初,NIST在2001年和2003年两次评测得第一, 是汉英机器翻译的评比获得第一。 可能是专了一个空子,只是汉英机器翻译。如果是其他语种 的机器翻译,可能得不了第一。 这就是为什么多年来 SYSTRAN 还是一直坚持老办法,为什么欧 洲和日本机器翻译的主流技术还是基于规则的,为什么著名的计算 语言学家Wilkes 这么反对统计机器翻译。 我们国内也是如此,直到现在,甚至连一个实验性的统计机器 翻译系统都没有! 机器翻译是 NLP 领域的百科全书,如果树串对齐、树树对齐, 这个瓶颈问题不解决, 统计语言学的前景将黯然失色,对他们的信心将产生怀疑。 相信,这个瓶颈问题总能解决。

为了进一步开发基于语料库的机器翻译系统,必须解 决两个问题: 必须尽快构造海量带标语料库,带标树库。 尽快攻克汉外结构化树库对齐的技术难点。 把统计机器翻译的研究前进一大步! 语言标注,树库的建设仍在国际上迅速展开。 可是我们国家的步伐太慢了!

2003年美国的计算语言学者们不满足现有的,多达 2000 万词 的英国国家语料库(BNC,Beritish National Corpus)带标语料库的 需求,向全世界发布了美国国家语料库(ANC,American National Corpus)的第一个版本。 这是一个具有 11, 508, 216 词汇的带标语料库。由两部分内容组 成:其中口语 3, 224, 388字,书面语8, 283, 828字。 使用规范的 XML corpus Encoding Standard(XCES)书写。并 宣布再做两年,至少可以达到 100 million。 气魄很大! 为了开展这个活动,组织了 ANC 联盟,有 16 个大公司和学校 作为商业成员,8个大公司和学校作为学术成员,参加并支持这项研 究工作。

Commercial Members Academic Members Pearson Education Langenscheidt Publishing Group HarperCollins Publishers Cambridge University Press Microsoft Corporation Shogakukan Inc. ALC Press Inc. Taishukan Publishing Company Oxford University Press Kenkyusha Ltd. IBM Corporation Obunsha Publishing Co. Ltd. Benesse Corporation Sanseido Co., Ltd. Sony Electronics Inc. Macmillan Publishers Academic Members Vassar College Northern Arizona University New York University Linguistic Data Consortium, University of Pennsylvania International Computer Science Institute University of California, Berkeley University of Colorado at Boulder

Penn Chinese Treebank 起源于1998年。目标是500,000词汉 语语料的语法树。 2000年出了第一版,2001年进一步校正,出了第二版。 Chinese Treebank 4.0 包含有 404,156 词,664, 633 汉字, 15, 162个句子,和 838 个数据文件。 非会员价格:US$225。 部分资助来自DARPA-TIDES grant number N66001-00-1-8915。 我们的语言和西方的不同,结构上的巨大差别。必须要搞带标 语料库、树库。 希望在语料库语言学方面有所突破。

5.关于《中国未来20年技术预见研究》 息技术领域技术课题及其说明的德尔菲调查。 调查的内容中,有两个地方涉及到机器翻译问题。属于人 年初,中科院发起了《中国未来20年技术预见研究》信 息技术领域技术课题及其说明的德尔菲调查。 调查的内容中,有两个地方涉及到机器翻译问题。属于人 机交互与智能处理技术子领域的子课题: 1、文本机器翻译系统成为信息交互的重要工具。 预见项目的说明中讲: “机器翻译的成熟将是特定领域的文本在不同语言间的转换 变得越来越容易。” 2、多国语言间特定领域的口语同声翻译系统得到实际应用 预见项目的说明中又讲: “随着这些相关技术(语音识别,合成和机器翻译)在特定 领域应用中的逐步成熟。”

我不大同意这个所谓的“成熟”,不管成熟还是逐步成熟,我看还谈 不上成不成熟。 50多年都没有得到基本的解决,20年还能怎么样? 机器翻译,按市场上的宣传而言,那不好说。 科学是老实的东西,来不得半点虚假。 看来,技术决策层里没有我们业内的人。 《中国未来20年技术预见研究》里,涉及到计算语言学的内容大致 有: 1、开发出各行各业的本体体系 2、开发出能模拟人类认知能力的计算机系统 3、网络智能于主动服务技术得到广泛应用 4、音视频智能摘要 5、非法播出内容的实时控制 6、语音技术取得突破性的进展并部分得到实际应用 7、多国语言间特定领域的口语同声翻译系统得到实际应用

8、 校正发音的电子语言学习机成为人们学习语言的有力工具 9、 文本机器翻译系统成为信息交流的重要工具 10、基于自然语言理解的在线帮助系统在更多领域得到实际应用 11、海量知识库技术在国家知识基础设备和相关技术产品市场得到广 泛应用 12、智能化网络信息搜索、知识挖掘得到实际应用 13、开发出数字人技术和应用系统 14、智能空间技术和智能家居社区系统得到普及。 15、人类文化/自然遗产数字化技数字博物馆技术取得实质性进展。 科学研究不练内功,光想立竿见影,我看是不行。

谢 谢 大 家