机器翻译概论 宗成庆 中国科学院自动化研究所 模式识别国家重点实验室

Slides:



Advertisements
Similar presentations
胡文 伊宁三中. If I were the only girl in the world and you were the only boy! Nothing else would matter in the world today we could go on living in the same.
Advertisements

Lesson 78 Pre-read Answer the following questions. 1.Do you keep a diary ? What language do you use to write your diary ? 2. What must you write when.
GRAMMAR ---Articles( 冠词 ). Articles( 冠词 ) The Indefinite Article( 不 定冠词): a/an 泛指 The definite article( 定 冠词): the 特指 Exercise 零冠词即不用冠词.
1 論文原創性比對系統 日本報導 小保方晴子 Nature 發 表兩篇 STAP 多能性 細胞研究論文, 經日 理化學研究所 ( RIKEN )調查後, 證實兩篇論文內容涉 有複製、偽造圖片及 抄襲,但部分指控被 認為僅是無心之過。 導師一個辭職 一個.
琵琶行并序 白居易 薛樂蓉老師製作.
人工智能的昨天、今天和明天 崔 林 中央广播电视大学工学院.
99年度行政品質評鑑 出版中心簡報 報告人:項潔 臺灣大學資訊工程系特聘教授 兼出版中心主任 99年9月8日
過去完成式 as long as as soon as
從香港郵票 看英國對香港的管治特色 吳書虹 ( ).
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
如何让EBSCO数据库成为 您的家庭健康小医生?
側注法,以賓顯主 第一段 第二段 第三、四段 第五段 全文四特色
Click to edit Master title style
将下列各句翻译成英文 The lesson (which, that) we studied
Adjective Review 形容词复习 锦州市实验学校 吴宏丽
第一部分 语法专题研究 专题三 冠词.
歷史的耶穌 普通話學人之家 June 21, 2003.
韶关旅游攻略 2012级会计2班 杨丽琴.
2012届(数计院) 企业人事管理系统 ——指导老师: 学生:.
姜夔 組員名單:林沛彣 徐志成 郭郁玟 張顯愷.
教學意見調查 線上填答說明 (104學年度第2學期).
2008年高考趋向与高考英语复习方法暨备考导航.
遭遇战争 珍爱和平.
關係代名詞之使用.
Unit 3 Can you play the guitar? Period 1 (第一课时p59.p60)
Unit 1 Making New Friends
5B Unit5 Review and check Part BC.
天主教善導小學 錦繡中華 --- 專題研習報告比賽 親探福建客家土樓真貌.
机器翻译前沿动态 张家俊 中国科学院自动化研究所
Chinese Link Level I Part I September 2012 – June 2013
關係子句(一):關係代名詞 who/whom/which/whose/that
Calling about an apartment for rent II Objectives
亞當尚未犯罪,神就藉此預言基督將受死,使教會誕生。
Words/Phrases Review 识字造词复习.
第二部 专题Ⅲ句型 ㈣ 定语从句 考点揭密 中考考点设置 典型例题解析 课时训练.
成才之路 · 英语 人教版 · 必修1 路漫漫其修远兮 吾将上下而求索
形式句法理论 乔姆斯基生成转换句法 的发展与现状.
天宁区小学英语 2016 小学英语毕业复习研讨暨质量调研反馈 天宁区教师发展中心 薛 红 1.
Book 3 Unit 1 Important phrases 华南师范大学外国语言文化学院 李娇娇.
4)在时间状语从句和条件状语从句中表示将来的动作。如:
Unit 1 鸳大九义校 杨付春.
論文原創性比對系統 1.最早是Nature Journal的比對需求而來,世界上最早的科學期刊之一,也是全世界最權威及最有名望的學術雜誌,在《自然》上發表文章是非常光榮的,《自然》上的文章經常被引用,這有助於晉陞、獲得資助和獲得主流媒體的關注。在《自然》上發表的文章需要經過嚴格的同行評審。
論文原創性比對系統 1.最早是Nature Journal的比對需求而來,世界上最早的科學期刊之一,也是全世界最權威及最有名望的學術雜誌,在《自然》上發表文章是非常光榮的,《自然》上的文章經常被引用,這有助於晉陞、獲得資助和獲得主流媒體的關注。在《自然》上發表的文章需要經過嚴格的同行評審。
論文原創性比對系統 1.最早是Nature Journal的比對需求而來,世界上最早的科學期刊之一,也是全世界最權威及最有名望的學術雜誌,在《自然》上發表文章是非常光榮的,《自然》上的文章經常被引用,這有助於晉陞、獲得資助和獲得主流媒體的關注。在《自然》上發表的文章需要經過嚴格的同行評審。
1. pick up 得到,获得,收听到,拾起,中途让某人上车, 接某人
高中英文第一冊 第六單元 重補修用.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
高中英语语法专项训练 补中训练 九 名词性从句 重庆二外左明正 九 名词性从句
UNIT 3.
暑期活动见闻 程龚.
Grammar Ellipsis.
4)在时间状语从句和条件状语从句中表示将来的动作。如:
文法篇: 關係代名詞.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
关系代词.
蛇對女人說:「你們不一定死;因為神知道,你們吃的日子眼睛就明亮了,你們便如神能知道善惡。」(創3:4-5)
定语从句 ●关系词的意义及作用 : 定语从句一般都紧跟在它所修饰名词后面,所以如果在名词或代词后面出现一个从句,根据它与前面名词或代词的逻辑关系来判断是否是定语从句。
國民年金 np97006.
Make a Wish!.
M; Well, let me check again with Jane
孔融《与曹操论盛孝章书》.
主 宾 表 定 状 补 不定式 √ 动名词 分 词.
世界无烟日主题班队会.
Grammar 定语从句 厦大附中 朱丽影.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
Choosing the Better Portion 選擇那上好的福分
美丽的扎染 制作 关群 徐州市公园巷小学.
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
Book 5 Unit 1 單字文法講義.
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

机器翻译概论 宗成庆 中国科学院自动化研究所 模式识别国家重点实验室

内容提要 1、概述 2、机器翻译的产生与发展 3、机器翻译的困难 4、机器翻译研究现状 5、机器翻译基本方法 June 20, 2003

1 概述 有关专家已经指出,语言障碍是21世纪国际社会全球化面临的主要困难之一; 1 概述 有关专家已经指出,语言障碍是21世纪国际社会全球化面临的主要困难之一; 机器翻译涉及语言学、计算语言学、认知科学和数学等多种学科,具有重要的科学意义; 具有巨大的社会需求,以欧洲为例,有380多种语言,2004年5月1日以前欧盟有11种官方语言,每年为这11种语言翻译、转录文件耗费的人力费用大约 549M 欧元。目前欧盟20多种工作语言; 汉语已经不再仅仅是中国人关注的语言。 June 20, 2003

1 概述 (Million) Chinese 1000 Spanish Hindi/Urdu 500 English Arabic 300 1 概述 Chinese Spanish English Hindi/Urdu Arabic Portuguese Japanese French (Year) (Million) 1000 500 300 100 1950 1970 1990 2010 2030 2050

汉英两大强势语言的自动翻译问题是人类语言技术中最具挑战性的研究课题! 1 概述 Chinese Spanish English Hindi/Urdu Arabic Portuguese Japanese French (Year) (Million) 1000 500 300 100 1950 1970 1990 2010 2030 2050 汉英两大强势语言的自动翻译问题是人类语言技术中最具挑战性的研究课题!

少数民族语言信息处理意义重大 - 经济、文化、教育、体育、旅游… - 国家安全 - 民族团结 1 概述 少数民族语言信息处理意义重大 - 经济、文化、教育、体育、旅游… - 国家安全 - 民族团结 June 20, 2003

2、机器翻译的产生与发展 June 20, 2003

2 机器翻译的产生与发展 机器翻译 MT 源语言 (SL) 目标语言(TL) 2 机器翻译的产生与发展 概念:机器翻译 (machine translation, MT) 是用计算机把一种语言(源语言, source language) 翻译成另一种语言(目标语言, target language) 的一门学科和技术。 机器翻译 MT 源语言 (SL) 目标语言(TL) June 20, 2003

2 机器翻译的产生与发展 古希腊时期 17世纪:笛卡儿(Descartes)莱布尼兹(Leibniz)试图用统一的数字代码编写词典;17世纪中页贝克(Cave Beck)等人出版类似的词典。 1930s:亚美尼亚法国工程师阿尔楚尼(G. B. Arsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做机器脑 (mechanical brain)。 June 20, 2003

2 机器翻译的产生与发展 1933年,前苏联发明家特洛扬斯基设计了用机械方法把一种语言翻译成为另一种语言的机器。 2 机器翻译的产生与发展 1933年,前苏联发明家特洛扬斯基设计了用机械方法把一种语言翻译成为另一种语言的机器。 1946年,世界上第一台电子计算机 ENIAC 诞生以后,英国工程师 A. D. Booth 和美国洛克菲勒基金会 (Rockefeller Foundation) 副总裁 W. Weaver 提出了利用计算机进行机器翻译的设想。 June 20, 2003

2 机器翻译的产生与发展 1947年3月, W. Weaver 给 N. Wiener 写信,讨论机器翻译问题,但遭到了 N. Wiener 的反对。 1949年,W. Weaver 发表了以 ‘Translation’为题目的备忘录,正式提出机器翻译问题。 June 20, 2003

2 机器翻译的产生与发展 Weaver 的两个基本观点: 2 机器翻译的产生与发展 Weaver 的两个基本观点: (1) 翻译类似于解读密码的过程:当我阅读一篇用俄语写的文章时,我可以说这篇文章实际上是用英文写的,只不过它用另外一种奇怪的符号编了码,当我阅读时,我是在进行解码; June 20, 2003

2 机器翻译的产生与发展 (2) 原文和译文“说的是同样的事情”,因此,当把语言A 翻译为语言B 时,就意味着,从语言A 出发,经过某一“通用语言(universal language)” 或“中间语言 (interlingua)”,然后转换为语言B,这种“通用语言”或“中间语言”可以假定是全人类共同的。 June 20, 2003

2 机器翻译的产生与发展 美国和英国的学术界对机器翻译产生了浓厚的兴趣,并得到了实业界的支持。 2 机器翻译的产生与发展 美国和英国的学术界对机器翻译产生了浓厚的兴趣,并得到了实业界的支持。 1954年 Georgetown 大学在 IBM 协助下,用IBM-701计算机实现了世界上第一个 MT 系统,实现俄译英翻译,1954年1月该系统在纽约公开演示。系统只有250条俄语词汇,6 条语法规则,可以翻译简单的俄语句子。 随后10 多年里,MT研究在国际上出现热潮。 June 20, 2003

2 机器翻译的产生与发展 1964年,美国科学院成立语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC),调查机器翻译的研究情况,并于1966年11月公布了一个题为“语言与机器”的报告,简称 ALPAC 报告,宣称:“在目前给机器翻译以大力支持还没有多少理由”,“机器翻译遇到了难以克服的语义障碍 (semantic barrier)”。从此,机器翻译研究在世界范围内进入低迷状态。 June 20, 2003

2 机器翻译的产生与发展 1970 ~1976年,法国、日本、加拿大等国,仍坚持机器翻译研究,而且,在这一阶段语法与算法分开,机器翻译研究开始复苏。代表系统:法国 GETA, IMAG-CLIPS 开发的 ARIANE-78 系统。 June 20, 2003

2 机器翻译的产生与发展 1976~至今,繁荣时期: 加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用机器翻译系统 TAUM-METEO,用于天气预报翻译。每小时可以翻译6 ~ 30万个词;每天翻译1500-2000篇天气预报资料,并通过电视、报纸等立即公布 1978年欧共体启动多语言机器翻译计划 June 20, 2003

2 机器翻译的产生与发展 1982 ~ 1986,日本在提出第五代机的同时,研究日英双向机器翻译系统 Mu 和亚洲多语言机器翻译(日语、汉语、印尼语、马来西亚语、泰国语) 1990年,IBM 提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期 June 20, 2003

2 机器翻译的产生与发展 概括为三个阶段: 1954 ~ 1970 (ALPAC):草创时期; 1970 ~ 1976:复苏阶段; 2 机器翻译的产生与发展 概括为三个阶段: 1954 ~ 1970 (ALPAC):草创时期; 1970 ~ 1976:复苏阶段; 1976 ~ 现在:繁荣时期。 June 20, 2003

3 机器翻译的困难 June 20, 2003

3 机器翻译的困难 自然语言中普遍存在的歧义和未知现象 机器翻译不仅仅是字符串的转换 机器翻译的解不唯一,而且始终存在的人为的标准 3 机器翻译的困难 自然语言中普遍存在的歧义和未知现象 句法结构歧义/词汇歧义/语用歧义 … 新的词汇、术语、结构、语义 … 机器翻译不仅仅是字符串的转换 不同语言之间文化的差异 现有方法无法表示和利用世界知识和常识 机器翻译的解不唯一,而且始终存在的人为的标准 June 20, 2003

几乎自然语言处理中的所有问题在机器翻译中都会遇到。 3 机器翻译的困难 自然语言中普遍存在的歧义和未知现象 句法结构歧义/词汇歧义/语用歧义 … 新的词汇、术语、结构、语义 … 机器翻译不仅仅是字符串的转换 不同语言之间文化的差异 现有方法无法表示和利用世界知识和常识 机器翻译的解不唯一,而且始终存在的人为的标准 几乎自然语言处理中的所有问题在机器翻译中都会遇到。 June 20, 2003

? 3 机器翻译的困难 困难之一:大量歧义(ambiguity)现象 词法歧义 3 机器翻译的困难 困难之一:大量歧义(ambiguity)现象 词法歧义 例如: (1) I’ll see Prof. Zhang home. (2) 自动化研究所取得的成就。 自动化/研究所/取得/的/成就/。 自动化/研究/所/取得/的/成就/。 ? June 20, 2003

3 机器翻译的困难 ? (3) 门把手弄坏了。 门/ 把/ 手/ 弄/ 坏/ 了/ 。 门把手/ 弄/ 坏/ 了/ 。 3 机器翻译的困难 (3) 门把手弄坏了。 门/ 把/ 手/ 弄/ 坏/ 了/ 。 门把手/ 弄/ 坏/ 了/ 。 ? (4) 打扫平板罚款10元。 打[扫平板]罚款10元。 June 20, 2003

3 机器翻译的困难 其他实例: (1) 上大学子烛光追思钱伟长 3 机器翻译的困难 其他实例: (1) 上大学子烛光追思钱伟长 (新浪网:http://www.sina.com.cn/, 2010.8.8) (2)“动物保护警察”明年上岗 (《环球时报》2010年9月25日,第10版) (3) 教育部长跑活动负责人与商家总经理被曝系师生 (科学网: http://news.sciencenet.cn/htmlnews/2010/11/240147.shtm,2010-11-14) June 20, 2003

3 机器翻译的困难 结构歧义 (1) 喜欢乡下的孩子。 (2) 关于鲁迅的文章。 (3) 今天中午吃馒头。 (4) 今天中午吃食堂。 3 机器翻译的困难 结构歧义 (1) 喜欢乡下的孩子。 (2) 关于鲁迅的文章。 (3) 今天中午吃馒头。 (4) 今天中午吃食堂。 (5) 今天中午吃大碗。 (6) 今天中午吃了闭门羹。 June 20, 2003

3 机器翻译的困难 (7) 这座碑是为纪念反对共产主义者叛乱中牺牲的英雄而建立的。  … 反对[共产主义者叛乱] … 3 机器翻译的困难 (7) 这座碑是为纪念反对共产主义者叛乱中牺牲的英雄而建立的。  … 反对[共产主义者叛乱] …  … [反对共产主义者]叛乱 … June 20, 2003

3 机器翻译的困难 (8) Who has seen John? (9) Who has John seen? 3 机器翻译的困难 (8) Who has seen John? (9) Who has John seen? 主语 宾语 (10) I saw a man with a telescope.  I saw [a man with a telescope]. I [saw a man] with a telescope. June 20, 2003  I saw a man with a telescope in the park. ?

3 机器翻译的困难 我们将歧义组合数称为凯塔兰数(Catalan Numbers), 记作 Cn: 其中: n 为句子中介词短语的个数。 3 机器翻译的困难 我们将歧义组合数称为凯塔兰数(Catalan Numbers), 记作 Cn: 其中: June 20, 2003 n 为句子中介词短语的个数。

3 机器翻译的困难 语义歧义 他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。 -《生活报》1994. 11. 13. 第六版 June 20, 2003

3 机器翻译的困难 困难之二:大量未知语言现象 新词、人名、地名、术语等,如: 裸退、蜗居、 夏天、高山、温馨、不来梅、非典、甲流 新含义 3 机器翻译的困难 困难之二:大量未知语言现象 新词、人名、地名、术语等,如: 裸退、蜗居、 夏天、高山、温馨、不来梅、非典、甲流 新含义 如:窗口、奔腾、农民、同志、小姐,楼歪歪等 新用法和新句型等,尤其在口语中或部分网络语 言中,不断出现一些“非规范的”新的语句结构。 如:被长工资,很中国 布莱尔 June 20, 2003

3 机器翻译的困难 奇怪的翻译: (1)馒头: steamed bread Mantou (2)夫妻肺片: 3 机器翻译的困难 奇怪的翻译: (1)馒头: steamed bread Mantou (2)夫妻肺片: Husband and wife’s lung slices Fuqifeipian (3)童子鸡: Boy chicken without sexual life Young lad chicken spring chicken

3 机器翻译的困难 We do chicken right. …… 几十种翻译! (1) 我们做鸡是对的。 (2) 我们做鸡正点耶。 3 机器翻译的困难 We do chicken right. (1) 我们做鸡是对的。 (2) 我们做鸡正点耶。 (3) 我们就是做鸡的。 (4) 我们有做鸡的权利。 (5) 我们只做鸡的右边。 (6) 我们可以做鸡,对吧! (7) 我们行使了鸡的权利。 (8) 我们只做右边的鸡。 (9) 我们主张鸡权。 (10)我们公正地做鸡! (11) 我们要把鸡打成右派。 (12) 我们做鸡肉权利。 (13) 我们还是做鸡好。 (14) 我们用正确的方法炸鸡。 (15) 我们做鸡有理! (16) 我们让鸡向右看齐. (17) 我们肯定是鸡,对! (18) 我们做的鸡才是正宗。 …… 几十种翻译!  June 20, 2003

4 机器翻译研究现状

4 机器翻译研究现状 若干翻译系统已实用化或接近实用化 仍面临若干问题 4 机器翻译研究现状 若干翻译系统已实用化或接近实用化 Systran (http://www.systransoft.com) TAUM-METEO / Google translator 华建翻译系统/ 有道翻译系统/金山词霸 等 仍面临若干问题 理论模型与方法 实现技术问题 用户认识问题

4 机器翻译研究现状 应尽快消除对机器翻译的误解 让机器翻译系统翻译诗歌、散文和小说等高难度文艺作品是不现实的,也是不可能的。

4 机器翻译研究现状 黛玉自在枕上感念宝钗……又听见窗外竹梢焦叶之上,雨声淅沥,消寒透幕,不觉又滴下泪来。 (《红楼梦》第45回 ) 4 机器翻译研究现状 黛玉自在枕上感念宝钗……又听见窗外竹梢焦叶之上,雨声淅沥,消寒透幕,不觉又滴下泪来。 (《红楼梦》第45回 ) As she lay there alone, Dai-Yu’s thoughts turned to Bao-chai …Then she listened to the insistent rustle of the rain on the bamboos and plantains outside her window. The coldness penetrated the curtains of her bed. Almost without noticing it she bad begun to cry. - 文学翻译家 David Hawkes 摘自冯志伟著《机器翻译研究》, 2004

4 机器翻译研究现状 Google翻译系统 (http://translate.google.com/#en|zh-CN|) The departments should conduct strict payment-related inspections to ensure migrant workers pay is not delayed, said Yin Weimin, the Minister of Human Resources and Social Security. (http://www.chinadaily.com.cn/china/2010-12/14/content_11698022.htm) 各部门要进行严格的支付相关的检查,以确保民工工 资不拖延,尹蔚民说,人力资源和社会保障部部长。

4 机器翻译研究现状 SYSTRAN 系统的实际水平 (http://www.systransoft.com/index.html) 4 机器翻译研究现状 SYSTRAN 系统的实际水平 (http://www.systransoft.com/index.html) The departments should conduct strict payment-related inspections to ensure migrant workers pay is not delayed, said Yin Weimin, the Minister of Human Resources and Social Security. (http://www.chinadaily.com.cn/china/2010-12/14/content_11698022.htm) 部门应该进行严密的付款关连的检查保证民工薪水没 有被延迟,没有说Yin Weimin,人力资源和社会保 险的大臣。

4 机器翻译研究现状 有道(Youdao)翻译系统 4 机器翻译研究现状 有道(Youdao)翻译系统 (http://fanyi.youdao.com/) The departments should conduct strict payment-related inspections to ensure migrant workers pay is not delayed, said Yin Weimin, the Minister of Human Resources and Social Security. (http://www.chinadaily.com.cn/china/2010-12/14/content_11698022.htm) 该部门进行严格payment-related检查,以确保农民工工 资不是推迟,说阴副部长人力资源和社会保障制度。

4 机器翻译研究现状 基本观点 在机器翻译研究中实现人机共生(man-machine symbiosis), 人机互助比追求完全自动的高质量的翻译 (Full Automatic High Quality Translation, FAHQT) 更现 实、更切合实际[Hutchins, 1995]。 我们需要的是计算机帮助人类完成某些翻译工作, 而不是完全替代人,人与机器翻译系统之间应该是 互补的关系,而不是相互竞争[Hutchins, 2001]. June 20, 2003

4 机器翻译研究现状 机器翻译研究在过去的五十多年曲折发展经历中,无论是它给人们带来的希望还是失望我们都必须客观地看到,机器翻译作为一个科学问题在被学术界不断深入研究的同时,企业家们已经从市场上获得了相应的利润。 机器翻译还不成熟(in state-of-the-art),需要的是人与系统的配合,而不是有意为难,辅助机器翻译可以大大减轻人的负担。 “信、达、雅”是人类翻译追求的目标,计算机在这方面永远都不会替代人。 June 20, 2003

5 基本翻译方法 June 20, 2003

5 基本翻译方法 直接转换法 基于规则的翻译方法 基于中间语言的翻译方法 基于语料库的翻译方法 - 基于事例的翻译方法 - 统计翻译方法 5 基本翻译方法 直接转换法 基于规则的翻译方法 基于中间语言的翻译方法 基于语料库的翻译方法 - 基于事例的翻译方法 - 统计翻译方法 June 20, 2003

5 基本翻译方法 直接转换法 从源语言句子的表层出发,将单词、短语或句子直接置换成目标语言译文,必要时进行简单的词序调整。对原文句子的分析仅满足于特定译文生成的需要。这类翻译系统一般针对某一个特定的语言对,将分析与生成、语言数据、文法和规则与程序等都融合在一起。例如: I like Mary.  Me(I) gusta(like) Maria(Mary). X like Y  Y X gusta June 20, 2003

5 基本翻译方法 基于规则的翻译方法(Rule-based) 5 基本翻译方法 基于规则的翻译方法(Rule-based) 1957年美国学者V. Yingve在《句法翻译框架》(Framework for Syntactic Translation) 一文中提出了对源语言和目标语言均进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想,这就是基于规则的翻译方法。 June 20, 2003

5 基本翻译方法 基于规则的翻译过程分成六个步骤: (a) 对源语言句子进行词法分析 (b) 对源语言句子进行句法/语义分析 5 基本翻译方法 基于规则的翻译过程分成六个步骤: (a) 对源语言句子进行词法分析 (b) 对源语言句子进行句法/语义分析 (c) 源语言句子结构到译文结构的转换 (d) 译文句法结构生成 (e) 源语言词汇到译文词汇的转换 (f ) 译文词法选择与生成 June 20, 2003

5 基本翻译方法 给定源语言句子:There is a book on the desk. 词法分析: 利用句法规则进行句法结构分析: S 5 基本翻译方法 给定源语言句子:There is a book on the desk. 词法分析: There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc 利用句法规则进行句法结构分析: VP NP NP Ad Vbe Det N P Det N Puc CS PP CS S June 20, 2003

5 基本翻译方法 S 利用转换规则将源语言句子结构转换成目标语言句子结构 CS CS PP VP NP NP 5 基本翻译方法 VP NP NP Ad Vbe Det N P Det N Puc CS PP CS S 利用转换规则将源语言句子结构转换成目标语言句子结构 PP NP VP NP Puc June 20, 2003

5 基本翻译方法 S 利用转换规则将源语言句子结构转换成目标语言句子结构 CS CS PP VP NP NP 5 基本翻译方法 VP NP NP Ad Vbe Det N P Det N Puc CS PP CS S 利用转换规则将源语言句子结构转换成目标语言句子结构 PP NP VP NP Puc June 20, 2003

5 基本翻译方法 S 利用转换规则将源语言句子结构转换成目标语言句子结构 CS CS PP VP NP NP 5 基本翻译方法 VP NP NP Ad Vbe Det N P Det N Puc CS PP CS S 利用转换规则将源语言句子结构转换成目标语言句子结构 PP NP VP NP Puc June 20, 2003

5 基本翻译方法 S 利用转换规则将源语言句子结构转换成目标语言句子结构 CS CS PP VP NP NP 5 基本翻译方法 VP NP NP Ad Vbe Det N P Det N Puc CS PP CS S 利用转换规则将源语言句子结构转换成目标语言句子结构 PP NP VP NP Puc June 20, 2003 PP CS CS S

5 基本翻译方法 将源语言词汇翻译成目标语言词汇 译文词法处理和目标语言句子生成: 在桌子上有一本书。 June 20, 2003

5 基本翻译方法 由于基于规则的翻译方法执行过程为: “独立分析-独立生成-相关转换” 因此,又称基于转换的翻译方法。 5 基本翻译方法 由于基于规则的翻译方法执行过程为: “独立分析-独立生成-相关转换” 因此,又称基于转换的翻译方法。 其代表系统是法国格勒诺布尔(Grenoble)机器翻译研究所(GETA)开发的ARIANE翻译系统。 1976年加拿大蒙特利尔大学与加拿大联邦翻译局联合开发的实用性机器翻译系统 TAU-METEO:天气预报信息服务。 June 20, 2003

5 基本翻译方法 对基于规则的翻译方法的评价: 5 基本翻译方法 对基于规则的翻译方法的评价: 优点:可以较好地保持原文的结构,产生的译文结构与源文的结构关系密切,尤其对于语言现象已知的或句法结构规范的源语言语句具有较强的处理能力和较好的翻译效果。 弱点:规则一般由人工编写,工作量大,主观性强,一致性难以保障,不利于系统扩充,对非规范语言现象缺乏相应的处理能力。 June 20, 2003

5 基本翻译方法 基于中间语言的翻译方法 (Interlingua-based)  方法:输入语句中间语言 翻译结果 5 基本翻译方法 基于中间语言的翻译方法 (Interlingua-based)  方法:输入语句中间语言 翻译结果  代表系统:JANUS (CMU) 早期版本  源语言解析器  比较准确的中间语言(Interlingua)  目标语言生成器 (Target Language Generator)

5 基本翻译方法 关于中间语言的定义 国际先进语音翻译研究联盟(C-STAR)定义的中间转换格式 (Interchange Format, IF) 日本东京联合国大学(United Nations University) 提出的通用网络语言(Universal Networking Language, UNL)

5 基本翻译方法 对基于中间语言的翻译方法评价: 优点:中间语言的设计可以不考虑具体的翻译语言对,因此,该方法尤其适合多语言之间的互译。 5 基本翻译方法 对基于中间语言的翻译方法评价: 优点:中间语言的设计可以不考虑具体的翻译语言对,因此,该方法尤其适合多语言之间的互译。 弱点:如何定义和设计中间语言的表达方式,以及如何维护并不是一件容易的事情,中间语言在语义表达的准确性、完整性等很多方面,都面临若干困难。

5 基本翻译方法 基于事例(实例)的翻译方法 (Example-based) 1984年由日本学者长尾真提出。 5 基本翻译方法 基于事例(实例)的翻译方法 (Example-based) 1984年由日本学者长尾真提出。 1936年出生,1959年毕业于京都大学工学系电子工学专业,1961年京都大学研究生院硕士课程毕业,1966年从京都大学获得工学博士称号,1973年担任京都大学教授,1997年担任京都大学校长,2004年担任信息通信研究机构(NICT)理事长,2007年4月开始担任日本国立国会图书馆馆长。研究开发的业绩涉及自然语言处理、图像处理、信息工学、智能信息学等多个领域。2003年获得ACL终生成就奖。

5 基本翻译方法  方法:输入语句与事例相似度比较 翻译结果  资源:大规模事例库 5 基本翻译方法  方法:输入语句与事例相似度比较 翻译结果  资源:大规模事例库  代表系统:ATR-MATRIX (ATR, Japan)

5 基本翻译方法 对基于实例的翻译方法评价: 优点:不要求源语言句子必须符合语法规定,翻译机制一般不需要对源语言句子做深入分析。 5 基本翻译方法 对基于实例的翻译方法评价: 优点:不要求源语言句子必须符合语法规定,翻译机制一般不需要对源语言句子做深入分析。 弱点:两个不同的句子之间的相似性(包括结构相似性和语义相似性)往往难以把握,尤其在口语中,句子结构一般比较松散,成分冗余和成分省略都较严重,这更增加了分析句子与事例句子的比较难度。另外,系统往往难以处理事例库中没有记录的陌生的语言现象,而且当事例库达到一定规模时,其事例检索的效率较低。

5 基本翻译方法 其它翻译方法 基于记忆的(memory-based)翻译方法 基于神经网络(neural network)的翻译方法 5 基本翻译方法 其它翻译方法 基于记忆的(memory-based)翻译方法 基于神经网络(neural network)的翻译方法 统计翻译方法(statistical method) 基于多引擎的翻译方法(multi-engine)

5 基本翻译方法 中间语言 源语言 目标语言 直接翻译方法 源语言分析 句法转换方法 目标语言生成 语义转换

小结 机器翻译的产生与发展 机器翻译研究现状 机器翻译基本方法 直接转换法 基于规则的翻译方法 基于中间语言的翻译方法 基于事例的翻译方法 June 20, 2003

Thanks 谢谢!