统计机器翻译简介 刘群 liuqun@ict.ac.cn 2002-12-6.

Slides:



Advertisements
Similar presentations
1. 甚麼是人工智能 ? 甚麼是人工智能 ? 2. 強人工智能 - 弱人工智能 強人工智能 - 弱人工智能 3. 實現人工智能的必要條件 實現人工智能的必要條件 4. 人工智能的例子 人工智能的例子 5. 虛擬真實 虛擬真實 6. 感想 感想.
Advertisements

机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
1 第一章:绪论 什么是信源编码? 为什么要信源编码 / 数据压缩? 为什么可以信源编码 / 数据压缩? 怎样进行信源编码?
命题探究 从地形、气候、自然资源、自然灾害等地理要 素对农业、工业、交通运输和聚落的影响方面正确 认识人地关系,以谋求人类与自然环境和谐发展 第四章 自然环境对人类活动的影响 考纲解读 1. 地表形态对聚落及交通线路分布的影响 2. 全球气候变化对人类活动的影响 3. 自然资源对人类生存与发展的意义.
德 国 鼓 励 生 育 的 宣 传 画.
古典風華,現代視野 人文薈萃,桃李成蹊 招生說明 (參考簡報) 台師大教務處提供.
Tianwei Xie California State University, Long Beach
提纲 主要参考书目 AI的基础及萌芽 AI的创立及发展 AI的主要研究范围 国外著名的AI研究机构 AI在中国 AI的最新动态
壹、緣起 在「夢想大作戰」的主題裡,主要分為「個人挑戰」與「小組挑戰」兩個部份,當個人挑戰陸續完成後,緊接著進入小組挑戰的階段。
北師附小第十六屆(1961) 五十周年校友會 中華民國一百年十月二十二日.
P2P金融信用调查服务 2015年4月 诚信为先 中道厚德.
一、信息加工概述 1、信息技术是指与信息的获取、加工、表达、交流、管理、评价相关的技术。 2、信息加工的重要性: 原始信息 加工的信息
姚天顺 自然语言处理实验室 东北大学 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学
自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.
氧气的制法 装置 原理 练习 随堂检测.
南美洲 吉林省延吉一高中 韩贵新.
個人簡介 施再繁 台大電機所計算機組博士.
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
SEM實務性的應用- 中介與干擾效果的驗證
科研意识与论文的撰写 我能写论文吗?! 温州大学 罗晓杰.
新时期下的财政票据管理 省非税局票据管理处 陈奕晶.
翻譯、機器翻譯的重要性 歷史上 - 翻譯是文化與文化的對話 希臘羅馬典籍的翻譯(文藝復興時期) 印度佛經的漢譯與和譯(理學的興起)
遊戲機制設計 遊戲設計文件( GDD ) 塞德克歐北來.
基于实体约束的纳西-汉语双语词语 对齐方法
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
如何备考?.
时政发布 制作:宋虹雷.
八桥初中九年级思想品德课复习导学案之五---
初中数学七年级上册 (苏科版) 2.3 绝对值与相反数(1).
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
虚拟机实时迁移技术 (Live Migration)
Some Effective Techniques for Naive Bayes Text Classification
马云 的 人力资源管理思想 聂锟 博士、副教授 19 September 2018.
编译原理(H) 第一次习题课.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
机器翻译前沿动态 张家俊 中国科学院自动化研究所
姓名:何康綸 學號:M 指導教授:楊朝平 博士
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
論文的基本格式 一、論文前列資料 二、論文主體 三、參考資料.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
資料查詢與資料庫檢索 圖書館推廣服務組 校內分機 /04/09 1.
如何寫工程計畫書 臺北市童軍會考驗委員會 高級考驗營 版.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
中科院自动化所评测技术报告(SYSTEM II)
学习报告 —语音转换(voice conversion)
2015年北京科技大学英语演讲比赛 复赛 决赛 即兴演讲 报名及初赛 现场提问 录制演讲音频并上传至赛事邮箱。 30人左右晋级 定题演讲
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
开题报告: 一种基于文本蕴含的选择题问题求解方法
The First Course in Speech Lab
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
Answering aggregation question over knowledge base
暑期活动见闻 程龚.
Chapter 8 Model Inference and Averaging
電子白板百萬小學堂 本活動建議搭配電子白板 學生最多可分成2~6組(請按組別按鈕) 老師可以視時間多少,來進行活動 每一組要回答十個問題。
TAA-NJ Annual Report January December 2016
An Quick Introduction to R and its Application for Bioinformatics
隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群
高效洁净机械制造实验室是 2009 年教育部批准立项建设的重点实验室。实验室秉承“突出特色、创新发展“的宗旨,以求真务实的态度认真做好各项工作。 实验室主任为黄传真教授,实验室副主任为刘战强教授和李方义教授。学术委员会主任为中国工程院院士卢秉恒教授。实验室固定人员中,有中国工程院院士艾兴教授,教育部.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
高级大数据人才培养丛书之一,大数据挖掘技术与应用
Non-Projective Parsing for Statistical Machine Translation
104 四技二專甄選入學 簡章解析 輔導室 何乙娟.
Gaussian Process Ruohua Shi Meeting
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Some discussions on Entity Identification
Presentation transcript:

统计机器翻译简介 刘群 liuqun@ict.ac.cn 2002-12-6

统计机器翻译方法的特点 利用语料库作为知识来源 建立完整的统计模型 区别于规则方法: 无需人工编写规则 区别于实例方法或模板方法: 必须为整个翻译过程建立统计模型 2002-12-6

统计机器翻译的分类 基于平行概率语法的统计机器翻译模型 基于信源信道思想的统计机器翻译模型 基于最大熵的统计机器翻译模型 IBM的Peter Brown等人首先提出 目前影响最大 几乎成为统计机器翻译的同义词 基于最大熵的统计机器翻译模型 源于基于特征的自然语言理解 Och提出,获ACL2002最佳论文 2002-12-6

统计机器翻译的优缺点 优点 缺点 无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源) 系统开发周期短; 鲁棒性好; 译文质量好; 缺点 时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。 2002-12-6

基于平行概率语法的统计机器翻译模型 基本思想 主要模型 两种语言建立一套平行的语法规则, 句法分析的过程决定了生成的过程 规则一一对应 两套规则服从同样的概率分布 句法分析的过程决定了生成的过程 主要模型 Alshawi的基于Head Transducer的MT模型 吴德恺的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT 2002-12-6

Head Transducer MT (1) Head Transducer(中心词转录机)是一种Definite State Automata(有限状态自动机) 与一般的有限状态识别器的区别: 每一条边上不仅有输入,而且有输出; 不是从左至右输入,而是从中心词往两边输入 2002-12-6

Head Transducer MT(2) 例子:一个可以将任何{a,b} 组成的串倒置的Head Transducer a:a -1:+1 0:0 b:b 0:0 b:b -1:+1 2002-12-6

Head Transducer MT(3) 所有的语言知识(词典、规则)都表现为Head Transducer; Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果; 纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记; Chart句法分析器。 2002-12-6

Inversion Transduction Grammar(1) 比赛星期三开始。 The game will start on Wednesday。 2002-12-6

Inversion Transduction Grammar(2) 规则形式: A → [ B C ] A → < B C > A → x/y 产生源语言和目标语言串分别为: BC BC:词序相同 BC CB:词序交换 x y:词典 2002-12-6

Pattern-based CFG for MT (1) 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成; 举例: S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old 2002-12-6

Pattern-based CFG for MT (2) 中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词; 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。 2002-12-6

信源-信道模型 S P(S) P(T|S) T 假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T 还原成S,这也就是就是一个解码的过程。 注意,源语言S是噪声信道的输入语言,目标语言T是噪声信道的输出语言,与整个机器翻译系统的源语言和目标语言刚好相反。 2002-12-6

统计机器翻译基本方程式 P.Brown称上式为统计机器翻译基本方程式 语言模型反映“ S 像一个句子”的程度:流利度 语言模型:P(S) 翻译模型:P(T|S) 语言模型反映“ S 像一个句子”的程度:流利度 翻译模型反映“T像S”的程度:忠实度 联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。 2002-12-6

语言模型与翻译模型 考虑汉语动词“打”的翻译:有几十种对应的英语词译文: 如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型 打人,打饭,打鱼,打毛衣,打猎,打草稿,…… 如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型 如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果: 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 语言模型:根据单词之间的同现选择最好的译文词 2002-12-6

统计机器翻译的三个问题 三个问题: 语言模型P(S)的参数估计 翻译模型P(T|S)的参数估计 解码(搜索)算法 2002-12-6

语言模型 把一种语言理解成是产生一个句子的随机事件 语言模型反映的是一个句子在一种语言中出现的概率 语言模型 N元语法 P(S)=p(s0)*p(s1|s0)*…*p(Sn|Sn-1…Sn-N) 链语法:可以处理长距离依赖 PCFG(要使用句法标记) 2002-12-6

翻译模型与对齐 引入隐含变量:对齐A P(T|S)的计算转化为P(T,A|S)的估计 对齐:建立源语言句子和目标语言句子的词与词之间的对应关系 2002-12-6

IBM Model 对P(T,A|S)的估计 IBM Model 1仅考虑词对词的互译概率 IBM Model 2加入了词的位置变化的概率 2002-12-6

IBM Model 3 对于句子中每一个英语单词e,选择一个产出率φ,其概率为n(φ|e); 对于所有单词的产出率求和得到m-prime; 按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为1的单词,复制两遍产出率为2的单词,依此类推; 在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插入的概率分别为p1和p0; φ0为插入的空单词NULL的个数。 设m为目前的总单词数:m-prime+φ0; 根据概率表t(f|e),将每一个单词e替换为外文单词f; 对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语单词在英语句子中的位置,l是英语串的长度,m是法语串的长度; 如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败; 给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有被占用)。任何一个赋值都被认为是等概率的,概率值为1/φ0。 最后,读出法语串,其概率为上述每一步概率的乘积。 2002-12-6

翻译模型的参数训练 Viterbi Training(对比:EM Training) IBM Model 1:存在全局最优 给定初始参数; 用已有的参数求最好(Viterbi)的对齐; 用得到的对齐重新计算参数; 回到第二步,直到收敛为止。 IBM Model 1:存在全局最优 IBM Model 2~5:不存在全局最优,初始值取上一个模型训练的结果 2002-12-6

统计机器翻译的解码 借鉴语音识别的搜索算法:堆栈搜索 参数空间极大,搜索不能总是保证最优 从错误类型看,只有两种: 模型错误:概率最大的句子不是正确的句子 搜索错误:没有找到概率最大的句子 后一类错误只占总错误数的5%(IBM) 搜索问题不是瓶颈 2002-12-6

IBM公司的Candide系统 1 基于统计的机器翻译方法 分析-转换-生成 分析(预处理): 中间表示是线性的 分析和生成都是可逆的 1.短语切分 2.专名与数词检测 3.大小写与拼写校正 4.形态分析 5.语言的归一化 2002-12-6

IBM公司的Candide系统 2 转换(解码):基于统计的机器翻译 解码分为两个阶段: 第一阶段:使用粗糙模型的堆栈搜索 输出140个评分最高的译文 语言模型:三元语法 翻译模型:EM算法 第二阶段:使用精细模型的扰动搜索 对第一阶段的输出结果先扩充,再重新评分 语言模型:链语法 翻译模型:最大熵方法 2002-12-6

IBM公司的Candide系统 3 ARPA的测试结果 : Fluency Adequacy Time Ratio 1992 1993   Fluency Adequacy Time Ratio 1992 1993 Systran .466 .540 .686 .743 Candide .511 .580 .575 .670 Transman .819 .838 .837 .850 .688 .625 Manual .833 .840 2002-12-6

JHU的1999年夏季研讨班 由来 目的 JHU夏季研讨班大大促进了统计机器翻译的研究 IBM的实验引起了广泛的兴趣 构造一个统计机器翻译工具(EGYPT)并使它对于研究者来说是可用的(免费传播); 在研讨班上用这个工具集构造一个捷克语—英语的机器翻译系统; 进行基准评价:主观和客观; 通过使用形态和句法转录机改进基准测试的结果; 在研讨班最后,在一天之内构造一个新语对的翻译器。 JHU夏季研讨班大大促进了统计机器翻译的研究 2002-12-6

EGYPT工具包 EGYPT的模块 EGYPT可在网上免费下载,成为SMT的基准 GIZA:这个模块用于从双语语料库中抽取统计知识(参数训练) Decoder:解码器,用于执行具体的翻译过程(在信源信道模型中,“翻译”就是“解码”) Cairo:整个翻译系统的可视化界面,用于管理所有的参数、查看双语语料库对齐的过程和翻译模型的解码过程 Whittle:语料库预处理工具 EGYPT可在网上免费下载,成为SMT的基准 2002-12-6

EGYPT工具包的性能 “当解码器的原形系统在研讨班上完成时,我们很高兴并惊异于其速度和性能。1990年代早期在IBM公司举行的DARPA机器翻译评价时,我们曾经预计只有很短(10个词左右)的句子才可以用统计方法进行解码,即使那样,每个句子的解码时间也可能是几个小时。在早期IBM的工作过去将近10年后,摩尔定律、更好的编译器以及更加充足的内存和硬盘空间帮助我们构造了一个能够在几秒钟之内对25个单词的句子进行解码的系统。为了确保成功,我们在搜索中使用了相当严格的阈值和约束,如下所述。但是,解码器相当有效这个事实为这个方向未来的工作预示了很好的前景,并肯定了IBM的工作的初衷,即强调概率模型比效率更重要。” ——引自JHU统计机器翻译研讨班的技术报告 2002-12-6

对IBM方法的改进 IBM方法的问题 后续的改进工作 不考虑结构:能否适用于句法结构差别较大的语言? 数据稀疏问题严重 王野翊的改进 Yamada和Knight的改进 Och等人的改进 2002-12-6

王野翊的改进(1) 背景:德英口语翻译系统 改进:两个层次的对齐模型 语法结构差异较大 数据稀疏(训练数据有限) 粗对齐:短语之间的对齐 细对齐:短语内词的对齐 2002-12-6

王野翊的改进(2) 文法推导 优点 词语聚类:基于互信息的方法 短语归并 规则学习 机器翻译的正确率提高:错误率降低了11% 提高了整个系统的效率:搜索空间更小 缓解了因口语数据缺乏导致的数据稀疏问题 2002-12-6

Yamada和Knight的改进(1) 基于语法的翻译模型(Syntax-based TM) : 翻译的过程: 输入是源语言句法树 输出是目标语言句子 翻译的过程: 每个内部结点的子结点随机地重新排列:排列概率 在每一个结点的左边或右边随机插入一个单词 左、右插入和不插入的概率取决于父结点和当前结点标记 插入哪个词的概率只与被插入词有关,与位置无关  对于每一个叶结点进行翻译:词对词的翻译概率 输出译文句子 2002-12-6

Yamada和Knight的改进(2) 2002-12-6

Yamada和Knight的改进(3) 2002-12-6

Yamada和Knight的改进(4) 2002-12-6

Yamada和Knight的改进(5) 训练 英日词典例句2121对,平均句长日9.7和英6.9 词汇量:英语3463,日语3983,大部分词只出现一次 Brill’s POS Tagger和Collins’ Parser 用中心词词性标记取得短语标记 压扁句法树:中心词相同的句法子树合并 EM训练20遍迭代:IBM Model 5用20遍迭代 2002-12-6

Yamada和Knight的改进(6) 结果 困惑度Perplexity: Our Model:15.70   Alignment ave. score Perfect sents Our Model 0.582 10 IBM Model 5 0.431 困惑度Perplexity: Our Model:15.70 IBM Model:9.84 (Over-fitting) 2002-12-6

Och等人的改进(1) 著名语音翻译系统VerbMobil的一个模块 对IBM方法的改进 基于类的模型:词语自动聚类:各400个类 语言模型:基于类的五元语法,回退法平滑 翻译模型:基于对齐模板的方法 短语层次对齐 词语层次对齐 短语划分:动态规划 2002-12-6

Och等人的改进(2) 对齐模板 2002-12-6

基于最大熵的 统计机器翻译模型(1) Och等人提出,思想来源于Papineni提出的基于特征的自然语言理解方法 不使用信源-信道思想,直接使用统计翻译模型,因此是一种直接翻译模型 是一个比信源-信道模型更具一般性的模型,信源-信道模型是其一个特例 与一般最大熵方法的区别:使用连续量作为特征 2002-12-6

基于最大熵的 统计机器翻译模型(2) 假设e、f是机器翻译的目标语言和源语言句子,h1(e,f), …, hM(e,f)分别是e、f上的M个特征, λ1, …,λM是与这些特征分别对应的M个参数, 那么直接翻译概率可以用以下公式模拟: 2002-12-6

基于最大熵的 统计机器翻译模型(3) 对于给定的f,其最佳译文e可以用以下公式表示: 2002-12-6

基于最大熵的 统计机器翻译模型(4) 取以下特征和参数时等价于信源-信道模型: 仅使用两个特征 h1(e,f)=log p(e) h2(e,f)=log p(f|e) λ1=λ2=1 2002-12-6

基于最大熵的 统计机器翻译模型(5) 参数训练 最优化后验概率准则:区别性训练 这个判断准则是凸的,存在全局最优 考虑多个参考译文: 2002-12-6

基于最大熵的 统计机器翻译模型(6) Och等人的实验(1):方案 首先将信源信道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译系统的性能并没有下降; 调整参数λ1和λ2,系统性能有了较大提高; 再依次引入其他一些特征,系统性能又有了更大的提高。 2002-12-6

基于最大熵的 统计机器翻译模型(7) Och等人的实验(2):其他特征 句子长度特征(WP):对于产生的每一个目标语言单词进行惩罚; 附件的语言模型特征(CLM):一个基于类的语言模型特征; 词典特征(MX):计算给定的输入输出句子中有多少词典中存在的共现词对。 2002-12-6

基于最大熵的 统计机器翻译模型(8) Och等人的实验(2):实验结果 2002-12-6

基于最大熵的 统计机器翻译模型(9) 经典的信源-信道模型只有在理想的情况下才能达到最优,对于简化的语言模型和翻译模型,取不同的参数值实际效果更好; 最大熵方法大大扩充了统计机器翻译的思路; 特征的选择更加灵活。 2002-12-6

统计机器翻译的应用 传统机器翻译的应用领域 跨语言检索 机器翻译系统的快速开发 聂建云使用IBM Model 1进行CLIR 针对未知语言 2002-12-6

总结 IBM当年的工作是有一定超前性的 虽然很多人怀疑统计方法在机器翻译中能否取得成功,但现在这已不再是问题 基于平行语法的机器翻译方法总体上不成功 基于最大熵的方法为统计机器翻译方法开辟了一个新天地 2002-12-6

我的工作设想 采用基于最大熵的统计机器翻译模型; 提出基于模板的统计翻译模型: 其它特征 句法树对齐 抽取翻译模板 基于模板翻译模型 汉语词法分析 汉语句法分析 2002-12-6

参考文献(1) [Al-Onaizan 1999] Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD. [Alshawi 1998] Alshawi, H., Bangalore, S. and Douglas, S. ``Automatic Acquisition of Hierarchical transduction models for machine translation,'' Proc. 36th Conf. Association of Computational Linguistics, Montreal, Canada, 1998. [Berger 1994] Berger, A., P. Brown, S. Della Pietra, V. Della Pietra, J. Gillett, J. Lafferty, R. Mercer, H. Printz, L Ures, The Candide System for Machine Translation, Proceedings of the DARPA Workshop on Human Language Technology (HLT) [Berger 1996] A. L. Berger, S. A. Della Pietra, and V. J. Della Pietra. A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39-72,March 1996. [Brown 1990] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation, Computational Linguistics,1990 2002-12-6

参考文献(2) [Brown 1993] Peter. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer, The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, Vol 19, No.2 ,1993   [Ker 1997] Sue J. Ker, Jason S. Chang, A Class-based Approach to Word Alignment, Computational Linguistics, Vol. 23, No. 2, Page 313-343, 1997 [Knight 1999] Kevin Knight, A Statistical Machine Translation Tutorial Workbook. unpublished, prepared in connection with the JHU summer workshop, August 1999. (available at http://www.clsp.jhu.edu/ws99/projects/mt/wkbk.rtf). [Och 1998] Franz Josef Och and Hans Weber. Improving statistical natural language translation with categories and rules. In Proc. Of the 35th Annual Conf. of the Association for Computational Linguistics and the 17th Int. Conf. on Computational Linguistics, pages 985-989, Montreal, Canada, August 1998. [Och 1999] F. J. Och, C. Tillmann, and H. Ney. Improved alignment models for statistical machine translation. In Proc. of the Joint SIGDAT Conf. On Empirical Methods in Natural Language Processing and Very Large Corpora, pages 20-28, University of Maryland, College Park, MD, June 1999. 2002-12-6

参考文献(3) [Och 2001] Franz Josef Och, Hermann Ney. What Can Machine Translation Learn from Speech Recognition? In: proceedings of MT 2001 Workshop: Towards a Road Map for MT, pp. 26-31, Santiago de Compostela, Spain, September 2001. [Och 2002] Franz Josef Och, Hermann Ney, Discriminative Training and Maximum Entropy Models for Statistical Machine Translation, ACL2002 [Papineni 1997] K. A. Papineni, S. Roukos, and R. T. Ward. 1997. Feature-based language understanding. In European Conf. on Speech Communication and Technology, pages 1435-1438, Rhodes, Greece, September. [Papineni 1998] K. A. Papineni, S. Roukos, and R. T. Ward. 1998. Maximum likelihood and discriminative training of direct translation models. In Proc. Int. Conf. on Acoustics, Speech, and Signal Processing, pages 189-192, Seattle, WA, May. [Takeda 1996] Koichi Takeda, Pattern-Based Context-Free Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 [Wang 1998a] Y. Wang and A. Waibel. Modeling with Structures in Statistical Machine Translation. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics Montreal, Canada. August 1998. 2002-12-6

参考文献(4) [Wang 1998b] Ye-Yi Wang, Grammar Inference and Statistical Machine Translation, Ph.D Thesis, Carnegie Mellon University, 1998 [Wu 1995] Dekai Wu. Stochastic Inversion Transduction Grammars, with Application to Segmentation, Bracketing, and Alignment of Parallel Corpora. 14th Intl. Joint Conf. On Atifical Intelligence, pp1328-1335, Montreal, Aug, 1995. IJCAI-95 [Wu 1997] Dekai Wu, Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora, Computational Linguistics Vol.23 No.3 1997. [Yamada 2001] K. Yamada and K. Knight, A Syntax-Based Statistical Translation Model, in Proc. of the Conference of the Association for Computational Linguistics (ACL), 2001 2002-12-6

谢谢 2002-12-6