宁 伟 季 铎 蔡东风 报告人:宁 伟 沈阳航空工业学院 知识工程中心 基于SVM的无参考译文 的译文质量评测 宁 伟 季 铎 蔡东风 报告人:宁 伟 沈阳航空工业学院 知识工程中心
主要内容 问题的提出 本文的方法 实验及实验结果分析 结论
问题的提出 翻译的发展 评测的重要性 评测的定义 (O,U ) —> V O 是对象的集合 EAGLES(Expert Advisory Group on Language Engineering Standards) (O,U ) —> V O 是对象的集合 U 是用户的集合 V 是值的集合 语言工程标准专家顾问组——由欧盟的语言工程协会(Language Engineering)发起的、有众多企业 和学术团体参与的标准化组织。这些组织为了一个共同的目标而共同的努力,那 就是制定语言工程方面的国际规范并提供相关的咨询与服务。EAGLES的组成包 含三个部分:一个管理委员会、5个下作组、一个中央支持团队。 机器翻译评价的意义在于通过评 估机器翻译的性能和发展水平,及时发现机器翻译系统研究和开发中存在的问 题,明确努力目标,找到解决办法,为现有机译系统的改进提供方向,不断提高 机译系统的译文质量。即是说,把评测作为一种手段,及时检测机译系统的质量, 引导机译系统研发人员对系统做进一步的研究和开发,使系统得以不断完善,最 终达到实用化的目标。同时,客观公正的机译系统评价不仅可以为开发新型机译 客观公正的机译系统评价不仅可以为开发新型机译 -1-北京工业大学工学硕士学位论文 系统的技术路线的选择提供决策依据,还可以引导用户恰当选择合适的机译系 统,促进机译系统发挥社会效益和经济效益。
评测的实现手段 人工评测 自动评测
人工评测指标 人工评测特点 流畅度 忠实度 正确性 准确可信 周期长、成本高、不可复用、主观性强 我们分别将可懂度与忠实度划分为五个等级,其中忠实度的等级为: 1.译文忠实地反映原文的内容,几乎没有任何出入; 2.译文忠实地反映原文的内容,文章通顺易懂,少数地方需稍加修正; 3.基本上忠实地译出原文,但出现词序不当、词义选择不准确、时态处理不 当、短语间关系、名词单复数及状语位置等错误,需要译后编辑作细致的加工; 4.部分忠实地译出原文,出现部分原文没有翻译、原文结构不能译出、许多 介词处理错短语结构和从句判断错误、内容丢失等现象; 5.译文基本不能反映原文的内容,很多地方未能译出,或即使有完整或较为 完整的翻译,但绝大部分译文不知所云,几乎不能构成完整的句子。
自动评测 给定参考译文(标准答案),通过比较待测译文和参考译文的相似程度判断; 相对于人工评测,自动评测最大的特点就是效率高,可复用,可以统一标准; 准确性差,可信度小; 需要参考译文。
评测的目的和要求 本文出发点 精确评测打分,并指出错误点; 定性的评价译文好坏。 对译文进行定性的评测而非精确的质量评价; 对象—机器辅助翻译的结果; 采用机器学习的方法。
SVM(Support Vector Machine) Vapnik 于 1995年提出的支持向量机以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法。 目标:找到一个超平面,使得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数据点距离分类面最远。 8
SVM 是从线性可分情况下的最优分类面发展而来的, 基本思想可用下图的两维情况说明。 图中, 方形点和圆形点代表两类样本, H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线, 它们之间的距离叫做分类间隔(margin)。 所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。 推广到高维空间,最优分类线就变为最优分类面。 9
SVM特点 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射; 10
由于SVM 的求解最后转化成二次规划问题的求解,因此SVM 的解是全局唯一的最优解 11
本文方法 借鉴人工打分的方法 对句子按照错误类型进行分类 不同的错误类型给定不同的扣分权重
实验 流程 语料处理-错误标记的处理 特征选择 训练SVM分类器 打分
训练语料 “The <FONT color=#ff00ff>practical new-type invention </FONT> discloses a <STRIKE> kind of </STRIKE>digital channel …… the device includes …… , <FONT color=#009900> and</FONT> on both ends of the pulse generator, the power supply is linked, and <FONT color=#0000ff>the pulse signal that is produced </FONT>by the <FONT color=#ff0000>脉冲</FONT> generator is under the control of the controller, by the pulse transformer, it gets the faradic electricity pulse; after dressing by the wave, it is contributed to the pulse output electrode.</FONT>”。
错误类型 多词错误 少词错误 非翻译规范错误 表达不够流畅 语法错误
特征选择 浅层词法特征 词、词性 N-Gram 错误词性模板 句子perplexity 低概率及未出现Trigram 从带错误标记的语料中抽取一个错误词性模板库 These carts run on <FONT color=#009900> the</FONT> stair sections……. DT NNS VB IN NN NNS……. IN DT NN ADD
深层句法特征 浅层句子模板 短语模板 错误句法模板 句法树第一层 NP VP PP 模板库 错误标记所在的根节点的孩子节点 S NP VP DT NNS VB PP these carts run IN NP … on NP NN NNS stair sections
例如: These carts run on <FONT color=#009900> the</FONT> stair sections…… S NP VP DT NNS VB PP 浅层句子模板:S->NP+VP 短语模板模板:NP->DT+NNS PP->IN+NP…… 错误词性模板:IN DT NN ADD 错误句法模板:PP->IN+NN+NNS these carts run IN NP on NP … NN NNS stair sections
实验语料 语料-专利摘要 训练语料 8,000篇质量好的译文 5,000篇质量较差的译文 测试语料 1000篇
实验结果 浅层词法特征 WORD&POS ※ N-Gram ERR_POS_TEM 深层句法 特征 SHALLOW_SEN_TEM PH_TEM ERR_TEM 正确率(%) 49.7 54.8 58.3 57.5 59.6 61.5 召回率(%) 54.9 58.6 59.4 56.8 60.1 63.2 F值(%) 52.1 57.2 58.8 57.1 59.8 62.3
译文定性评测 语言模型 SVM
实验分析 从实验结果可以看出,本文的评测方法可以在一定程度上反映译文的质量,并且和人工评测结果有一定的相关性,但是其正确率还不是很理想,分析原因包括以下几点: 在特征选取时,本文仅根据频率对模板进行cutoff,可能会丢失一些重要特征; 译文中存在的错误对句法分析结果有一定的影响; 语料规模的限制,数据稀疏现象还比较严重; 训练语料是人工标注的,虽然本文在实验中已经对标记进行了预处理,但是仍然存在着一些不规范的标记。
结论与展望 译文质量自动评测需要从流畅度、正确性和忠实度三个方面综合考虑,涉及语法知识和语义知识,是一个很有研究意义但解决难度较大的研究课题。本文在无参考译文的情况下,采用机器学习的方法对译文质量进行评测,实验中采用翻译公司审校过的译文做训练和测试语料,并且错误是由专门的审校人员手工标注的,语料具有很高的可信性和说明性,实验结果表明该方法和人工评测结果有一定的相关性。 但本文的实验结果还不是很理想,下一步打算从语料的规模以及语料错误标记的规范化处理方面进行改进,而且如何降低句法分析错误对特征选取的影响也是需要考虑的。
Thank you ningw@gmail.com