熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5 基于多策略的汉藏辅助翻译 的研究与实现 熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
论文的研究工作为以下项目的成果之一,并在项目中使用 基金资助 论文的研究工作为以下项目的成果之一,并在项目中使用 中国科学院西部行动计划资助项目 汉藏辅助翻译系统研发与应用(KGCX2-YW-512)
摘要 选题背景以及研究现状 基于实例与基于短语的翻译方法 融合多策略的汉藏翻译模型 汉藏辅助翻译系统以及相关实验 总结和展望
选题背景及意义 机器翻译研究现状及发展趋势 汉藏翻译研究现状 一、选题背景以及研究现状 选题背景及意义 机器翻译研究现状及发展趋势 汉藏翻译研究现状
选题背景及意义 藏语是我国的少数民族语言之一 汉藏翻译需求不断增长,传统人工翻译方式不能满足 汉藏机器翻译的研究进展相对比较缓慢 年翻译量约为5000多万字 翻译工作效率仅为人均1500-2000汉字左右/天 汉藏机器翻译的研究进展相对比较缓慢 基础资源库 (汉藏平行语料) 藏语信息处理工具(分词工具等) 汉藏辅助翻译研究能提高汉藏翻译人员工作效率 有理论意义更有实用价值
机器翻译的研究现状 机器翻译系统大致分为 基于规则的翻译系统 基于语料库的翻译系统 直接翻译方法 转化翻译方法 中间语言方法 基于实例的翻译方法 基于翻译记忆的翻译方法 基于统计的机器翻译方法
辅助翻译的研究现状 辅助翻译系统及开源软件 国外比较有影响的辅助翻译软件 国内比较有影响的辅助翻译软件 开源辅助翻译软件OmegaT Trados Déjà Vu X Wordfast 国内比较有影响的辅助翻译软件 雅信CAT系统 华健IAT 传神WCAT 开源辅助翻译软件OmegaT
机器翻译的发展趋势 机器翻译研究的发展趋势 辅助翻译研究的发展趋势 基于大规模语料的并行计算 基于句法树的统计机器翻译 基于多策略系统的译文融合 辅助翻译研究的发展趋势 面向应用的辅助翻译技术 翻译技术与翻译过程管理相结合
汉藏翻译的研究现状 汉藏翻译的研究主要集中在基于规则方法上 西藏翻译队伍调查报告 因此,需要构建一套汉藏辅助翻译系统 班智达汉藏公文翻译系统 才藏太等 缺点:规则、限定公文领域 西藏翻译队伍调查报告 9.5%的译者经常使用计算机辅助翻译软件 28.4%的译者偶尔使用 45.9%从未使用 其余16.2%不太了解 因此,需要构建一套汉藏辅助翻译系统
基于句子实例的机器翻译 基于短语的统计机器翻译 二、基于实例与基于短语的翻译方法 基于句子实例的机器翻译 基于短语的统计机器翻译
基于实例的翻译方法(1)-- 流程图
基于实例的翻译方法(2)-- TMX翻译记忆库 是由LISA所属的OSCAR组织开发的用于存储和交换使用计算机辅助翻译和本地化工具创建的译文记忆数据的格式标准。
基于实例的翻译方法(3)-- 句子相似度计算 改进编辑距离公式 句子相似度计算
基于短语的翻译方法(1)-- 流程图
基于短语的翻译方法(2)-- 词语对齐 在平行语料库基础上构建词语对齐步骤: 1)分词处理 中文分词:Standford Chinese-Segmenter 藏文分词:SegTibetan 2)语料预处理 噪音字符 语料句对长度比>阈值 3)词语对齐 开源词语对齐工具 Giza++
基于短语的翻译方法(3)--短语翻译对抽取 在上面词语对齐的平行语料中抽取短语翻译对 短语抽取一致性约束:
基于短语的翻译方法(4)--翻译解码 基于短语的翻译解码: Stack-beam search解码
基于句子实例方法 VS 基于短语方法 优点 缺点 优点 缺点 因此,需要构建一套融合多策略的汉藏辅助翻译系统 便于维护 能取得更优的翻译译文 能够实时利用不断增长的用户翻译实例资源 缺点 句子实例资源利用率低 依赖于实例库规模和相似度,找到和没找到相似度较高的翻译实例,翻译质量波动大 优点 能取得更优的翻译译文 能够利用平行语料库中短语层面的翻译信息 缺点 对于新增的翻译实例资源需要重新训练模型 平行语料库规模较小时翻译质量不高 短语翻译对长度有限制 因此,需要构建一套融合多策略的汉藏辅助翻译系统
问题提出与分析 融合多策略的汉藏翻译模型 Online翻译模型 增量式翻译模型 三、融合多策略的汉藏翻译模型 问题提出与分析 融合多策略的汉藏翻译模型 Online翻译模型 增量式翻译模型
问题的提出与分析 我们的汉藏翻译的研究受限于 基于句子实例与基于短语的翻译各有优缺点 提出一种融合上述两种翻译模型优点的新翻译模型 汉藏平行语料资源规模相对较小(5-20w句对) 汉藏辅助翻译软件实际应用需求 基于句子实例与基于短语的翻译各有优缺点 提出一种融合上述两种翻译模型优点的新翻译模型 充分的挖掘任意长度的短语翻译实例对 实时利用不断增长用户翻译实例资源
融合多策略的汉藏翻译模型 -- 框架图 融合多策略的汉藏翻译模型核心: 1)Online翻译模型 2)增量式的翻译模型
Online翻译模型(1)-- 翻译流程图 传统的基于短语的翻译流程图: 获取翻译候选项是通过查已经计算好的离线翻译table获取的,即查表。
Online翻译模型(2)-- 翻译流程图 Online翻译模型的翻译流程图: 获取翻译候选项是通过在线计算翻译候选项的 即Online。
Online翻译模型(3)-- 核心数据结构 三维的倒排索引: 1)词语序列 2)出现该词语的句子序号序列 3)该词语在句子中的位置序列 目标:实现短语串级别的实例快速检索和匹配
Online翻译模型(4)-- 翻译选项特征 翻译模型特征 正向的短语翻译概率 反向的短语翻译概率 正向的词汇化短语翻译概率 反向的词汇化短语翻译概率 短语长度惩罚exp(1) = 2.718 语言模型特征 语言模型特征PLM(ei|e1…ei-1) SRILM 基于词的语言模型
Online翻译模型(5)-- 子串枚举算法 子串枚举方式: 从左至右,从短到长 Eg: 句子S:f1f2f3….fn 枚举顺序:f1、f1f2、f1f2f3、…、f1f2f3…fn、f2、f2f3、f2f3…fn、… fn
Online翻译模型(6)-- 子串译文获取算法 翻译候选项译文获取算法 利用前面的三维倒排索引以及词语对齐信息获取前面每一个枚举出来的子串对应的译文。
Online翻译模型(6)-- 译文抽取示例图 如果源短语对应的目标短语词语无对齐到源短语外面词语,则抽取该短语翻译对。如果有,则不能抽取该短语翻译对。 如果源短语与目标语言短语内部对齐,旁边的存在对空的词语,则可以抽取。
Online翻译模型(7)-- 翻译解码 对于一个待翻译(汉语)句子f,找到一个目标语言(藏语)的翻译句子e,使得该句子p(e|f)的概率最大,我们使用如下的对数线性模型公式
Online翻译模型(8)-- 翻译解码示例 对于一个待翻译(汉语)句子f,找到一个目标语言(藏语)的翻译句子e,使得该句子p(e|f)的概率最大,我们使用如下的对数线性模型公式
增量式翻译模型(1) 增量式翻译模型的核心 对于用户实时提交的翻译实例资源如何快速在线词语对齐并增量索引到语料中供在线翻译模型获取。 难点:在线词语对齐 目前,词语对齐Giza++是离线的
增量式翻译模型(2)-- 传统离线的词语对齐算法 传统的词语对齐算法Giza++ (离线) 针对一大批平行语料计算词语对齐结果 如果有新的平行语料需要对新的整个语料集合重新计算对齐结果
增量式翻译模型(2)-- 改进的在线词语对齐算法 暂未实现 1)针对一大批平行语料计算词语对齐结果,保存每次迭代的中间结果。 2)如果有新的平行语料只需要利用前面的中间结果来计算新语料的对齐结果
四、汉藏辅助翻译系统与相关实验 汉藏辅助翻译系统 翻译实验评测与结果分析
汉藏辅助翻译系统(1)-- 系统框架图 前面研究的应用说一下
汉藏辅助翻译系统(2)-- OpenOffice效果图
汉藏辅助翻译系统(3)-- 通信服务器数据流图
通信服务器性能评测(1)-- 测试环境
通信服务器性能评测(2)-- 测试语料分布 测试语料共计11505句(355页),合计785250字,平均每句68.25字,最长的句子有269个字
通信服务器性能评测(3)-- 多测试客户端响应时间 总时间(秒) 平均单句时间(毫秒) 单句最长时间(秒) 1 1081 93.99 2.75 2 1088 94.55 2.98 3 1058 92.00 2.72 4 1084 94.27 3.23 5 1054 90.96 3.05 6 1083 94.15 2.64 7 1114 96.80 20.98 平均值 1080 93.82 2.90 中位值 2.87 最小值 最大值
通信服务器性能评测(4)-- 测试客户端响应时间 总时间(秒) 平均单句时间(毫秒) 单句最长时间(秒) 多机测试 1084 94.27 3.23 单机测试 413 35.92 1.20 比值 2.62 2.69
汉藏翻译实验评测(1)-- 语料数据分布 类别 来源 句对数 训练语料 法律法规 8595 领导人文选 25112 工作报告 34610 训练语料总计 67327 测试语料 63 151 215 测试语料总计 429 语料总计 69756
汉藏翻译实验评测(2)-- 各系统评分及耗时 BLEU4 NIST Time(s) 正向匹配译文 0.2040 5.6235 68 反向匹配译文 0.1986 5.5944 67 概率最大(主系统) 0.2168 5.6882 75 句子实例(对比) 0.0410 3.1472 41 Moses-PB(对比) 0.2771 6.2338 633
汉藏翻译实验评测(3)-- 实验分析 测试语料中所有的短语串共98706个。 其中能在训练语料中查找到的短语实例共25512个 抽取出长度大于7的短语翻译实例共2258,这个较Moses基于短语的方法在短语翻译实例的召回率上提高了约9.71%
汉藏翻译实验评测(4)-- 翻译示例
五、总结和展望 总结 展望
总结 本文提出了一种融合多策略汉藏翻译模型 在实验测试集合上,该模型较开源机器翻译系统Moses 实现了Online(在线)翻译模型 提出了增量式翻译模型的理论框架 在实验测试集合上,该模型较开源机器翻译系统Moses BLEU值接近Moses,远超基于句子实例的方法 短语翻译实例串的召回率较Moses提高了约9.71% 该模型已在汉藏翻译服务中应用,取得较好的结果 在加一条
展望 翻译算法 辅助翻译软件 在线翻译模型的解码部分还存在部分未能解决的问题 增量式的翻译模型有待后续的研发和实验 实验有待进一步扩充和完善 完善与语言相关翻译前处理与后处理 辅助翻译软件 系统已获得汉藏翻译人员认可,基本可以实用。 模型系统软件与语言无关,方便扩展到其他语言对 目前,该系统已经基本可以实用了。语言无关,可以扩展
谢谢各位论文答辩评审老师! Thank You ! 熊 维 2017/3/5