熊维导师：吴健研究员中科院软件所基础软件中心 2017/3/5

Slides:

Advertisements

Similar presentations

四川财经职业学院会计一系会计综合实训目录情境 1.1 企业认知情境 1.3 日常经济业务核算情境 1.4 产品成本核算情境 1.5 编制报表前准备工作情境 1.6 期末会计报表的编制情境 1.2 建账.

Advertisements

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

2.5 函数的微分一、问题的提出二、微分的定义三、可微的条件四、微分的几何意义五、微分的求法六、小结.

主编：邓萌【点按任意键进入】【第六单元】教育口语. 幼儿教师教育口语概论模块一幼儿教师教育口语分类训练模块二适应不同对象的教育口语模块三《幼儿教师口语》编写组.

第一組加減法思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.

海南医学院附院妇产科教室华少平妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.

植树节的由来植树节的意义各国的植树节纪念中山先生植树节的由来历史发展到今天， “ 植树造林，绿化祖国 ” 的热潮漫卷了中华大地。从沿海到内地，从城市到乡村，涌现了多少造林模范，留下了多少感人的故事。婴儿出世，父母栽一棵小白怕，盼望孩子和小树一样浴光吮露，茁壮成长；男女成婚，新人双双植一株嫩柳，象征家庭美满，幸福久长；

客户协议书填写样本和说明河南省郑州市金水路 299 号浦发国际金融中心 13 层吉林钰鸿国创贵金属经营有限公司.

浙江省县级公立医院改革与剖析马进上海交通大学公共卫生学院

第二章环境.

陈群秀清华大学计算机科学与技术系智能技术与系统国家实验室北京

第2期技職教育再造方案（草案）教育部 101年12月12日 1 1.

企业员工心态管理培训企业员工心态管理培训讲师：谭小琥.

第二讲职业概论.

LSF系统介绍张焕杰中国科学技术大学网络信息中心

杨宇航百度社区技术部推荐技术在百度UGC产品中的应用杨宇航百度社区技术部

机器翻译原理与方法第三讲基于词的统计机器翻译方法

毕业论文答辩PPT模板学院：地理与旅游学院专业：会展经济与管理答辩人：北纬指导老师：北纬君.

CWMT’08统计机器翻译研讨会自动化所技术报告

融入句型信息的汉英双向调序模型张家俊、宗成庆中科院自动化所

导游资格证考试概要.

易學基礎教程國文系99 王隆運. 易學基礎教程國文系99 王隆運.

基于改进的依存树到串的汉语纳西翻译模板抽取方法

学前教育原理主讲：李德明.

新形势下如何操作净水市场疏龙林.

大纲汉英新闻领域翻译评测概述系统流程预处理和后处理测试结果系统融合评测. 张大鲲孙乐中国科学院软件研究所

LSF系统介绍张焕杰中国科学技术大学网络信息中心

Hadoop I/O By ShiChaojie.

Chinese Virtual Observatory

R in Enterprise Environment 企业环境中的R

SOA – Experiment 3: Web Services Composition Challenge

大学计算机基础典型案例之一构建FPT服务器.

第11章：一些著名开源软件介绍第12章：服务安装和配置本章教学目标：了解当前一些应用最广泛的开源软件项目搭建一个网站服务器

Online job scheduling in Distributed Machine Learning Clusters

数据挖掘工具性能比较.

动态规划(Dynamic Programming)

基于规则抽取的时间表达式识别.

给孩子做一面明亮的镜子给孩子做一面明亮的镜子.

WSDM见闻程龚.

SOA – Experiment 2: Query Classification Web Service

一个RDF数据自然语言生成器的设计与实现

编程作业3：网页正文抽取（10分）.

毕业论文答辩答辩学生：宝藏PPT 指导老师：XXX.

C语言程序设计主讲教师：陆幼利.

DQMClientDim.cxx及双光子练习

VisComposer 2019/4/17.

张大鲲孙乐李文波中国科学院软件研究所利用压平的双语句法树进行短语重排序张大鲲孙乐李文波中国科学院软件研究所

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

中国风背景论文答辩模板某大学某某信息学院答辩学生：代用名指导老师：代用名答辩时间：201X年1月30日

北京中科进出口有限责任公司 PQDT论文全文库检索平台.

孙加东梁华参赵铁军机器智能与翻译实验室哈尔滨工业大学

双语例句搜索句库+巨酷 Web: Beijing 2008.

魏新宇 MATLAB/Simulink 与控制系统仿真魏新宇

第七、八次实验要求.

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

基于最大margin的决策树归纳李宁.

计算机绘图 AutoCAD2016.

基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

基于列存储的RDF数据管理朱敏

Chinese Virtual Observatory

Adj + Noun映射到知识库中的classes

FVX1100介绍法视特（上海）图像科技有限公司施俊.

学习数据结构的意义（C语言版）《数据结构》在线开放课程主讲人：李刚

入侵检测技术大连理工大学软件学院毕玲.

毕业论文答辩模版电子信息专业 2015级本科08班北京大学论文宝答辩人：教授导师：深蓝与灰白搭配简洁严谨学术风格

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

Presentation transcript:

熊维导师：吴健研究员中科院软件所基础软件中心 2017/3/5 基于多策略的汉藏辅助翻译的研究与实现熊　维导师：吴　健　研究员中科院软件所基础软件中心 2017/3/5

论文的研究工作为以下项目的成果之一，并在项目中使用基金资助论文的研究工作为以下项目的成果之一，并在项目中使用中国科学院西部行动计划资助项目汉藏辅助翻译系统研发与应用（KGCX2-YW-512）

摘要选题背景以及研究现状基于实例与基于短语的翻译方法融合多策略的汉藏翻译模型汉藏辅助翻译系统以及相关实验总结和展望

选题背景及意义机器翻译研究现状及发展趋势汉藏翻译研究现状一、选题背景以及研究现状选题背景及意义机器翻译研究现状及发展趋势汉藏翻译研究现状

选题背景及意义藏语是我国的少数民族语言之一汉藏翻译需求不断增长，传统人工翻译方式不能满足汉藏机器翻译的研究进展相对比较缓慢年翻译量约为5000多万字翻译工作效率仅为人均1500-2000汉字左右/天汉藏机器翻译的研究进展相对比较缓慢基础资源库（汉藏平行语料）藏语信息处理工具（分词工具等）汉藏辅助翻译研究能提高汉藏翻译人员工作效率有理论意义更有实用价值

机器翻译的研究现状机器翻译系统大致分为基于规则的翻译系统基于语料库的翻译系统直接翻译方法转化翻译方法中间语言方法基于实例的翻译方法基于翻译记忆的翻译方法基于统计的机器翻译方法

辅助翻译的研究现状辅助翻译系统及开源软件国外比较有影响的辅助翻译软件国内比较有影响的辅助翻译软件开源辅助翻译软件OmegaT Trados Déjà Vu X Wordfast 国内比较有影响的辅助翻译软件雅信CAT系统华健IAT 传神WCAT 开源辅助翻译软件OmegaT

机器翻译的发展趋势机器翻译研究的发展趋势辅助翻译研究的发展趋势基于大规模语料的并行计算基于句法树的统计机器翻译基于多策略系统的译文融合辅助翻译研究的发展趋势面向应用的辅助翻译技术翻译技术与翻译过程管理相结合

汉藏翻译的研究现状汉藏翻译的研究主要集中在基于规则方法上西藏翻译队伍调查报告因此，需要构建一套汉藏辅助翻译系统班智达汉藏公文翻译系统才藏太等缺点：规则、限定公文领域西藏翻译队伍调查报告 9.5％的译者经常使用计算机辅助翻译软件 28.4％的译者偶尔使用 45.9％从未使用其余16.2％不太了解因此，需要构建一套汉藏辅助翻译系统

基于句子实例的机器翻译基于短语的统计机器翻译二、基于实例与基于短语的翻译方法基于句子实例的机器翻译基于短语的统计机器翻译

基于实例的翻译方法（1）-- 流程图

基于实例的翻译方法（2）-- TMX翻译记忆库是由LISA所属的OSCAR组织开发的用于存储和交换使用计算机辅助翻译和本地化工具创建的译文记忆数据的格式标准。

基于实例的翻译方法（3）-- 句子相似度计算改进编辑距离公式句子相似度计算

基于短语的翻译方法（1）-- 流程图

基于短语的翻译方法（2）-- 词语对齐在平行语料库基础上构建词语对齐步骤： 1）分词处理中文分词：Standford Chinese-Segmenter 藏文分词：SegTibetan 2）语料预处理噪音字符语料句对长度比>阈值 3）词语对齐开源词语对齐工具 Giza++

基于短语的翻译方法（3）--短语翻译对抽取在上面词语对齐的平行语料中抽取短语翻译对短语抽取一致性约束：

基于短语的翻译方法（4）--翻译解码基于短语的翻译解码： Stack-beam search解码

基于句子实例方法 VS 基于短语方法优点缺点优点缺点因此，需要构建一套融合多策略的汉藏辅助翻译系统便于维护能取得更优的翻译译文能够实时利用不断增长的用户翻译实例资源缺点句子实例资源利用率低依赖于实例库规模和相似度，找到和没找到相似度较高的翻译实例，翻译质量波动大优点能取得更优的翻译译文能够利用平行语料库中短语层面的翻译信息缺点对于新增的翻译实例资源需要重新训练模型平行语料库规模较小时翻译质量不高短语翻译对长度有限制因此，需要构建一套融合多策略的汉藏辅助翻译系统

问题提出与分析融合多策略的汉藏翻译模型 Online翻译模型增量式翻译模型三、融合多策略的汉藏翻译模型问题提出与分析融合多策略的汉藏翻译模型 Online翻译模型增量式翻译模型

问题的提出与分析我们的汉藏翻译的研究受限于基于句子实例与基于短语的翻译各有优缺点提出一种融合上述两种翻译模型优点的新翻译模型汉藏平行语料资源规模相对较小（5-20w句对）汉藏辅助翻译软件实际应用需求基于句子实例与基于短语的翻译各有优缺点提出一种融合上述两种翻译模型优点的新翻译模型充分的挖掘任意长度的短语翻译实例对实时利用不断增长用户翻译实例资源

融合多策略的汉藏翻译模型 -- 框架图融合多策略的汉藏翻译模型核心： 1）Online翻译模型 2）增量式的翻译模型

Online翻译模型（1）-- 翻译流程图传统的基于短语的翻译流程图：获取翻译候选项是通过查已经计算好的离线翻译table获取的，即查表。

Online翻译模型（2）-- 翻译流程图 Online翻译模型的翻译流程图：获取翻译候选项是通过在线计算翻译候选项的即Online。

Online翻译模型（3）-- 核心数据结构三维的倒排索引： 1）词语序列 2）出现该词语的句子序号序列 3）该词语在句子中的位置序列目标：实现短语串级别的实例快速检索和匹配

Online翻译模型（4）-- 翻译选项特征翻译模型特征正向的短语翻译概率反向的短语翻译概率正向的词汇化短语翻译概率反向的词汇化短语翻译概率短语长度惩罚exp(1) = 2.718 语言模型特征语言模型特征PLM(ei|e1…ei-1) SRILM 基于词的语言模型

Online翻译模型（5）-- 子串枚举算法子串枚举方式：从左至右，从短到长 Eg: 句子S：f1f2f3….fn 枚举顺序：f1、f1f2、f1f2f3、…、f1f2f3…fn、f2、f2f3、f2f3…fn、… fn

Online翻译模型（6）-- 子串译文获取算法翻译候选项译文获取算法利用前面的三维倒排索引以及词语对齐信息获取前面每一个枚举出来的子串对应的译文。

Online翻译模型（6）-- 译文抽取示例图如果源短语对应的目标短语词语无对齐到源短语外面词语，则抽取该短语翻译对。如果有，则不能抽取该短语翻译对。如果源短语与目标语言短语内部对齐，旁边的存在对空的词语，则可以抽取。

Online翻译模型（7）-- 翻译解码对于一个待翻译（汉语）句子f，找到一个目标语言（藏语）的翻译句子e，使得该句子p(e|f)的概率最大，我们使用如下的对数线性模型公式

Online翻译模型（8）-- 翻译解码示例对于一个待翻译（汉语）句子f，找到一个目标语言（藏语）的翻译句子e，使得该句子p(e|f)的概率最大，我们使用如下的对数线性模型公式

增量式翻译模型（1）增量式翻译模型的核心对于用户实时提交的翻译实例资源如何快速在线词语对齐并增量索引到语料中供在线翻译模型获取。难点：在线词语对齐目前，词语对齐Giza++是离线的

增量式翻译模型（2）-- 传统离线的词语对齐算法传统的词语对齐算法Giza++ （离线）针对一大批平行语料计算词语对齐结果如果有新的平行语料需要对新的整个语料集合重新计算对齐结果

增量式翻译模型（2）-- 改进的在线词语对齐算法暂未实现 1)针对一大批平行语料计算词语对齐结果，保存每次迭代的中间结果。 2)如果有新的平行语料只需要利用前面的中间结果来计算新语料的对齐结果

四、汉藏辅助翻译系统与相关实验汉藏辅助翻译系统翻译实验评测与结果分析

汉藏辅助翻译系统（1）-- 系统框架图前面研究的应用说一下

汉藏辅助翻译系统（2）-- OpenOffice效果图

汉藏辅助翻译系统（3）-- 通信服务器数据流图

通信服务器性能评测（1）-- 测试环境

通信服务器性能评测（2）-- 测试语料分布测试语料共计11505句（355页），合计785250字，平均每句68.25字，最长的句子有269个字

通信服务器性能评测（3）-- 多测试客户端响应时间总时间(秒) 平均单句时间（毫秒）单句最长时间（秒） 1 1081 93.99 2.75 2 1088 94.55 2.98 3 1058 92.00 2.72 4 1084 94.27 3.23 5 1054 90.96 3.05 6 1083 94.15 2.64 7 1114 96.80 20.98 平均值 1080 93.82 2.90 中位值 2.87 最小值最大值

通信服务器性能评测（4）-- 测试客户端响应时间总时间(秒) 平均单句时间（毫秒）单句最长时间（秒）多机测试 1084 94.27 3.23 单机测试 413 35.92 1.20 比值 2.62 2.69

汉藏翻译实验评测（1）-- 语料数据分布类别来源句对数训练语料法律法规 8595 领导人文选 25112 工作报告 34610 训练语料总计 67327 测试语料 63 151 215 测试语料总计 429 语料总计 69756

汉藏翻译实验评测（2）-- 各系统评分及耗时 BLEU4 NIST Time(s) 正向匹配译文 0.2040 5.6235 68 反向匹配译文 0.1986 5.5944 67 概率最大(主系统) 0.2168 5.6882 75 句子实例(对比) 0.0410 3.1472 41 Moses-PB(对比) 0.2771 6.2338 633

汉藏翻译实验评测（3）-- 实验分析测试语料中所有的短语串共98706个。其中能在训练语料中查找到的短语实例共25512个抽取出长度大于7的短语翻译实例共2258，这个较Moses基于短语的方法在短语翻译实例的召回率上提高了约9.71%

汉藏翻译实验评测（4）-- 翻译示例

五、总结和展望总结展望

总结本文提出了一种融合多策略汉藏翻译模型在实验测试集合上，该模型较开源机器翻译系统Moses 实现了Online(在线)翻译模型提出了增量式翻译模型的理论框架在实验测试集合上，该模型较开源机器翻译系统Moses BLEU值接近Moses，远超基于句子实例的方法短语翻译实例串的召回率较Moses提高了约9.71% 该模型已在汉藏翻译服务中应用，取得较好的结果在加一条

展望翻译算法辅助翻译软件在线翻译模型的解码部分还存在部分未能解决的问题增量式的翻译模型有待后续的研发和实验实验有待进一步扩充和完善完善与语言相关翻译前处理与后处理辅助翻译软件系统已获得汉藏翻译人员认可，基本可以实用。模型系统软件与语言无关，方便扩展到其他语言对目前，该系统已经基本可以实用了。语言无关，可以扩展

谢谢各位论文答辩评审老师！ Thank You ! 熊　维 2017/3/5