熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
陈群秀 清华大学计算机科学与技术系 智能技术与系统国家实验室 北京
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
第二讲 职业概论.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
机器翻译原理与方法 第三讲 基于词的统计机器翻译方法
毕业论文答辩PPT模板 学院:地理与旅游学院 专业:会展经济与管理 答辩人:北纬 指导老师:北纬君.
CWMT’08统计机器翻译研讨会自动化所技术报告
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
导游资格证考试概要.
易學基礎教程 國文系99 王隆運. 易學基礎教程 國文系99 王隆運.
基于改进的依存树到串的汉语纳西翻译模板抽取方法
学前教育原理 主讲:李德明.
新形势下如何操作净水市场 疏龙林.
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Hadoop I/O By ShiChaojie.
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
SOA – Experiment 3: Web Services Composition Challenge
大学计算机基础 典型案例之一 构建FPT服务器.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
动态规划(Dynamic Programming)
基于规则抽取的 时间表达式识别.
给孩子做一面明亮的镜子 给孩子做一面明亮的镜子.
WSDM见闻 程龚.
SOA – Experiment 2: Query Classification Web Service
一个RDF数据自然语言生成器的设计与实现
编程作业3:网页正文抽取 (10分).
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
C语言程序设计 主讲教师:陆幼利.
DQMClientDim.cxx及双光子练习
VisComposer 2019/4/17.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
北京中科进出口有限责任公司 PQDT论文全文库检索平台.
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
双语例句搜索 句库+巨酷 Web: Beijing 2008.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
第七、八次实验要求.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于最大margin的决策树归纳 李 宁.
计算机绘图 AutoCAD2016.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
Adj + Noun映射到知识库中的classes
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
学习数据结构的意义 (C语言版) 《数据结构》在线开放课程 主讲人:李刚
入侵检测技术 大连理工大学软件学院 毕玲.
毕业论文答辩模版 电子信息专业 2015级本科08班 北京大学 论文宝 答辩人: 教授 导师: 深蓝与灰白搭配 简洁严谨学术风格
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5 基于多策略的汉藏辅助翻译 的研究与实现 熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5

论文的研究工作为以下项目的成果之一,并在项目中使用 基金资助 论文的研究工作为以下项目的成果之一,并在项目中使用 中国科学院西部行动计划资助项目 汉藏辅助翻译系统研发与应用(KGCX2-YW-512)

摘要 选题背景以及研究现状 基于实例与基于短语的翻译方法 融合多策略的汉藏翻译模型 汉藏辅助翻译系统以及相关实验 总结和展望

选题背景及意义 机器翻译研究现状及发展趋势 汉藏翻译研究现状 一、选题背景以及研究现状 选题背景及意义 机器翻译研究现状及发展趋势 汉藏翻译研究现状

选题背景及意义 藏语是我国的少数民族语言之一 汉藏翻译需求不断增长,传统人工翻译方式不能满足 汉藏机器翻译的研究进展相对比较缓慢 年翻译量约为5000多万字 翻译工作效率仅为人均1500-2000汉字左右/天 汉藏机器翻译的研究进展相对比较缓慢 基础资源库 (汉藏平行语料) 藏语信息处理工具(分词工具等) 汉藏辅助翻译研究能提高汉藏翻译人员工作效率 有理论意义更有实用价值

机器翻译的研究现状 机器翻译系统大致分为 基于规则的翻译系统 基于语料库的翻译系统 直接翻译方法 转化翻译方法 中间语言方法 基于实例的翻译方法 基于翻译记忆的翻译方法 基于统计的机器翻译方法

辅助翻译的研究现状 辅助翻译系统及开源软件 国外比较有影响的辅助翻译软件 国内比较有影响的辅助翻译软件 开源辅助翻译软件OmegaT Trados Déjà Vu X Wordfast 国内比较有影响的辅助翻译软件 雅信CAT系统 华健IAT 传神WCAT 开源辅助翻译软件OmegaT

机器翻译的发展趋势 机器翻译研究的发展趋势 辅助翻译研究的发展趋势 基于大规模语料的并行计算 基于句法树的统计机器翻译 基于多策略系统的译文融合 辅助翻译研究的发展趋势 面向应用的辅助翻译技术 翻译技术与翻译过程管理相结合

汉藏翻译的研究现状 汉藏翻译的研究主要集中在基于规则方法上 西藏翻译队伍调查报告 因此,需要构建一套汉藏辅助翻译系统 班智达汉藏公文翻译系统 才藏太等 缺点:规则、限定公文领域 西藏翻译队伍调查报告 9.5%的译者经常使用计算机辅助翻译软件 28.4%的译者偶尔使用 45.9%从未使用 其余16.2%不太了解 因此,需要构建一套汉藏辅助翻译系统

基于句子实例的机器翻译 基于短语的统计机器翻译 二、基于实例与基于短语的翻译方法 基于句子实例的机器翻译 基于短语的统计机器翻译

基于实例的翻译方法(1)-- 流程图

基于实例的翻译方法(2)-- TMX翻译记忆库 是由LISA所属的OSCAR组织开发的用于存储和交换使用计算机辅助翻译和本地化工具创建的译文记忆数据的格式标准。

基于实例的翻译方法(3)-- 句子相似度计算 改进编辑距离公式 句子相似度计算

基于短语的翻译方法(1)-- 流程图

基于短语的翻译方法(2)-- 词语对齐 在平行语料库基础上构建词语对齐步骤: 1)分词处理 中文分词:Standford Chinese-Segmenter 藏文分词:SegTibetan 2)语料预处理 噪音字符 语料句对长度比>阈值 3)词语对齐 开源词语对齐工具 Giza++

基于短语的翻译方法(3)--短语翻译对抽取 在上面词语对齐的平行语料中抽取短语翻译对 短语抽取一致性约束:

基于短语的翻译方法(4)--翻译解码 基于短语的翻译解码: Stack-beam search解码

基于句子实例方法 VS 基于短语方法 优点 缺点 优点 缺点 因此,需要构建一套融合多策略的汉藏辅助翻译系统 便于维护 能取得更优的翻译译文 能够实时利用不断增长的用户翻译实例资源 缺点 句子实例资源利用率低 依赖于实例库规模和相似度,找到和没找到相似度较高的翻译实例,翻译质量波动大 优点 能取得更优的翻译译文 能够利用平行语料库中短语层面的翻译信息 缺点 对于新增的翻译实例资源需要重新训练模型 平行语料库规模较小时翻译质量不高 短语翻译对长度有限制 因此,需要构建一套融合多策略的汉藏辅助翻译系统

问题提出与分析 融合多策略的汉藏翻译模型 Online翻译模型 增量式翻译模型 三、融合多策略的汉藏翻译模型 问题提出与分析 融合多策略的汉藏翻译模型 Online翻译模型 增量式翻译模型

问题的提出与分析 我们的汉藏翻译的研究受限于 基于句子实例与基于短语的翻译各有优缺点 提出一种融合上述两种翻译模型优点的新翻译模型 汉藏平行语料资源规模相对较小(5-20w句对) 汉藏辅助翻译软件实际应用需求 基于句子实例与基于短语的翻译各有优缺点 提出一种融合上述两种翻译模型优点的新翻译模型 充分的挖掘任意长度的短语翻译实例对 实时利用不断增长用户翻译实例资源

融合多策略的汉藏翻译模型 -- 框架图 融合多策略的汉藏翻译模型核心: 1)Online翻译模型 2)增量式的翻译模型

Online翻译模型(1)-- 翻译流程图 传统的基于短语的翻译流程图: 获取翻译候选项是通过查已经计算好的离线翻译table获取的,即查表。

Online翻译模型(2)-- 翻译流程图 Online翻译模型的翻译流程图: 获取翻译候选项是通过在线计算翻译候选项的 即Online。

Online翻译模型(3)-- 核心数据结构 三维的倒排索引: 1)词语序列 2)出现该词语的句子序号序列 3)该词语在句子中的位置序列 目标:实现短语串级别的实例快速检索和匹配

Online翻译模型(4)-- 翻译选项特征 翻译模型特征 正向的短语翻译概率 反向的短语翻译概率 正向的词汇化短语翻译概率 反向的词汇化短语翻译概率 短语长度惩罚exp(1) = 2.718 语言模型特征 语言模型特征PLM(ei|e1…ei-1) SRILM 基于词的语言模型

Online翻译模型(5)-- 子串枚举算法 子串枚举方式: 从左至右,从短到长 Eg: 句子S:f1f2f3….fn 枚举顺序:f1、f1f2、f1f2f3、…、f1f2f3…fn、f2、f2f3、f2f3…fn、… fn

Online翻译模型(6)-- 子串译文获取算法 翻译候选项译文获取算法 利用前面的三维倒排索引以及词语对齐信息获取前面每一个枚举出来的子串对应的译文。

Online翻译模型(6)-- 译文抽取示例图 如果源短语对应的目标短语词语无对齐到源短语外面词语,则抽取该短语翻译对。如果有,则不能抽取该短语翻译对。 如果源短语与目标语言短语内部对齐,旁边的存在对空的词语,则可以抽取。

Online翻译模型(7)-- 翻译解码 对于一个待翻译(汉语)句子f,找到一个目标语言(藏语)的翻译句子e,使得该句子p(e|f)的概率最大,我们使用如下的对数线性模型公式

Online翻译模型(8)-- 翻译解码示例 对于一个待翻译(汉语)句子f,找到一个目标语言(藏语)的翻译句子e,使得该句子p(e|f)的概率最大,我们使用如下的对数线性模型公式

增量式翻译模型(1) 增量式翻译模型的核心 对于用户实时提交的翻译实例资源如何快速在线词语对齐并增量索引到语料中供在线翻译模型获取。 难点:在线词语对齐 目前,词语对齐Giza++是离线的

增量式翻译模型(2)-- 传统离线的词语对齐算法 传统的词语对齐算法Giza++ (离线) 针对一大批平行语料计算词语对齐结果 如果有新的平行语料需要对新的整个语料集合重新计算对齐结果

增量式翻译模型(2)-- 改进的在线词语对齐算法 暂未实现 1)针对一大批平行语料计算词语对齐结果,保存每次迭代的中间结果。 2)如果有新的平行语料只需要利用前面的中间结果来计算新语料的对齐结果

四、汉藏辅助翻译系统与相关实验 汉藏辅助翻译系统 翻译实验评测与结果分析

汉藏辅助翻译系统(1)-- 系统框架图 前面研究的应用说一下

汉藏辅助翻译系统(2)-- OpenOffice效果图

汉藏辅助翻译系统(3)-- 通信服务器数据流图

通信服务器性能评测(1)-- 测试环境

通信服务器性能评测(2)-- 测试语料分布 测试语料共计11505句(355页),合计785250字,平均每句68.25字,最长的句子有269个字

通信服务器性能评测(3)-- 多测试客户端响应时间 总时间(秒) 平均单句时间(毫秒) 单句最长时间(秒) 1 1081 93.99 2.75 2 1088 94.55 2.98 3 1058 92.00 2.72 4 1084 94.27 3.23 5 1054 90.96 3.05 6 1083 94.15 2.64 7 1114 96.80 20.98 平均值 1080 93.82 2.90 中位值 2.87 最小值 最大值

通信服务器性能评测(4)-- 测试客户端响应时间 总时间(秒) 平均单句时间(毫秒) 单句最长时间(秒) 多机测试 1084 94.27 3.23 单机测试 413 35.92 1.20 比值 2.62 2.69

汉藏翻译实验评测(1)-- 语料数据分布 类别 来源 句对数 训练语料 法律法规 8595 领导人文选 25112 工作报告 34610 训练语料总计 67327 测试语料 63 151 215 测试语料总计 429 语料总计 69756

汉藏翻译实验评测(2)-- 各系统评分及耗时 BLEU4 NIST Time(s) 正向匹配译文 0.2040 5.6235 68 反向匹配译文 0.1986 5.5944 67 概率最大(主系统) 0.2168 5.6882 75 句子实例(对比) 0.0410 3.1472 41 Moses-PB(对比) 0.2771 6.2338 633

汉藏翻译实验评测(3)-- 实验分析 测试语料中所有的短语串共98706个。 其中能在训练语料中查找到的短语实例共25512个 抽取出长度大于7的短语翻译实例共2258,这个较Moses基于短语的方法在短语翻译实例的召回率上提高了约9.71%

汉藏翻译实验评测(4)-- 翻译示例

五、总结和展望 总结 展望

总结 本文提出了一种融合多策略汉藏翻译模型 在实验测试集合上,该模型较开源机器翻译系统Moses 实现了Online(在线)翻译模型 提出了增量式翻译模型的理论框架 在实验测试集合上,该模型较开源机器翻译系统Moses BLEU值接近Moses,远超基于句子实例的方法 短语翻译实例串的召回率较Moses提高了约9.71% 该模型已在汉藏翻译服务中应用,取得较好的结果 在加一条

展望 翻译算法 辅助翻译软件 在线翻译模型的解码部分还存在部分未能解决的问题 增量式的翻译模型有待后续的研发和实验 实验有待进一步扩充和完善 完善与语言相关翻译前处理与后处理 辅助翻译软件 系统已获得汉藏翻译人员认可,基本可以实用。 模型系统软件与语言无关,方便扩展到其他语言对 目前,该系统已经基本可以实用了。语言无关,可以扩展

谢谢各位论文答辩评审老师! Thank You ! 熊 维 2017/3/5