一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆 2012.11.4.

Slides:



Advertisements
Similar presentations
软饮料概述 人文艺术系 石惠舟. 什么是饮料? 饮料概述 饮料是指以水为基本原料,由 不同的配方和制造工艺生产出 来,供人们直接饮用的液体食 品。 饮料 饮料除提供水分外,由于在不 同品种的饮料中含有不等量的 糖、酸、乳以及各种氨基酸、 维生素、无机盐等营养成分, 因此有一定的营养。
Advertisements

1 認識創業之財務 ( 資金 ) 及稅務問題 講師 : 蘇炳章 日期 : 92 年 8 月 12 日.
月經異常的原因及警訊 組員: 陳少康、張康樂、許晉愷、何曄、方泠瑩、張 顓麟、蘇梓喬、溫鵬皓、林雅雯.
1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
第五单元 酒水知识与酒吧服务 主题三 蒸 馏 酒 —— 中国蒸馏酒. 蒸馏酒是把经过发酵的酿酒原料,经过一次或多次的蒸馏过 程提取的高酒度酒液。
1 報告人:季啟富 101/5. 簡報大綱 僱主風險規劃分析 何謂僱主契約補償責任保險 ? 僱主契約補償責任保險特色說明 僱主契約補償責任保險承保說明 僱主契約補償責任理賠說明 行銷建議 問題與討論.
年終工作獎金 及考績獎金 法規與實務 苗栗縣政府人事處 副處長 陳 坤 榮 中華民國102年1月25日.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
消失的吸管 隊名:吸管應該消失才隊.
助學工作說明會 及 教育訓練.
師資生修讀教育學程 重點提醒 師資培育暨就業輔導中心.
鬼太郎 身為幽靈族後裔一員的鬼太郎,他出生的時候,父母便雙亡,不過他的爸爸化身為眼珠,陪伴著他。而鬼太郎與他的同伴貓女、臭鼠人等,為了維持妖怪與人類間的和平,他們將一一消滅邪惡的妖怪,守護這世界的和平。
文書檔案組Q&A 崇右技術學院 文書檔案組 Q & A 總務處.
高齡自主學習團體終身學習試辦計畫經費核銷
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
政府組織、功能與權限 第三冊第三課.
机器翻译原理与方法 第三讲 基于词的统计机器翻译方法
桃園縣埔心國民小學專題報告 海豹 海豹 報告人 : 吳宜旻 指導老師 : 鄭省村.
二、信用工具和外汇.
熊 维 导师:吴 健 研究员 中科院软件所 基础软件中心 2017/3/5
液 体 高二物理.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
CWMT’08统计机器翻译研讨会自动化所技术报告
融入句型信息的汉英双向调序模型 张家俊、宗成庆 中科院自动化所
股市低迷之際 如何操作期貨與選擇權 避險及獲利 統一期貨 投資顧問部 廖朝正.
台北縣98年三鶯區語文研習 --建國國小 修辭與標點符號 福和國中廖惠貞
公务卡使用说明.
非规范化文本处理 张奇 复旦大学.
有三件事我很確定: 第一、愛德華是吸血鬼 第二、出於天性,他渴望喝我的血 第三、我無可救藥地愛上他了……
财务知识培训 杨 秀 玲 2014年10月.
第一章会计技能的内容 1.1会计技能的重要性.
第十一章 真理与价值 主讲人:阎华荣.
監察院公職人員財產申報處 編製 報告人:林世忠
導 覽 解 說 技 巧 海生館-展示組 解說志工 曾 運 明.
第七章 固 定 资 产.
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
恩典更新 羅15:1-13.
公務員廉政倫理規範.
成员名单 陈丽 陈敏 杨娇 高丽莉 李亚金 吴沅娟 任津沙 张舒蓉.
組 員: 王 新 惠 吳 映 暄 李 盈 慧 廖 香 涵 盧 姵 華 訪談日期:
大纲 汉英新闻领域翻译评测 概述 系统流程 预处理和后处理 测试结果 系统融合评测. 张大鲲 孙乐 中国科学院软件研究所
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
管理信息结构SMI.
中国科学院计算技术研究所CWMT 2008评测技术报告
动态规划(Dynamic Programming)
基于规则抽取的 时间表达式识别.
作者:葉福玲 班級:六年四班 指導老師:黎家雲
V-ing 分词 Gerund 动名词 Present Participle 现在分词 一. Form 主 动式 被 动式 一般式 完成式
第二节 时间 位移.
淑明女子大學 在哪裡?. 淑明女子大學 在哪裡? 學校週遭 第一次 剛到淑大時?
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
《知网2000座谈会》发言 董振东 董强 Tel: (8610) Tel: (8610)
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
张大鲲 孙乐 李文波 中国科学院软件研究所 利用压平的双语句法树进行短语重排序 张大鲲 孙乐 李文波 中国科学院软件研究所
复习.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
实体描述呈现方法的研究 实验评估 2019/5/1.
单元17 钢 结 构 学习目标 (1)了解钢结构的特点。 (2)了解钢结构的发展现状。 (3)掌握钢结构的链接方式。
汇报人:周学广 教授 基于依存分析的 中文微博情感分析 汇报人:周学广 教授
孙加东 梁华参 赵铁军 机器智能与翻译实验室 哈尔滨工业大学
汽车电器与控制设备 第0章 绪论.
NAACLHLT Han-Bin Chen, Jian-Cheng Wu and Jason S. Chang
組員:.
Adj + Noun映射到知识库中的classes
中文微博情感分析系统-LTLAB 上海交通大学中德语言技术联合实验室
 主講人:楊文明主任委員   106/06/30 中華電信職工福利委員會台北分會業務簡介.
‘人因罪與神隔絕’ 左邊代表每一個人像你和我。 黑暗代表我們的罪。 聖經說: 世人都犯了罪,虧缺了神的榮耀。 (羅3:23)
Presentation transcript:

一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆 2012.11.4

提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

统计机器翻译中的未登录词问题 统计机器翻译框架

统计机器翻译中的未登录词问题 统计机器翻译框架 翻译模型 语言模型 双语平行语料 (f1,e1),(f2,e2)… 目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题 统计机器翻译框架 翻译模型 度量翻译候选的合法性 语言模型 双语平行语料 (f1,e1),(f2,e2)… 目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题 统计机器翻译框架 决定了翻译知识覆盖率 翻译模型 语言模型 双语平行语料 (f1,e1),(f2,e2)… 目标语言单语语料 e1, e2,…, en 语言模型

双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题! 统计机器翻译中的未登录词问题 统计机器翻译框架 决定了翻译知识覆盖率 双语平行语料 (f1,e1),(f2,e2)… 翻译模型 双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!

统计机器翻译中的未登录词问题 统计机器翻译中未登录词的特点 在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合 统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间

提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

传统处理方法与缺陷 尝试一切方法获得未登录词的译文 资源 方法 借助语言学资源,譬如HowNet, WordNet 借助大规模网络资源 利用数据挖掘方法 利用信息检索方法

传统处理方法与缺陷 缺陷 只处理部分未登录词,例如命名实体、缩略语等 只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调序 … 为(is) 百分之六 左右(about) …  is 6% about

提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

保持语义功能的未登录词处理方法 核心思想 目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响 核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变

保持语义功能的未登录词处理方法 方法框架 对于测试句子中的任意一未登录词,在集内词中搜索与该未登录词语义功能最相似的词 解码前,将未登录词替换为集内词 解码后,将集内词的译文重新替换为未登录词,以便利用其他方法翻译未登录词

一个示例 … 为(is) 百分之六 左右(about) … 搜索集内词,发现 “一半(50%)” 与 “百分之六”具有最相似的语义功能, 替换“百分之六”为“一半” 为 一半 左右  is about 50%  is about 百分之六

什么是语义功能? 语义功能 一个词的语义功能表示该词在句子中所扮演的语法和语义角色 语义功能决定了该词在源语言和目标语言文本中所带的上下文

什么样的词共享相似的语义功能? 如果两个词在文本中所处的上下文相似,那么他们就具有相似的语义功能

搜索与未登录词语义功能相似的集内词 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

基于分布语义模型的方法 分布语义模型 利用表示一个词的所有上下文总和的向量近似该词的语义信息 向量空间模型

基于分布语义模型的方法 上下文 为目标词tw创建上下文向量Vtw 以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文 为目标词tw创建上下文向量Vtw Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率

基于分布语义模型的方法 如何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information)

基于分布语义模型的方法 如何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information) L-2 normalization

基于分布语义模型的方法 计算任意两个词的语义功能相似度

搜索与未登录词语义功能最相似的集内词 POS constraint

搜索与未登录词语义功能相似的集内词 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

基于双向语言模型的方法 分布语义模型的缺陷 将所有上下文看做一个词袋 不考虑上下文之间的词序与依赖 什么是理想的模型?

简化 argmax? 模型回退 前向语言模型P(wi|wi-1,wi-2,…)

简化 argmax? 模型回退 后向语言模型P(wi|wi+1,wi+2,…)

简化 argmax? 模型回退 or

简化argmax? 模型回退 前向语言模型 后向语言模型 or 双向语言模型

附加约束 词性约束

附加约束 翻译规则约束 搜索结果的集内词与未登录词的上下文组合必须存在翻译规则 为 百分之六 左右  为 一半 左右 为 百分之六 左右  为 一半 左右 “一半 左右 ||| about 50%”

提纲 统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 实验结果与实例分析 总结 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结

实验设置 语料 翻译系统: Moses NIST2005中未登录词的分布 训练语料:FBIS,23.6万句对 开发集: MT NIST2003 测试集: MT NIST2005 翻译系统: Moses NIST2005中未登录词的分布 1082句子中存在796 不同的未登录词 (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)

翻译结果 分布语义模型 窗口大小 BLEU (%) POS BLEU(%) POS+Trans NIST 4 29.53 30.02 8.2254 8.3592 5 29.86 29.88 8.4487 8.3694 6 30.16 (0.42↑) 8.4296 8.3910 7 29.66 30.01 8.3724 8.4528 基线系统 29.74 8.3139 分布语义模型

翻译结果 双向语言模型 constraint BLEU (%) NIST without pos 29.89 8.3885 with pos 30.28 (0.54↑) 8.4108 pos+trans 30.38 (0.64↑) 8.4659 baseline 29.74 8.3139 双向语言模型

翻译结果 前向语言模型 后向语言模型 constraint BLEU (%) NIST without pos 29.65 8.2882 with pos 29.98 8.3900 pos+trans 30.21 (0.47↑) 8.4268 前向语言模型 constraint BLEU (%) NIST without pos 29.67 8.3189 with pos 29.82 8.4127 pos+trans 30.15 (0.41↑) 8.4602 后向语言模型

两个翻译实例 … 内阁 才 作成 决定 , … Moses: … the cabinet 作成 decided … … 内阁 才 作出 决定 ,… Moses:…before the cabinet made the decision ...

两个翻译实例 … 义演 现场 的 热烈 气氛 , … Moses: … live义演 and warm atmosphere… … 演习 现场 的 热烈 气氛 , … Moses:…the warm atmosphere of the exercise...

总结 对于每个未登录词,搜索与该未登录词语义功能最相似的集内词 两种算法 相比于分布语义模型,双向语言模型具有更好的性能 分布语义模型

THANKS! Q&A