一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆 2012.11.4.

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆

提纲统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法实验结果与实例分析总结基于分布语义模型的方法
基于双向语言模型的方法实验结果与实例分析总结

统计机器翻译中的未登录词问题统计机器翻译框架

统计机器翻译中的未登录词问题统计机器翻译框架翻译模型语言模型双语平行语料（f1,e1),(f2,e2)… 目标语言单语语料
e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题统计机器翻译框架翻译模型度量翻译候选的合法性语言模型双语平行语料（f1,e1),(f2,e2)…
目标语言单语语料 e1, e2,…, en 语言模型

统计机器翻译中的未登录词问题统计机器翻译框架决定了翻译知识覆盖率翻译模型语言模型双语平行语料（f1,e1),(f2,e2)…
目标语言单语语料 e1, e2,…, en 语言模型

双语平行语料有限的情形下，测试句子中的很多词都未在训练语料中出现过，便导致未登录词翻译问题！
统计机器翻译中的未登录词问题统计机器翻译框架决定了翻译知识覆盖率双语平行语料（f1,e1),(f2,e2)… 翻译模型双语平行语料有限的情形下，测试句子中的很多词都未在训练语料中出现过，便导致未登录词翻译问题！

统计机器翻译中的未登录词问题统计机器翻译中未登录词的特点在分词或词性标注中，我们知道分词或词性标注的候选空间，譬如词性集合
统计机器翻译中的未登录词，若不借助外部资源，无法确定候选翻译空间

传统处理方法与缺陷尝试一切方法获得未登录词的译文资源方法借助语言学资源，譬如HowNet, WordNet 借助大规模网络资源
利用数据挖掘方法利用信息检索方法

传统处理方法与缺陷缺陷只处理部分未登录词，例如命名实体、缩略语等只关注未登录词的翻译，不考虑未登录词上下文词和短语的目标译文选择与调序
… 为(is) 百分之六左右(about) …  is 6% about

保持语义功能的未登录词处理方法核心思想目标不在于翻译未登录词，而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响
核心方法在于确定未登录词在句中的语义功能，并在解码过程中保持不变

保持语义功能的未登录词处理方法方法框架对于测试句子中的任意一未登录词，在集内词中搜索与该未登录词语义功能最相似的词
解码前，将未登录词替换为集内词解码后，将集内词的译文重新替换为未登录词，以便利用其他方法翻译未登录词

一个示例 … 为(is) 百分之六左右(about) …
搜索集内词，发现 “一半(50%)” 与 “百分之六”具有最相似的语义功能，替换“百分之六”为“一半” 为一半左右  is about 50%  is about 百分之六

什么是语义功能? 语义功能一个词的语义功能表示该词在句子中所扮演的语法和语义角色语义功能决定了该词在源语言和目标语言文本中所带的上下文

什么样的词共享相似的语义功能? 如果两个词在文本中所处的上下文相似，那么他们就具有相似的语义功能

搜索与未登录词语义功能相似的集内词统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法实验结果与实例分析
基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结

基于分布语义模型的方法分布语义模型利用表示一个词的所有上下文总和的向量近似该词的语义信息向量空间模型

基于分布语义模型的方法上下文为目标词tw创建上下文向量Vtw
以目标词为中心，为长度K为窗口，出现在该窗口中的所有词的总和就是该词的上下文为目标词tw创建上下文向量Vtw Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率

基于分布语义模型的方法如何计算第i个集内词作为目标词上下文的概率？逐点互信息（pointwise mutual information）

基于分布语义模型的方法如何计算第i个集内词作为目标词上下文的概率？逐点互信息（pointwise mutual information）
L-2 normalization

基于分布语义模型的方法计算任意两个词的语义功能相似度

搜索与未登录词语义功能最相似的集内词 POS constraint

搜索与未登录词语义功能相似的集内词统计机器翻译中的未登录词问题传统处理方法与缺陷保持语义功能的未登录词处理方法实验结果与实例分析
基于分布语义模型的方法基于双向语言模型的方法实验结果与实例分析总结

基于双向语言模型的方法分布语义模型的缺陷将所有上下文看做一个词袋不考虑上下文之间的词序与依赖什么是理想的模型?

简化 argmax? 模型回退前向语言模型P(wi|wi-1,wi-2,…)

简化 argmax? 模型回退后向语言模型P(wi|wi+1,wi+2,…)

简化 argmax? 模型回退 or

简化argmax? 模型回退前向语言模型后向语言模型 or 双向语言模型

附加约束词性约束

附加约束翻译规则约束搜索结果的集内词与未登录词的上下文组合必须存在翻译规则为百分之六左右  为一半左右
为百分之六左右  为一半左右 “一半左右 ||| about 50%”

实验设置语料翻译系统: Moses NIST2005中未登录词的分布训练语料：FBIS，23.6万句对
开发集: MT NIST2003 测试集: MT NIST2005 翻译系统: Moses NIST2005中未登录词的分布 1082句子中存在796 不同的未登录词 (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) and (M, 2)

翻译结果分布语义模型窗口大小 BLEU (%) POS BLEU(%) POS+Trans NIST 4 29.53 30.02
8.2254 8.3592 5 29.86 29.88 8.4487 8.3694 6 30.16 (0.42↑) 8.4296 8.3910 7 29.66 30.01 8.3724 8.4528 基线系统 29.74 8.3139 分布语义模型

翻译结果双向语言模型 constraint BLEU (%) NIST without pos 29.89 8.3885 with pos
30.28 (0.54↑) 8.4108 pos+trans 30.38 (0.64↑) 8.4659 baseline 29.74 8.3139 双向语言模型

翻译结果前向语言模型后向语言模型 constraint BLEU (%) NIST without pos 29.65 8.2882
with pos 29.98 8.3900 pos+trans 30.21 (0.47↑) 8.4268 前向语言模型 constraint BLEU (%) NIST without pos 29.67 8.3189 with pos 29.82 8.4127 pos+trans 30.15 (0.41↑) 8.4602 后向语言模型

两个翻译实例 … 内阁才作成决定， … Moses: … the cabinet 作成 decided … … 内阁才作出决定，… Moses:…before the cabinet made the decision ...

两个翻译实例 … 义演现场的热烈气氛， … Moses: … live义演 and warm atmosphere… … 演习现场的热烈气氛， … Moses:…the warm atmosphere of the exercise...

总结对于每个未登录词，搜索与该未登录词语义功能最相似的集内词两种算法相比于分布语义模型，双向语言模型具有更好的性能分布语义模型

THANKS! Q&A

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆 2012.11.4.

Similar presentations

Presentation on theme: "一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆 2012.11.4."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆 2012.11.4.

Similar presentations

Presentation on theme: "一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆 2012.11.4."— Presentation transcript:

Similar presentations

About project

反馈

一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆 2012.11.4.

Presentation on theme: "一种处理未登录词翻译的新视角张家俊翟飞飞宗成庆 2012.11.4."— Presentation transcript: