基于实体约束的纳西-汉语双语词语 对齐方法 杨秀贞 余正涛 郭剑毅 潘霄 毛存礼 昆明理工大学信息工程与自动化学院
论文题纲 1. 研究背景及意义 2.国内外研究现状 3.基于实体约束的纳西-汉语双语词语对齐方法 4. 实验及结果分析 5.结论
1 研究背景及意义 纳西语言研究意义 纳西文是由云南丽江纳西族先民创造并使用的文字,是目前世界上唯一仍在使用中的象形文字。 如:兔子( )、骆驼( )、鱼( )、稻谷( ) 现在仍有50万人在使用。 在各种外来文化和现代文明的渗透下,纳西象形文正在迅速地变异和消亡,为了实现对这一文字的保护与传承需要构建一个高质量的纳西-汉语双语机器翻译系统。 词语对齐的语料是机器翻译系统重要的资源。
1 研究背景及意义 实验室所做工作 制作了4186个纳西字符 实现了纳西-汉语双语词典 实现了纳西-英语、纳西-汉语、纳西拼音输入法 整理出纳西-汉语双语语料23000句左右;
2 国内外研究现状 中-英双语词语对齐方法 Franz Och 等人开发出了基于IBM模型的词语对齐开源工具GIZA++。 Och等人 (2003)提出模型 6,该模型是 IBM 翻译模型和 HMM 模型的线性整合。 Cherry 等人(2003)提出一种易于整合与上下文相关特征的统计模型。 刘群等人提出了基于对数线性模型的词语对齐方法。
2 国内外研究现状 纳西-汉语双语词语对齐方法 使用GIZA++实现纳西汉语双语词语对齐。 存在的问题:
2 国内外研究现状 本文提出的方法 针对以上问题,提出了一种基于实体约束的纳西-汉语双语词语对齐方法,在对齐时考虑双语句子中实体与实体应当对齐的特点,从而解决双语中实体对齐到非实体上的问题。
3 基于实体约束的纳西-汉语词语对齐方法 基于实体约束的纳西-汉语词语对齐方法的思想: 实现过程: 利用了双语对齐过程中,实体之间存在对齐关系,而现在实体方法能够将双语中的实体有效识别出来,通过标注双语中实体对齐关系,并利用这些关系来提高双语词语对齐的准确率。 实现过程: (1)对平行的纳西和汉语语句分别进行分词。 (2)识别出纳西语与汉语句子中的一些实体。 (3)将两个句子中对应的实体用相同标记替换。 (4)对替换后的语句使用GIZA++进行词语对齐 (5)通过扫描原始双语句对,将对齐结果中的标记还原为对应的实体,即可得到最后的对齐结果。
3.1 纳西分词 纳西语跟汉语一样,纳西语言同样存在分词问题。选取句子中纳西字符作为特征,标记词切分语料,采用条件随机场模型训练构建纳西分词模型。 (1)特征模板定义 代表着当前字符; 是相对于当前字符所处的位置。比如,在序列 (一家人喜欢吃鲜肉)中,假如当前字符是‘ (人)’; 表示‘ (家)’; 表示‘ (一)’。 是针对分词语料中存在的标点符号(预先搜集,比如‘。’、‘?’等)而设置的特征。
3.1 纳西分词 (2)语料预处理,切分为单个字符 (3)标记语料
3.1 纳西分词 (4)训练模型 (5)识别
3.1 纳西分词结果 (6)分析整理得到最终的纳西分词结果
3.2 单语实体识别 纳西端: 首先使用条件随机场对纳西语句子进行分词和词性标记,然后再次使用条件随机场对分词后的句子进行实体识别(人名、地名、数词和时间词)例如: 中文端: 首先使用ICTCLAS对汉语句子进行分词和词性标记,ICTCLAS自身还带有实体识别模块,借助该模块,对汉语句子进行实体识别。例如:
3.3 双语实体对齐 对识别出来的纳西和汉语实体,借助纳西-汉语词典,实现纳西汉语实体对齐。
3.4 标记替换 将纳西汉语相对应的实体用RM、DM、SC和SJC,替换识别出来的实体,注意:在同一个句子中不同的实体用不同的标记来替换。例如:
3.5 GIZA++对齐 GIZA++对齐: 在用标记替换实体后的双语句对上,使用GIZA++工具进行对齐。对齐结果如下所示:
3.6 标记还原 标记还原: 通过扫描原始双语句对,将标记还原为其对应的实体,这样即可得到最终的对齐结果。
4 实验及结果分析 为了验证这个方法,以只用IBM模型作为对比实验,收集了8000句的纳西-汉语双语平行语料;从8000句的纳西-汉语语料库中抽取了200句作为评测数据。 通过对比实验看出, 准确率提高了5.48%,召回率提高了5.88%,F权重提高了5.13%,词语对齐错误率降低了7% 。
5 结论 下一步工作: 表明了基于实体约束的纳西-汉语双语词语对齐方法对纳西-汉语的词语对齐有很好的效果。 这对构建纳西-汉语双语语料库具有非常好支撑作用 下一步工作: 将从如何融合纳西语言句法或语义特点研究纳西汉语双语句子对齐 。
谢谢大家!