基于实体约束的纳西-汉语双语词语对齐方法

Slides:

Advertisements

Similar presentations

机器翻译研究现状史晓东 12 July 2004 于复旦大学.

Advertisements

根據拜占庭菲羅所分類的七大奇觀中，只有埃及金字塔 (Pyramids of Egypt) 巍然獨存，目前埃及約有八十多座金字塔，始建於公元前 2686 年至公元前 2181 年。重點位於『基沙』（ Giza) 、『薩卡拉』（ Saqqara) 及『孟斐斯』 (Memphis) 。

健康管理與運動美兆健康管理機構主講人：許智雄經歷：國內：大運會跳遠四連霸、大運會 4×100M 紀錄保持者曾任職： 2004 田徑奧運培訓隊教練、台北體院術科講師 … 現任：美兆旗艦會館運動管理師.

§ 4.3 功能模拟方法和黑箱方法萧振高级中学廖海平. 回顾与导入前言：控制的应用自古就有，并在近代得到迅速发展，在社会生产生活的各个领域都有极其广泛的应用。

1. 物联网的应用物联网的应用能源电力能源电力目标：目标：  可靠安全  经济高效  环境友好典型应用典型应用  绿色发电  可靠供电  安全输电、变电配电  智能用电智能电网.

LOGO 茂名职业技术学院图书馆 2013 级新生入馆教育讲座主讲：陈颖何涌瀛黄海啸. 亲爱的 2013 级新同学茂名职业技术学院图书馆热烈欢迎你们的光临！

简历，工作的钥匙北大青鸟 *** 中心. 找工作流程准备简历投发简历笔试面试复试转正试用发展.

企业文化与核心价值观主讲：孟凡驰教授中交四航局. 2 目录一、企业文化的目的价值恒久性与工具价值实践性二、企业文化管理学特征三、企业文化与企业发展战略四、企业文化整合、提炼、培育和建设的目的五、集团文化与分公司文化六、企业核心价值观.

国家级工程实践教育中心建设进展清华大学孙宏斌内容建设思路与概况针对问题的若干举措初步成效 3.

向解放军学习.

山西职业技术学院蒋晋红.

软件知识产权态势分析.

温故知新问题一：我国科技发展经过怎样的历程？中华民族在历史上曾创造了辉煌灿烂的文化，世界领先；

面对经济全球化.

第八章组织文化的整合 ——并购中的文化整合（二）小组成员：浦若蓉、朱谷一、贾彦彦.

我的旅遊計畫計畫人：張兆忻胸號：50916.

第四章激励的理念/原则第二章激励的定义及原理第一章为什么需要激励第三章激励的实用方法.

教育部慕课文件学习体会与软件学院共建共享模式及规划

附中科學班招生說明會多元附中第一選擇.

開發基金轉投資創業投資事業截至96年9月底止報告.

市场营销类流程化系列教材市场营销综合实训主编：渤海大学单凤儒教授科学出版社.

广西轨道交通工程职业教育集团运行机制建设案例综述

网站版式设计.

人民版新课标版高二必修3 8.1 工业革命时代的浪漫情怀.

高考后之路，如何选择？.

古埃及文明

讓人看了難忘的故事中藥房轉載分享人生積極正面訊息創造宇宙合諧快樂能量.

名人危機處理術快、狠、準三字訣走過每個困境

十四课品质:市场的通行证教学目标： 1、什么是品质？ 2、品质在市场经济中的作用。 3、诚信在市场经济中的重要性。

企业经营者的素质主讲人：张丽娜教科院03教育.

面对经济全球化江西省石城中学张文峰.

科学技术是第一生产力邓小平请大家说说你所知道的科学技术.

大数据时代生活、工作与思维的大变革.

五味子哈尔滨医科大学大庆校区生药教研室.

------全国教育科学规划办公室吴键副研究员

思维，决定一切－公司战略、企业文化与人力资源的思辨

《企业创新战略管理》第三章:柔性管理与组织资源再工程魏忠博士后、副教授.

第三节传统工业区与新工业区（第1课时）江苏省灌云高级中学洪泽.

对外经济贸易大学FDI研究中心兼职研究员

第8章组织职能与组织设计渤海大学孙悦博士.

公关协调能力目标初步学会对内及对外公众关系协调的基本方法。知识目标掌握组织内外公众协调的原理和方法。

推动社会主义文化大发展大繁荣的行动纲领 ——十七届六中全会《决定》解读

市场营销学 Marketing 商务学院市场营销系 2017/3/16.

国内产业园区成功模式研究.

串台词和广告词.

第二节工业地域的形成工业联系工业集聚工业地域

课题二十四铣床夹具【教学目的和要求】通过本课题的学习，使学生了解铣床夹具的种类、结构、组成部分。掌握铣床夹具的设计要点。初步具备设计和使用专用铣床夹具的能力。【教学内容摘要】本课题介绍了铣床夹具的类型与特点，以及一些典型的铣床夹具。【教学重点、难点】教学重点为铣床夹具类型与特点以及铣床夹具的结构、组成部分。

當代國際企業.

东北财经大学会计学院教授硕士生导师注册会计师教授级高级会计师

西安电子科技大学 Xidian University （陕西）云南省凤庆县第一中学石凤海 2015年1月28日.

名以清修利以义制绩以勤勉汇通天下新晋商理念李安平

浙江大学招生宣传.

新经济时代的企业家精神: 创新与超越性思维.

面对经济全球化.

第三、四章企業經營與國際環境管理學張緯良著方順展授課.

第七章组织结构设计.

樱花樱花烂漫几多时？柳绿桃红两未知。 .

育仁小學親職教育講座.

关于知识产权与品牌战略思考中国科学技术法学会会长段瑞春 2008年11月14日.

10. 脚手架费用计算.

新员工入职培训之—— 团队精神及忠诚度.

稅務法規營業稅及營利事業所得稅授課老師：鍾鳳娥 1.

Ch1　管理是什麼劉文雄管理學：整合觀點與創新思維3/e．中山大學企管系　著．前程文化　出版.

歷史軼聞(中) 配圖及pps幻燈片編輯：張偉林音樂：永恆之戒簡體轉繁體：Franz.

自主學習的引導策略數學領域臺北市三民國中　莊國彰　校長.

知识产权在中小企业中的作用讲座内容一、知识产权在发达国家及知名企业中的地位二、知识产权的基本概念及其特点

项目6 培育忠诚客户 1.

Presentation transcript:

基于实体约束的纳西-汉语双语词语对齐方法杨秀贞余正涛郭剑毅潘霄毛存礼昆明理工大学信息工程与自动化学院

论文题纲 1. 研究背景及意义 2.国内外研究现状 3.基于实体约束的纳西-汉语双语词语对齐方法 4. 实验及结果分析 5.结论

1 研究背景及意义纳西语言研究意义纳西文是由云南丽江纳西族先民创造并使用的文字,是目前世界上唯一仍在使用中的象形文字。如：兔子（）、骆驼（）、鱼（）、稻谷（）现在仍有50万人在使用。在各种外来文化和现代文明的渗透下，纳西象形文正在迅速地变异和消亡，为了实现对这一文字的保护与传承需要构建一个高质量的纳西-汉语双语机器翻译系统。词语对齐的语料是机器翻译系统重要的资源。

1 研究背景及意义实验室所做工作制作了4186个纳西字符实现了纳西-汉语双语词典实现了纳西-英语、纳西-汉语、纳西拼音输入法整理出纳西-汉语双语语料23000句左右；

2 国内外研究现状中-英双语词语对齐方法 Franz Och 等人开发出了基于IBM模型的词语对齐开源工具GIZA++。 Och等人 (2003)提出模型 6，该模型是 IBM 翻译模型和 HMM 模型的线性整合。 Cherry 等人(2003)提出一种易于整合与上下文相关特征的统计模型。刘群等人提出了基于对数线性模型的词语对齐方法。

2 国内外研究现状纳西-汉语双语词语对齐方法使用GIZA++实现纳西汉语双语词语对齐。存在的问题：

2 国内外研究现状本文提出的方法针对以上问题，提出了一种基于实体约束的纳西-汉语双语词语对齐方法，在对齐时考虑双语句子中实体与实体应当对齐的特点，从而解决双语中实体对齐到非实体上的问题。

3 基于实体约束的纳西-汉语词语对齐方法基于实体约束的纳西-汉语词语对齐方法的思想: 实现过程：利用了双语对齐过程中，实体之间存在对齐关系，而现在实体方法能够将双语中的实体有效识别出来，通过标注双语中实体对齐关系，并利用这些关系来提高双语词语对齐的准确率。实现过程：（1）对平行的纳西和汉语语句分别进行分词。（2）识别出纳西语与汉语句子中的一些实体。（3）将两个句子中对应的实体用相同标记替换。（4）对替换后的语句使用GIZA++进行词语对齐（5）通过扫描原始双语句对，将对齐结果中的标记还原为对应的实体，即可得到最后的对齐结果。

3.1 纳西分词纳西语跟汉语一样,纳西语言同样存在分词问题。选取句子中纳西字符作为特征，标记词切分语料，采用条件随机场模型训练构建纳西分词模型。（1）特征模板定义代表着当前字符；是相对于当前字符所处的位置。比如，在序列（一家人喜欢吃鲜肉）中，假如当前字符是‘ （人）’；表示‘ （家）’；表示‘ （一）’。是针对分词语料中存在的标点符号（预先搜集，比如‘。’、‘？’等）而设置的特征。

3.1 纳西分词（2）语料预处理，切分为单个字符（3）标记语料

3.1 纳西分词（4）训练模型（5）识别

3.1 纳西分词结果（6）分析整理得到最终的纳西分词结果

3.2 单语实体识别纳西端：首先使用条件随机场对纳西语句子进行分词和词性标记，然后再次使用条件随机场对分词后的句子进行实体识别（人名、地名、数词和时间词）例如：中文端：首先使用ICTCLAS对汉语句子进行分词和词性标记，ICTCLAS自身还带有实体识别模块，借助该模块，对汉语句子进行实体识别。例如：

3.3 双语实体对齐对识别出来的纳西和汉语实体，借助纳西-汉语词典，实现纳西汉语实体对齐。

3.4 标记替换将纳西汉语相对应的实体用RM、DM、SC和SJC，替换识别出来的实体，注意：在同一个句子中不同的实体用不同的标记来替换。例如：

3.5 GIZA++对齐 GIZA++对齐：在用标记替换实体后的双语句对上，使用GIZA++工具进行对齐。对齐结果如下所示：

3.6 标记还原标记还原：通过扫描原始双语句对，将标记还原为其对应的实体，这样即可得到最终的对齐结果。

4 实验及结果分析为了验证这个方法，以只用IBM模型作为对比实验，收集了8000句的纳西-汉语双语平行语料；从8000句的纳西-汉语语料库中抽取了200句作为评测数据。通过对比实验看出, 准确率提高了5.48％，召回率提高了5.88%，F权重提高了5.13%，词语对齐错误率降低了7% 。

5 结论下一步工作：表明了基于实体约束的纳西-汉语双语词语对齐方法对纳西-汉语的词语对齐有很好的效果。这对构建纳西-汉语双语语料库具有非常好支撑作用下一步工作：将从如何融合纳西语言句法或语义特点研究纳西汉语双语句子对齐。

谢谢大家！