基于实体约束的纳西-汉语双语词语 对齐方法

Slides:



Advertisements
Similar presentations
机器翻译研究现状 史晓东 12 July 2004 于 复旦大学.
Advertisements

根據拜占庭菲羅所分類的七大奇觀中, 只有埃及金字塔 (Pyramids of Egypt) 巍 然獨存,目前埃及約有八十多座金字塔 ,始建於公元前 2686 年至公元前 2181 年。重點位於『基沙』( Giza) 、『薩 卡拉』 ( Saqqara) 及『孟斐斯』 (Memphis) 。
健康管理與運動 美兆健康管理機構 主講人:許智雄 經歷:國內:大運會跳遠四連霸、大運會 4×100M 紀錄保持者 曾任職: 2004 田徑奧運培訓隊教練、台北體院術科講師 … 現任:美兆旗艦會館運動管理師.
§ 4.3 功能模拟方法和黑箱方法 萧振高级中学 廖海平. 回顾与导入 前言:控制的应用 自古就有,并在近 代得到迅速发展, 在社会生产生活的 各个领域都有极其 广泛的应用。
1. 物联网的应用物联网的应用 能源电力能源电力 目标: 目标:  可靠安全  经济高效  环境友好 典型应用 典型应用  绿色发电  可靠供电  安全输电、变电配电  智能用电 智能电网.
LOGO 茂名职业技术学院图书馆 2013 级新生入馆教育讲座 主讲:陈颖 何涌瀛 黄海啸. 亲爱的 2013 级新同学 茂名职业技术学院图书馆 热烈欢迎你们的光临!
简历,工作的钥匙 北大青鸟 *** 中心. 找工作流程 准备简历投发简历 笔试 面试 复试转正试用 发展.
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
国家级工程实践教育中心建设进展 清华大学 孙宏斌 内 容 建设思路与概况 针对问题的若干举措 初步成效 3.
向解放军学习.
山西职业技术学院 蒋晋红.
软件知识产权态势分析.
温故知新 问题一:我国科技发展经过怎样的历程? 中华民族在历史上曾创造了辉煌灿烂的文化,世界领先;
面对经济全球化.
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
我的旅遊計畫 計畫人:張兆忻 胸號:50916.
第四章 激励的理 念/原则 第二章 激励的定 义及原理 第一章 为什么需 要激励 第三章 激励的实 用方法.
教育部慕课文件学习体会与软件学院共建共享模式及规划
附中科學班 招生說明會 多元附中 第一選擇.
開發基金轉投資創業投資事業 截至96年9月底止報告.
市场营销类流程化系列教材 市场营销综合实训 主编:渤海大学 单凤儒 教授 科学出版社.
广西轨道交通工程职业教育集团 运行机制建设案例综述
网站版式设计.
人民版新课标版高二必修3 8.1 工业革命时代的浪漫情怀.
高考后之路, 如何选择?.
古埃及文明
讓人看了難忘的故事 中藥房轉載 分享人生積極正面訊息 創造宇宙合諧快樂能量.
名人危機處理術 快、狠、準三字訣 走過每個困境
十四课 品质:市场的通行证 教学目标: 1、什么是品质? 2、品质在市场经济中的作用。 3、诚信在市场经济中的重要性。
企业经营者的素质 主讲人:张丽娜 教科院03教育.
面对经济全球化 江西省石城中学 张文峰.
科学技术是第一生产力 邓小平 请大家说说你所知道的科学技术.
大数据时代 生活、工作与思维的大变革.
平安夜.
五味子 哈尔滨医科大学大庆校区生药教研室.
------全国教育科学规划办公室 吴键 副研究员
思维,决定一切 -公司战略、企业文化与人力资源的思辨
《企业创新战略管理》 第三章:柔性管理与组织资源再工程 魏忠 博士后、副教授.
第三节 传统工业区与新工业区 (第1课时) 江苏省灌云高级中学 洪 泽.
对外经济贸易大学FDI研究中心 兼职研究员
第8章 组织职能与组织设计 渤海大学 孙悦博士.
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
推动社会主义文化 大发展大繁荣的行动纲领 ——十七届六中全会《决定》解读
市场营销学 Marketing 商务学院市场营销系 2017/3/16.
国内产业园区成功模式研究.
串台词和广告词.
第二节 工业地域的形成 工业联系 工业集聚 工业地域
课题二十四 铣床夹具 【教学目的和要求】 通过本课题的学习,使学生了解铣床夹具的种类、结构、组成部分。掌握铣床夹具的设计要点。初步具备设计和使用专用铣床夹具的能力。 【教学内容摘要】 本课题介绍了铣床夹具的类型与特点,以及一些典型的铣床夹具。 【教学重点、难点】 教学重点为铣床夹具类型与特点以及铣床夹具的结构、组成部分。
當代國際企業.
东北财经大学会计学院 教授 硕士生导师 注册会计师 教授级高级会计师
西安电子科技大学 Xidian University (陕西) 云南省凤庆县第一中学 石凤海 2015年1月28日.
名以清修 利以义制 绩以勤勉 汇通天下 新晋商理念 李安平
浙江大学招生宣传.
新经济时代的企业家精神: 创新与超越性思维.
手机:
面对经济全球化.
第三、四章 企業經營與國際環境 管理學 張緯良 著 方順展 授課.
第七章 组织结构设计.
樱花 樱花烂漫几多时?柳绿桃红两未知。 .
育仁小學 親職教育講座.
关于知识产权与品牌战略思考 中国科学技术法学会会长 段 瑞 春 2008年11月14日.
10. 脚手架费用计算.
新员工入职培训之—— 团队精神及忠诚度.
稅 務 法 規 營業稅及營利事業所得稅 授課老師:鍾鳳娥 1.
Ch1 管理是什麼 劉文雄 管理學:整合觀點與創新思維3/e.中山大學企管系 著.前程文化 出版.
歷史軼聞(中) 配圖及pps幻燈片編輯: 張偉林 音樂:永恆之戒 簡體轉繁體:Franz.
自主學習的引導策略 數學領域 臺北市三民國中 莊國彰 校長.
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
项目6 培育忠诚客户 1.
Presentation transcript:

基于实体约束的纳西-汉语双语词语 对齐方法 杨秀贞 余正涛 郭剑毅 潘霄 毛存礼 昆明理工大学信息工程与自动化学院

论文题纲 1. 研究背景及意义 2.国内外研究现状 3.基于实体约束的纳西-汉语双语词语对齐方法 4. 实验及结果分析 5.结论

1 研究背景及意义 纳西语言研究意义 纳西文是由云南丽江纳西族先民创造并使用的文字,是目前世界上唯一仍在使用中的象形文字。 如:兔子( )、骆驼( )、鱼( )、稻谷( ) 现在仍有50万人在使用。 在各种外来文化和现代文明的渗透下,纳西象形文正在迅速地变异和消亡,为了实现对这一文字的保护与传承需要构建一个高质量的纳西-汉语双语机器翻译系统。 词语对齐的语料是机器翻译系统重要的资源。

1 研究背景及意义 实验室所做工作 制作了4186个纳西字符 实现了纳西-汉语双语词典 实现了纳西-英语、纳西-汉语、纳西拼音输入法 整理出纳西-汉语双语语料23000句左右;

2 国内外研究现状 中-英双语词语对齐方法 Franz Och 等人开发出了基于IBM模型的词语对齐开源工具GIZA++。 Och等人 (2003)提出模型 6,该模型是 IBM 翻译模型和 HMM 模型的线性整合。 Cherry 等人(2003)提出一种易于整合与上下文相关特征的统计模型。 刘群等人提出了基于对数线性模型的词语对齐方法。

2 国内外研究现状 纳西-汉语双语词语对齐方法 使用GIZA++实现纳西汉语双语词语对齐。 存在的问题:

2 国内外研究现状 本文提出的方法 针对以上问题,提出了一种基于实体约束的纳西-汉语双语词语对齐方法,在对齐时考虑双语句子中实体与实体应当对齐的特点,从而解决双语中实体对齐到非实体上的问题。

3 基于实体约束的纳西-汉语词语对齐方法 基于实体约束的纳西-汉语词语对齐方法的思想: 实现过程: 利用了双语对齐过程中,实体之间存在对齐关系,而现在实体方法能够将双语中的实体有效识别出来,通过标注双语中实体对齐关系,并利用这些关系来提高双语词语对齐的准确率。 实现过程: (1)对平行的纳西和汉语语句分别进行分词。 (2)识别出纳西语与汉语句子中的一些实体。 (3)将两个句子中对应的实体用相同标记替换。 (4)对替换后的语句使用GIZA++进行词语对齐 (5)通过扫描原始双语句对,将对齐结果中的标记还原为对应的实体,即可得到最后的对齐结果。

3.1 纳西分词 纳西语跟汉语一样,纳西语言同样存在分词问题。选取句子中纳西字符作为特征,标记词切分语料,采用条件随机场模型训练构建纳西分词模型。 (1)特征模板定义 代表着当前字符; 是相对于当前字符所处的位置。比如,在序列 (一家人喜欢吃鲜肉)中,假如当前字符是‘ (人)’; 表示‘ (家)’; 表示‘ (一)’。 是针对分词语料中存在的标点符号(预先搜集,比如‘。’、‘?’等)而设置的特征。

3.1 纳西分词 (2)语料预处理,切分为单个字符 (3)标记语料

3.1 纳西分词 (4)训练模型 (5)识别

3.1 纳西分词结果 (6)分析整理得到最终的纳西分词结果

3.2 单语实体识别 纳西端: 首先使用条件随机场对纳西语句子进行分词和词性标记,然后再次使用条件随机场对分词后的句子进行实体识别(人名、地名、数词和时间词)例如: 中文端: 首先使用ICTCLAS对汉语句子进行分词和词性标记,ICTCLAS自身还带有实体识别模块,借助该模块,对汉语句子进行实体识别。例如:

3.3 双语实体对齐 对识别出来的纳西和汉语实体,借助纳西-汉语词典,实现纳西汉语实体对齐。

3.4 标记替换 将纳西汉语相对应的实体用RM、DM、SC和SJC,替换识别出来的实体,注意:在同一个句子中不同的实体用不同的标记来替换。例如:

3.5 GIZA++对齐 GIZA++对齐: 在用标记替换实体后的双语句对上,使用GIZA++工具进行对齐。对齐结果如下所示:

3.6 标记还原 标记还原: 通过扫描原始双语句对,将标记还原为其对应的实体,这样即可得到最终的对齐结果。

4 实验及结果分析 为了验证这个方法,以只用IBM模型作为对比实验,收集了8000句的纳西-汉语双语平行语料;从8000句的纳西-汉语语料库中抽取了200句作为评测数据。 通过对比实验看出, 准确率提高了5.48%,召回率提高了5.88%,F权重提高了5.13%,词语对齐错误率降低了7% 。

5 结论 下一步工作: 表明了基于实体约束的纳西-汉语双语词语对齐方法对纳西-汉语的词语对齐有很好的效果。 这对构建纳西-汉语双语语料库具有非常好支撑作用 下一步工作: 将从如何融合纳西语言句法或语义特点研究纳西汉语双语句子对齐 。

谢谢大家!