中文命名实体识别及关系提取 *** *** ***.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

1 認識創業之財務 ( 資金 ) 及稅務問題 講師 : 蘇炳章 日期 : 92 年 8 月 12 日.
第五课 企业与劳动者 制作人:李学峰 年 07 月 07 日《财富》世界 500 强发布 61 家中国内地 企业上榜 =
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
梦想启航 ——大学生活与职业规划专题讲座.
河北保定外国语学校 高三家长会.
从永磁体谈起.
以信息化带动教育现代化,打造教育的“南山质量”
高齡自主學習團體終身學習試辦計畫經費核銷
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
一个中国孩子的呼声.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
會計資訊系統 專章A.
第三章 調整與編表.
第四讲 1949—1991年的中苏关系 及其经验教训.
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
高考后之路, 如何选择?.
台北縣98年三鶯區語文研習 --建國國小 修辭與標點符號 福和國中廖惠貞
第七课 个人收入的分配 7.2收入分配与社会公平.
电磁铁.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
百度与广告法.
有三件事我很確定: 第一、愛德華是吸血鬼 第二、出於天性,他渴望喝我的血 第三、我無可救藥地愛上他了……
规范办学、内涵发展,提升教育水平 ----对基础教育发展的思考
与领导、下级、同事的 沟通技巧.
择业与创业教育 主讲 赵文静.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
新高考研究介绍 湖北省教育考试院项目研究组.
如东中专 学校文化课现状及提升举措的思考
第二节 工业地域的形成 工业联系 工业集聚 工业地域
當代國際企業.
社会新闻类材料作文示例.
第3讲 时间管理.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
《比尔·盖茨》让我们学到了些什么 何骏小组.
微软 创始人 ——比尔盖茨.
下载课件和相关资料请登录 “新浪·博客”搜索 “王大绩老师”博客.
采购控制程序 2008年9月.
单位:十堰离退休职工服务中心 时间:2016年2月1日
中国家电企业如何打造全球化品牌 黄 辉.
四川信托-汇誉10号集合资金信托计划.
《现代大学 英语》 说课程 公共课部 臧朝晖 益阳医学高等专科学校.
北京品御天景科技有限公司旗下户外纯玩旅游品牌
第六章 技术创新与经济增长 本章主要问题 ---技术创新过程 ---技术创新分类 ---技术创新动力源 ---技术创新影响因素
公務員廉政倫理規範.
組 員: 王 新 惠 吳 映 暄 李 盈 慧 廖 香 涵 盧 姵 華 訪談日期:
題目: 如何舒緩學習壓力,引導學生適性發展以培育健全公民
课程概要 主讲人:刘 鸿.
奥林巴斯显微镜的维护保养.
景景昌昌明.
第八課 郁離子選 (一)工之僑為琴 (二)詬食 劉基 課室觀察/黃慧禎老師/
職業病預防與健康管理資訊化.
公司名称 商业计划.
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
組員:.
知识点4---向量的线性相关性 1. 线性相关与线性无关 线性相关性的性质 2..
义务教育课程标准实验教科书 小学语文 四年级 下册
 主講人:楊文明主任委員   106/06/30 中華電信職工福利委員會台北分會業務簡介.
第四章 買賣業會計.
Presentation transcript:

中文命名实体识别及关系提取 *** *** ***

中文命名实体识别 语料:人民日报1998年版 主要方法:根据训练预料,利用CRF进行机器学习

中文命名实体识别 标注集1:由字构词 将{ ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为O Example:

中文命名实体识别 词缀标记 PSsur:人名的姓,比如“王” PSsuf:人名的后缀,比如“先生” Lsuf: 地名的后缀,比如“省”,“特区”,“地区” Osuf: 组织名的后缀,比如“委员会”,“公司” 原因:中文偏正关系 *为什么将词缀放到机器学习的标记中而不是用于结果修正? 后缀容易识别,但是向前匹配的位置难于确定,比如“上海IBM研究院”。

训练模板 字的特征识别: w[-1,0]:前一个字 w[0,0] w[1,0] w[-1,0]/w[0,0]:前面一个字和当前字的组合 词缀特征识别: w[-1,1]:前一个字的词缀 w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]

测试结果 测试方法: 将训练集拆分,80%用于训练,20%用于测试(200篇左右) 测试结果: Recall Precision F-score NR 81.6% 961/1178 92.6% 884/961 86.7% NS 84.4% 1362/1613 88.8% 1190/1362 86.6% NT 85.2% 538/631 90.7% 483/538 87.9%

校正 考虑到没有充分利用分词结果 Error:"{张牙舞/nr}爪" ===》利用分词结果可以校正 校正方法:如果命名实体不是由完整的几个词组成的,判错 校正结果: Recall Precision F-score NR 79.3% 935/1178 95.5% 891/935 86.7% NS 82.5% 1331/1613 89.8% 1180/1331 86.0% NT 85.1% 537/631 91.2% 485/537 88.0% 分词本身有错误率,所以降低了识别率。

一些问题 为什么没有在标记集中加入分词信息的一列 Example:江 PSsur B B nr-B 泽 UN B1 nr-B1 民 UN E nr-E 主 PSsuf B O 席 PSsuf E O 1) 训练时间过长,内存消耗过大。 如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。 2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主 PSsuf O-B"。实验数据显示,性能没有任何变化。

如何获得词缀信息 1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。 2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。

其它问题 为什么没有引入词性信息? 1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。 2)命名实体的准确率在90%以上,已经比词性标注要高了。 3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词性对于判错还有些用,但是对于Recall只会降低。 Any Other Quentions???

关系识别 Located-in关系: 穷举任意两个在一篇文章中出现的命名实体,然后判断他们是否是Located-in关系。 判断标准: 1)如果一个地点实体(NS)是一个组织(NT)的模糊前缀。比如“上海市” “上海大白兔有限公司” 2)一个地点后紧接着一个组织,“上海市” 的"大白兔有限公司" 3) 在上下文中有关键词匹配成功 4)NT中内含NS,“上海市闵行区派出所”

关于提取地点的核心词 如果一个地点只有一个词,那么去掉它的可以忽略的后缀,所有可以忽略的后缀以字典形式存在一个文件中。 “上海市”==》“上海” 如果一个地点实体由多个词组成,那么提取它的词性,然后取最后一个NS,然后判断后缀是否可忽略,如果可忽略返回最后的NS,否则返回最后的NS+后缀 “上海/NS浦东/NS机场/N”==》“浦东机场” “香港/NS特别/a行政区/N”==》“香港”

如何匹配上下文 在没有标注语料的情况下,采用了自定义规则,因为从训练语料来看,新闻题材中需要上下文匹配的情况较少,而且特点比较一致。 匹配的上下文形式化: 作用方向:是NS在前,NT在后,还是反之。 作用域:0:一个句子,不可有其他实体打断 1:NS之后全文 (新华社北京讯) 2:NS之前全文 (记者北京报道) 上文,中间,下文:正则表达式,上下文只用一个窗口,中间的文字去掉无用词,只保留名词和动词。

例子 1 0 [-] [.*|地处/v|.*] [-] 1 0 [-] [.*|位于/v|.*] [-] 1 0 [-] [.*/v|在/p] [-] 1 0 [-] [.*|地址/n|是/v] [-] 1 2 [-] [-] [.*|报道/v|.*/w] 1 2 [-] [-] [.*|讯/v|.*/w] 1 2 [-] [-] [.*|电/v|.*/w] 0 1 [.*/w|.*] [讯/v|.*/w|.*] [-] 0 1 [.*/w|.*] [报道/v|.*/w|.*] [-] 0 1 [.*/w|.*] [电/v|.*/w|.*] [-]

Founder关系 方法和Located-in关系抽取中上下文匹配的方式相同。 实际情况中,Founder关系一定是要有关键词提示的。 比如:Bill Gates创办了微软公司 【中文中有关键词】 Bill Gates是微软之父【后文中有关键词】

Employee关系 大多数Employee关系的关键词不是动词而是变化多端的职位 Example:中共中央总书记胡锦涛 微软CEO鲍尔默 识别方法:1)提取NT和NR之间的关键名词,作用域是一个句子中不可打断,除了并列举例的人名。 2)采用一个字典匹配,检查之间是否有职位

存在的问题 命名实体识别:命名实体有很多都识别了,但是无法准确定位一个完整的命名实体,比如“三峡坝区” 命名实体识别:外国人名 关系提取:上下文匹配的办法还比较幼稚,个人认为如果有一个标注的训练语料的话,如果可以统计词频,确定关键词。

Thanks