一个基于触发词映射的中文事件论元抽取方法

Slides:



Advertisements
Similar presentations
登 岳 阳 楼 杜甫 昔闻洞庭水, 今上岳阳楼。吴楚东南坼, 乾坤日夜浮。 亲朋无一字, 老病有孤舟。戎马关山北, 凭轩涕泗流。
Advertisements

2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
if 条件状语从句的含义 Jack 对 Rose 说: “ 如果你跳,我也会跳! ” If you jump,I will jump!
(一)由来: 清明节是农历二十四节气中第五个节气,冬至后 108 天,春分之后,谷雨之前,在每年的阳历 4 月 5 日。 中国传统的清明节大约始于周代,距今已有二千 五百多年的历史。 《历书》: “ 春分后十五日,为清明,时万物皆洁 齐而清明,盖时当气清景明,万物皆显,因此得 名。 ” 清明一到,气温升高,正是春耕春种的大好时节.
解释下面 “ 将 ” 的意义: ①将进酒( ) ②呼儿将出换美酒( ) ③爷娘闻女来,出郭相扶将( ) ④王侯将相宁有种乎( ) ⑤ 彼所将中国人不过十五六万( ) ⑥一车炭,千余斤,宫使驱将不得惜 ( ) ⑦将子无怒,秋以为期 ( ) 动 词、请 qiāng 动词、拿 jiāng 动词、扶 jiāng.
童 年 的 朋 友 高尔基.
唐诗两首 与夏十二登岳阳楼 ——李白 登岳阳楼 ——杜甫.
预防控制流感及A(H1N1)型流感工作指引.
詹天佑 詹天佑(1861—1919),江西婺wu源人。我国杰出的爱国工程师、铁路工程专家。毕业于美国耶鲁大学。他是中国首位铁路工程师,负责修建了京张铁路(北京——张家口)等铁路工程,有“中国铁路之父”、“中国近代工程之父”之称。
(语文).
让我们一起学习一个来自德国的 犟龟jiàng guī ——德国:米切尔·恩德.
有的人活着, 他已经死了; 有的人死了, 他还活着。 ——臧克家.
穷人.
诗 经 卫风·氓 聆 听 三 千 年 华 夏 先 民 吟 唱 感 受 公 元 前 东 方 文 明 辉 煌.
六国论 苏 洵.
陈情表 李密 龙江一中高二语文备课组.
错别字的五种成因.
寓言四则 1、赫耳墨斯和雕像者《伊索寓言》 2、蚊子和狮子《伊索寓言》 3、智子疑邻《韩非子》 4、塞翁失马《淮南子》
“缅怀先烈”之旅 班级:六年级 教者:贾瑞涛.
Leveraging FrameNet to Improve Automatic Event Detection
扁鹊传.
汽车在( )上行驶.
天净沙·秋思 马致远 枯藤老树昏鸦, 小桥流水人家, 古道西风瘦马。 夕阳西下, 断肠人在天涯。
人教版三年级语文 多媒体课件.
语文园地五.
我的四季 张洁.
Dí 爱迪生.
苏教版小学语文第七册 5.我给江主席献花 第一课时 侯小群.
搭 石.
五年级语文课内阅读复习
课文导入 同学们,在四年的学习生活中,你一定遇到过几位好老师,他们一定给你留下了深刻的印象。回忆一下,他们为什么使你难忘?下面我们就来听一听著名作家刘绍棠对儿时老师的回忆。今天我们来学习第一课《师恩难忘》。首先我们就去名人殿堂来认识一下作者。
雪 鲁 迅.
一、走进文本 1、《春》的作者是_______,字_____,号_____。原籍浙江绍兴人,现代的_______ ,______。他的______,________都是脍炙人口的名篇。 朱自清 佩弦 秋实 散文家 诗人 《背影》 《荷塘月色》
在PHP和MYSQL中实现完美的中文显示
说一说 现在的你和小时候的你 相比有什么变化?.
第10课 明清专制集权的加强 瓦子中学 张广秀.
第八章 第一节 日本 邹旭丹 滨河中学初中部 湘教版地理初一年级.
何其芳 松泉中学 欧阳明慧.
人教版﹒七年级上册 第四单元 三国两晋南北朝时期:政权分立与民族交融 第17课 西晋的短暂统一和北方各族的内迁.
SOA – Experiment 3: Web Services Composition Challenge
Wentao Ding Linfeng Shi Jiajie Yu
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
基于规则抽取的 时间表达式识别.
秋天的图画 吴虹 紫河中学 教科版二年级上册.
六 国 论 (北宋 苏洵) 1、作者简介: 见课下注释 补充: 号老泉, 人称“老苏”,唐宋八大家之一。 后人称赞:一门三父子,都是大文豪。
嬴政并吞六国 “姜尚渭水钓鱼” —— 鱼; “秦琼长安卖马” ——马肉; “苏武北海牧羊” ——羊肉; “张飞蜀都卖肉” ——猪肉;
碳汇资本在旅游融资中的应用研究 阚如良 梅雪 孔婷 经济与管理学院旅游管理系
29 父亲和鸟.
  你喜欢鸟吗?这些鸟可爱吗?.   你喜欢鸟吗?这些鸟可爱吗?   自己读通课文,不认识的字借助拼音读准,把课后“我会认”里出现的字多读几遍。   小组内的同学互相指读课文和生字。比一比,看谁读得准确。
6 小 摄 影 师 宋家沟小学:杨艳飞制作.
动名词(续2).
语文版八年级语文上册 第六单元 第22课 记承天寺夜游 苏轼 主教: 游建凌.
基本句型(二) S+Vt+O+C.
语法复习----代词.
Three stability circuits analysis with TINA-TI
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
十六年前的回忆 四川省宜宾市农业街小学校 王明金.
实体描述呈现方法的研究 实验评估 2019/5/1.
了解介词.
口 译 理 论 与 实 践 沈阳师范大学 闫怡恂 教授.
乌鸦喝水.
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
S + Vt. + O (主语+谓语+宾语 句型).
基于列存储的RDF数据管理 朱敏
Adj + Noun映射到知识库中的classes
17、小壁虎借尾巴 授课班级:一年三班 授课人:马海燕.
第十七讲 密码执行(1).
Presentation transcript:

一个基于触发词映射的中文事件论元抽取方法 黄媛 李培峰 朱巧明

问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望 报 告 内 容 问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望 1

问 题 介 绍 背景: 意义: 目标: 事件抽取是从无结构化文本中提取有效信息; 论元抽取对事件抽取能否用于实际中起着决定性作用。 有利于人们更加方便的理解有效信息。 目标: 使得事件抽取的信息更加完整,表达更为准确,便于人的理解。 2

问 题 介 绍 存在问题: 解决方法: 1.中文的句法结构松散,省略情况非常普遍,减弱了论元抽取中句法结构的作用。 2.名词性触发词与论元在句法层面上比较松散,导致了很多名词性触发词触发的事件的论元抽取比较困难。(抽取性能落后于动词性触发词约10%) 解决方法: 本文针对上述两个问题提出了一种基于触发词映射的论元抽取方法,该方法把名词性触发词映射到它的谓词上,并以谓词为核心抽取句法特征进行分类。 3

研 究 现 状 现在主流的方法是基于机器学习的方法,将事件抽取看作分类问题。 英语研究现状 Chieu和Ng(2002); Ahn(2006); Hardy(2006); Ji(2009); Liao和Grishman(2010); Hong等(2011);   现在主流的方法是机器学习方法,该方法将事件抽取看作是一个分类问题,如Chieu和Ng[7]将信息抽取看作分类问题,用最大熵分类方法对研讨会内容的演讲者、时间、地点等论元进行抽取;Ahn[1]采用管道模型(Pipeline),将事件抽取任务分成一系列子任务,利用MegaM和Timbl在ACE英文语料上进行事件抽取,这种方法将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡。Hardy[8]提出了一种基于数据驱动的方法进行事件探测,对候选事件进行分类。Ji[9]采用了一个归纳学习(Inductive Learning)框架,利用派生谓词集群,这种框架基于平行语料库(中文和英文)和跨语言信息抽取,改善了事件抽取的性能。Liao和Grishman[10]根据同一篇文档中事件类型的一致性,提出了单文档跨事件推理方法。Hong等[3]利用跨实体的一致性理论进行论元角色抽取。 4 4

研 究 现 状 汉语研究现状 赵妍妍等(2008); 谭红叶(2008); Chen和Ji(2009); 侯立斌等(2012); Chen Chen和Ng(2012); 李培峰等(2013);   在ACE中文语料上,赵妍妍等[2]首次针对ACE中文语料进行了中文事件抽取的研究,在事件识别阶段采用了一种基于自动扩展和二元分类相结合的方法,在事件论元角色抽取阶段采用了基于最大熵多元分类的方法,这些方法解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题。Chen和Ji[4]参照Ahn的管道模型,实现了中文事件抽取系统,并计算了词汇、句法、语义等特征的贡献度;谭红叶[6]在事件的检测和分类任务中提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别上的识别效果,在论元抽取任务中通过构建模式来反映事件论元角色和触发词之间的关系,采用了基于多层模式和CRF模型的事件论元角色识别方法;侯立斌[5]等利用CRF模型进行事件论元角色抽取。Chen ret al. [11] employed a joint modeling approach to event extraction to solve the error propagation problem inherent in Li et al.’s [13] pipeline system architecture, and then investigated a variety of rich knowledge sources for Chinese event extraction that encode knowledge ranging from the character level to the discourse level. Li et al. [12] proposed a novel global argument inference model to explore specific relationships among relevant event mentions to recover those inter-sentence arguments in the sentence, discourse and document layers. 5 5

基于触发词映射的方法 例1: (E1):巴勒斯坦的一个部队(Attacker)袭击(EM1:Attack;POS:VV)了以色列村庄(Target)。 (E2):巴勒斯坦(Attacker;Target)和以色列(Attacker;Target)发生冲突(EM2:Attack;POS:NN)。 在上述E1、E2两个事件句中, E1事件句的触发词为动词,而E2事件句的触发词为名词,可以看出E1和E2两个事件句在结构上有很大的不同,我们对这两个事件句进行了依存分析(如下图): 6

基于触发词映射的方法 E1: E2: 7

基于触发词映射的方法 E1中动词触发词“袭击”和论元角色“部队”有直接联系:nsubj(袭击,部队),很容易将“部队”识别为论元;而在E2中名词触发词“冲突”与论元“以色列” 关系较为松散,并没有直接联系,使得“以色列”不容易识别为论元,它们之间需要通过谓词“发生”才能建立联系:nsubj(发生,以色列),dobj(发生,冲突)。 同时,可以发现谓词“发生”在E2中的成分与动词触发词“袭击”在E1中的成分非常相似,因此,在E2中,将名词性触发词“冲突”映射到谓词“发生”上,提高E2和E1的句子相似度,然后再进行论元抽取,提高系统性能。 8

特征选取 基准系统:采用侯立斌的论元抽取系统作为基准系统,并在其特征的基础上新增了两个特征。 特征类型 特征描述 举例说明 基本特征 触发词的词形 、词性 触发词为:冲突;词性 为:名词 触发词所表示的事件类型 事件类型:Attack 实体类别、实体中心词 实体类别:GPE;中心 词:以色列 相邻词特 征 实体的前一词的词形和词性特征 词形为:和;词性为: 连词 实体的后一词的词形和词性特征 词形:发生;词性为: 动词 触发词前一词的词形和词性特征 词形为:发生;词性为: 动词 触发词后一词的词形和词性特征 词形为:无;词性为: 无 依存特征 触发词和当前实体(或实体中心词) 之间的依存路径 dobj(发生-4, 冲突-5) nsubj(发生-4, 以色列-3) 句法特征 实体到触发词的最短路径 NR↑NP↑IP↓VP↓NP↓NN 相对位置 实体相对与触发词的位置,在前还 是后 相对位置:前 新增特征 f(11)名词触发词所在句子的谓词 所在动词:发生 f(12)该谓词与触发词的依存关系 基准系统:采用侯立斌的论元抽取系统作为基准系统,并在其特征的基础上新增了两个特征。 特征选择:由于触发词为动词的事件句并不需要做触发词映射,我们只对触发词 为名词的事件句,将名词性触发词映射到该句的谓词上,特征选取如下: 以E2事件句为例进行说明 9

基于规则过滤负例 现象:存在并列或具有修饰关系,并且在句子中连续出现的实体,绝大多数情况下只有最后的一个实体才能作为论元。如例2所示,“中共”“中央”“直属机关”“党委”“副书记”都作为候选论元,但是前面的“中共”等虽然是实体,却是修饰“副书记”的,我们对这种并列实体选取最后一个作为候选论元。 例2: 武绍祖 月前 已经 被 安排 出任 中共 中央 直属 机关 党委 第二 副书记,仍然 享受 部级 的 待遇。 规则: 10

实 验 实验语料:ACE2005中文语料,共633篇新闻文档,本文随机选取33篇作为开发集,534篇作为训练集,剩余66篇为测试集。在测试集中,共有854个论元,其中185个论元对应的触发词是名词,665个论元对应的触发词是动词,其余的对应的触发词是代词。 评价指标:采用常用的P、R、F1值作为评价标准。 11

实 验 1、过滤负例并且加上新特征的实验结果: 2、未过滤负例的实验结果: NN(%) All(%) P R F1 论元抽取(%) 基准 32.4 44.9 37.6 41.4 52.8 46.4 动词_名词 36.3 53.5 43.3 43.0 55.6 48.5 +新特征 39.2 55.1 45.8 43.8 56.0 49.2 论元识别(%) 28.2 39.5 32.9 36.8 47.9 41.6 31.9 47.0 38.0 39.4 48.9 43.6 34.6 48.6 40.4 40.5 51.7 45.4 P(%) R(%) F1(%) 论元抽取(过滤/未过滤) 37.6(-1.6) 55.7(+0.6) 44.9(-0.9) 论元识别(过滤/未过滤) 32.1(-2.5) 47.6(-1.0) 38.3(-2.1) 12

实 验 3、新特征贡献度计算: 特征 P(%) R(%) F1值(%) 基准系统 36.3 53.5 43.3 +f(11) +0.9 +1.1 +1.0 +f(12) +0.1 -1.1 -0.3 +f(11)+f(12) +2.9 +1.6 +2.5 13

实验结果分析 1.正负样例比从过滤前3.3:1 降到过滤后3:1,R值下降主要是因为过滤过程中同样过滤了少数正例 。 2.基准系统->动名词分离:触发词为动词的事件句与触发词为名词的事件句在句法结构上有很大的不同;触发词为动词的论元是触发词为名词的论元的好几倍,不分句型放在一起进行论元抽取,它们会相互影响,导致系统性能下降。 3.动名词分离->新特征:名词触发词映射到了句子的谓词上,同时,新抽取出的论元主要来自于与映射谓词有动宾关系或者主谓关系的候选论元。 (6390:1916) to (5520:1817) 14

总 结 及 展 望 本文提出了一种基于触发词映射的论元抽取方法,接下来对于含有名词性触发词的事件句,挖掘更有效果的特征进行论元抽取;同时可以考虑利用篇章级信息以及角色相似度信息进行推理。 15

谢谢,敬请指导! 16