Download presentation
Presentation is loading. Please wait.
1
一个基于触发词映射的中文事件论元抽取方法
黄媛 李培峰 朱巧明
2
问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望
报 告 内 容 问题介绍 研究现状 基于触发词映射的方法 特征选取 基于规则过滤负例 实验及分析 总结及展望 1
3
问 题 介 绍 背景: 意义: 目标: 事件抽取是从无结构化文本中提取有效信息; 论元抽取对事件抽取能否用于实际中起着决定性作用。
有利于人们更加方便的理解有效信息。 目标: 使得事件抽取的信息更加完整,表达更为准确,便于人的理解。 2
4
问 题 介 绍 存在问题: 解决方法: 1.中文的句法结构松散,省略情况非常普遍,减弱了论元抽取中句法结构的作用。
2.名词性触发词与论元在句法层面上比较松散,导致了很多名词性触发词触发的事件的论元抽取比较困难。(抽取性能落后于动词性触发词约10%) 解决方法: 本文针对上述两个问题提出了一种基于触发词映射的论元抽取方法,该方法把名词性触发词映射到它的谓词上,并以谓词为核心抽取句法特征进行分类。 3
5
研 究 现 状 现在主流的方法是基于机器学习的方法,将事件抽取看作分类问题。 英语研究现状 Chieu和Ng(2002);
Ahn(2006); Hardy(2006); Ji(2009); Liao和Grishman(2010); Hong等(2011); 现在主流的方法是机器学习方法,该方法将事件抽取看作是一个分类问题,如Chieu和Ng[7]将信息抽取看作分类问题,用最大熵分类方法对研讨会内容的演讲者、时间、地点等论元进行抽取;Ahn[1]采用管道模型(Pipeline),将事件抽取任务分成一系列子任务,利用MegaM和Timbl在ACE英文语料上进行事件抽取,这种方法将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡。Hardy[8]提出了一种基于数据驱动的方法进行事件探测,对候选事件进行分类。Ji[9]采用了一个归纳学习(Inductive Learning)框架,利用派生谓词集群,这种框架基于平行语料库(中文和英文)和跨语言信息抽取,改善了事件抽取的性能。Liao和Grishman[10]根据同一篇文档中事件类型的一致性,提出了单文档跨事件推理方法。Hong等[3]利用跨实体的一致性理论进行论元角色抽取。 4 4
6
研 究 现 状 汉语研究现状 赵妍妍等(2008); 谭红叶(2008); Chen和Ji(2009); 侯立斌等(2012);
Chen Chen和Ng(2012); 李培峰等(2013); 在ACE中文语料上,赵妍妍等[2]首次针对ACE中文语料进行了中文事件抽取的研究,在事件识别阶段采用了一种基于自动扩展和二元分类相结合的方法,在事件论元角色抽取阶段采用了基于最大熵多元分类的方法,这些方法解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题。Chen和Ji[4]参照Ahn的管道模型,实现了中文事件抽取系统,并计算了词汇、句法、语义等特征的贡献度;谭红叶[6]在事件的检测和分类任务中提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别上的识别效果,在论元抽取任务中通过构建模式来反映事件论元角色和触发词之间的关系,采用了基于多层模式和CRF模型的事件论元角色识别方法;侯立斌[5]等利用CRF模型进行事件论元角色抽取。Chen ret al. [11] employed a joint modeling approach to event extraction to solve the error propagation problem inherent in Li et al.’s [13] pipeline system architecture, and then investigated a variety of rich knowledge sources for Chinese event extraction that encode knowledge ranging from the character level to the discourse level. Li et al. [12] proposed a novel global argument inference model to explore specific relationships among relevant event mentions to recover those inter-sentence arguments in the sentence, discourse and document layers. 5 5
7
基于触发词映射的方法 例1: (E1):巴勒斯坦的一个部队(Attacker)袭击(EM1:Attack;POS:VV)了以色列村庄(Target)。 (E2):巴勒斯坦(Attacker;Target)和以色列(Attacker;Target)发生冲突(EM2:Attack;POS:NN)。 在上述E1、E2两个事件句中, E1事件句的触发词为动词,而E2事件句的触发词为名词,可以看出E1和E2两个事件句在结构上有很大的不同,我们对这两个事件句进行了依存分析(如下图): 6
8
基于触发词映射的方法 E1: E2: 7
9
基于触发词映射的方法 E1中动词触发词“袭击”和论元角色“部队”有直接联系:nsubj(袭击,部队),很容易将“部队”识别为论元;而在E2中名词触发词“冲突”与论元“以色列” 关系较为松散,并没有直接联系,使得“以色列”不容易识别为论元,它们之间需要通过谓词“发生”才能建立联系:nsubj(发生,以色列),dobj(发生,冲突)。 同时,可以发现谓词“发生”在E2中的成分与动词触发词“袭击”在E1中的成分非常相似,因此,在E2中,将名词性触发词“冲突”映射到谓词“发生”上,提高E2和E1的句子相似度,然后再进行论元抽取,提高系统性能。 8
10
特征选取 基准系统:采用侯立斌的论元抽取系统作为基准系统,并在其特征的基础上新增了两个特征。
特征类型 特征描述 举例说明 基本特征 触发词的词形 、词性 触发词为:冲突;词性 为:名词 触发词所表示的事件类型 事件类型:Attack 实体类别、实体中心词 实体类别:GPE;中心 词:以色列 相邻词特 征 实体的前一词的词形和词性特征 词形为:和;词性为: 连词 实体的后一词的词形和词性特征 词形:发生;词性为: 动词 触发词前一词的词形和词性特征 词形为:发生;词性为: 动词 触发词后一词的词形和词性特征 词形为:无;词性为: 无 依存特征 触发词和当前实体(或实体中心词) 之间的依存路径 dobj(发生-4, 冲突-5) nsubj(发生-4, 以色列-3) 句法特征 实体到触发词的最短路径 NR↑NP↑IP↓VP↓NP↓NN 相对位置 实体相对与触发词的位置,在前还 是后 相对位置:前 新增特征 f(11)名词触发词所在句子的谓词 所在动词:发生 f(12)该谓词与触发词的依存关系 基准系统:采用侯立斌的论元抽取系统作为基准系统,并在其特征的基础上新增了两个特征。 特征选择:由于触发词为动词的事件句并不需要做触发词映射,我们只对触发词 为名词的事件句,将名词性触发词映射到该句的谓词上,特征选取如下: 以E2事件句为例进行说明 9
11
基于规则过滤负例 现象:存在并列或具有修饰关系,并且在句子中连续出现的实体,绝大多数情况下只有最后的一个实体才能作为论元。如例2所示,“中共”“中央”“直属机关”“党委”“副书记”都作为候选论元,但是前面的“中共”等虽然是实体,却是修饰“副书记”的,我们对这种并列实体选取最后一个作为候选论元。 例2: 武绍祖 月前 已经 被 安排 出任 中共 中央 直属 机关 党委 第二 副书记,仍然 享受 部级 的 待遇。 规则: 10
12
实 验 实验语料:ACE2005中文语料,共633篇新闻文档,本文随机选取33篇作为开发集,534篇作为训练集,剩余66篇为测试集。在测试集中,共有854个论元,其中185个论元对应的触发词是名词,665个论元对应的触发词是动词,其余的对应的触发词是代词。 评价指标:采用常用的P、R、F1值作为评价标准。 11
13
实 验 1、过滤负例并且加上新特征的实验结果: 2、未过滤负例的实验结果: NN(%) All(%) P R F1 论元抽取(%) 基准
32.4 44.9 37.6 41.4 52.8 46.4 动词_名词 36.3 53.5 43.3 43.0 55.6 48.5 +新特征 39.2 55.1 45.8 43.8 56.0 49.2 论元识别(%) 28.2 39.5 32.9 36.8 47.9 41.6 31.9 47.0 38.0 39.4 48.9 43.6 34.6 48.6 40.4 40.5 51.7 45.4 P(%) R(%) F1(%) 论元抽取(过滤/未过滤) 37.6(-1.6) 55.7(+0.6) 44.9(-0.9) 论元识别(过滤/未过滤) 32.1(-2.5) 47.6(-1.0) 38.3(-2.1) 12
14
实 验 3、新特征贡献度计算: 特征 P(%) R(%) F1值(%) 基准系统 36.3 53.5 43.3 +f(11) +0.9
+1.1 +1.0 +f(12) +0.1 -1.1 -0.3 +f(11)+f(12) +2.9 +1.6 +2.5 13
15
实验结果分析 1.正负样例比从过滤前3.3:1 降到过滤后3:1,R值下降主要是因为过滤过程中同样过滤了少数正例 。
2.基准系统->动名词分离:触发词为动词的事件句与触发词为名词的事件句在句法结构上有很大的不同;触发词为动词的论元是触发词为名词的论元的好几倍,不分句型放在一起进行论元抽取,它们会相互影响,导致系统性能下降。 3.动名词分离->新特征:名词触发词映射到了句子的谓词上,同时,新抽取出的论元主要来自于与映射谓词有动宾关系或者主谓关系的候选论元。 (6390:1916) to (5520:1817) 14
16
总 结 及 展 望 本文提出了一种基于触发词映射的论元抽取方法,接下来对于含有名词性触发词的事件句,挖掘更有效果的特征进行论元抽取;同时可以考虑利用篇章级信息以及角色相似度信息进行推理。 15
17
谢谢,敬请指导! 16
Similar presentations