Leveraging FrameNet to Improve Automatic Event Detection

Leveraging FrameNet to Improve Automatic Event Detection
中国科学院自动化研究所模式识别国家重点实验室刘树林陈玉博何世柱刘康赵军

背景 FrameNet FrameNet 的理论基础是Frame Semantics，该理论认为绝大部分词的含义可以通过语义框架（Semantic Frame）来描述。语义框架：一个对事件（event）、关系（Relation）或者实体（Entity）的类型及其参与者（Participants）的描述。 FrameNet的数据结构包括Frame、LU (Lexical Unit)、FE (Frame Element)和 Exemplar，Frame之间定义了八种关系。 FrameNet包含1000多个Frame ，10000多个LU和17000个标注例句（exemplar）

背景 -ACE定义了八大类33小类的事件，事件由触发词（Trigger）和参与者（Argument）组成，例如： ACE
恐怖分子于昨天袭击了叙利亚。恐怖分子昨天袭击叙利亚 Attacker Time Trigger of Attack Place -ACE包含599篇标注文档，约6000个标注的事件实例。

动机 - 事件识别面临严重的数据稀疏问题 - Frame和Event的相似性
由于事件结构的复杂性，标注成本极大，ACE定义了33类事件，却只有599篇标注文档，尤其对于某些类型的事件，ACE语料只包含几个标注实例，这样规模的数据显然很难训练得到令人满意的识别模型。 - Frame和Event的相似性 >结构的相似性 Frame由LU和FE构成，Event由Trigger和Argument构成 LU和Trigger功能类似 FE和Argument功能类似

动机 - Frame和Event的相似性 >内容的相似性部分Frame确实表达了某种类型的事件。

动机以上的观察促使我们探究如下两个问题：如何在FrameNet语料上识别事件？ a. Frame和Event之间是否存在比较好的对应关系
研究思路：通过Frame下的标注例句是否表达事件来判断Frame和Event之间的关系。 b. 是否可以利用FrameNet的数据提高事件识别的效果研究思路：由上面分析可知，事件识别面临严重的数据稀疏问题，一个直接的利用FrameNet提高事件识别性能的方法是利用FrameNet中的事件扩充ACE的数据，缓解数据稀疏问题。如何在FrameNet语料上识别事件？

方法在FrameNet语料上识别事件

方法 Basic ED Model 将事件识别建模为词分类的问题 -和普通的事件识别区别 a. 只将LU作为候选触发词 b. 跨领域问题
基于表示学习的模型能够很好的处理跨领域问题

方法 Basic ED Model 模型：三层全连接的神经网络（输入层、隐藏层、输出层）输入：候选词的词向量+当前句子包含词的平均向量
词向量来源：使用word2vec工具在NYT语料上训练获得。

方法 PSL Model Basic ED 模型对FrameNet中的事件进行初步识别，利用PSL融合初步识别的结果和三条全局限制，推理得到最终的识别结果。 -全局限制 H1：相同Frame表达相同的Event H2：相关Frame表达相同的Event H2是H1的扩展，这里相关Frame定义为具有Inheritance、 See_also和Perspective_on关系的Frame。上面两条限制过于严格，FrameNet中，有很多Frame不能对应到唯一的事件类型上，例如Dead_or_alive，只有部分句子表达了Dead事件。为了弥补这一问题，引入第三个限制。

方法 PSL Model -全局限制 H3: 相同LU表达相同的Event
Dead_or_alive的LU为：alive.a, dead.a, deceased.a, lifeless.a, living.n, undead.a, undead.n。其中标红的LU表达了 Dead事件。另一方面，H1，H2也可以帮助H3纠正一些错误，例如对于 Clothing下的LU“Suit.n”, Basic ED模型会将其下的所有句子识别为Sue事件，这是因为“Suit”是个多义词。然而，如果考虑H1，那么这一错误将被纠正，因为Clothing下的其它LU并非多义词。

方法 PSL Model -建模

实验数据 ACE2005， 529篇做训练集，30篇做开发集，40篇做测试集
FrameNet1.5，共收集15万多个标注例句用于事件识别

实验 Basic ED Model 参数设置：200维词向量，300个隐藏层节点，batch size为100。

实验在FrameNet中识别事件 -Baselines： ANN：在原始ACE语料上训练得到的事件识别模型;
SF (SameFrame): 在ANN的基础上，加入H1的限制; RF(RelatedFrame):在ANN的基础上，加入H2的限制; SL (SameLU):在ANN的基础上，加入H3的限制

实验在FrameNet中识别事件 -人工评价：每个系统产生的结果随机抽样200个，人工标注

实验在FrameNet中识别事件 -自动评价：将每个系统识别的事件加入ACE，扩展数据，自动评价

实验利用FrameNet提高事件识别效果

未来的工作未来工作：将这一工作扩展到完整的事件抽取任务上（包括事件参与者及其角色的识别）。
ACE定义的事件粒度过粗，例如，街头斗殴和战争都被表示为同一种事件Attack。我们计划用FrameNet中粒度更细的Frame对ACE 的事件框架进行优化，例如Attack可以被分为恐怖袭击、入侵等。

Thank You

Leveraging FrameNet to Improve Automatic Event Detection

Similar presentations

Presentation on theme: "Leveraging FrameNet to Improve Automatic Event Detection"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Leveraging FrameNet to Improve Automatic Event Detection

Similar presentations

Presentation on theme: "Leveraging FrameNet to Improve Automatic Event Detection"— Presentation transcript:

Similar presentations

About project

反馈