Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇 2011.6.23.

Similar presentations


Presentation on theme: "基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇 2011.6.23."— Presentation transcript:

1 基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇

2 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

3 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

4 绪论 共指消解(Coreference Resolution)
根据篇章中各个表述(Mention)的内容以及上下文信息将这些表述对应到具体实体(Entity)的过程,它是一个对所有表述进行等价类划分的过程 E.g: 周杰伦推出新专辑《我很忙》,这张专辑开启了周杰伦新纪元。该专辑也体现了周董这个牛仔角色。 实例: 可能存在共指关系的表述对 <先行语,照应语> E.g: <周杰伦,周董>,<我很忙,这张专辑>,<我很忙,该专辑>

5 绪论 研究现状(两类方法) 存在的问题 发展趋势 基于语言学规则 基于机器学习方法 语料不足 方法问题: 共指链生成的研究不足
性别、单复数和人称 + 句法和语义 一致性规则 基于机器学习方法 基于分类的方法 + 基于聚类的方法 存在的问题 语料不足 方法问题: 基于规则的共指消解方法: 只能精确覆盖少数的高频实例,不能覆盖为数不少的低频情况 基于统计分类的机器学习方法: 在不断优化的训练过程中,只选择能够覆盖多数实例的优化方向。 共指链生成的研究不足 发展趋势 篇章全局优化技术 从篇章信息入手,以全局图分割等方式引入篇章结构,处理共指消解问题

6 (Generation point: GP)
绪论 论文内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 t 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

7 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

8 (Generation point: GP)
基于实例动态泛化的共指消解方法 本章内容: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

9 基于实例动态泛化的共指消解方法 基于分类的Mention识别 基于序列标注的Mention识别 核心思想 特征集合 以单词(字)为分类对象
序号 特征类型 类型说明 1 分类特征 参见前文 2 代词词典特征 常用的指示代词词表,出现在此表中,对应特征为1 3 名词词典 常用的名词词表,出现在此表中,对应特征为1 4 人名词典 常用的人名词表,出现在此表中,对应特征为1 5 头衔词典 常用的头衔词表,出现在此表中,对应特征为1 6 交通工具词典 常用的交通工具词表,出现在此表中,对应特征为1 7 地点词典 常用的地点词表,出现在此表中,对应特征为1 8 公司词典 常用的公司词表,出现在此表中,对应特征为1 9 Person下位词 常用的Person下位词表,出现在此表中,对应特征为1 基于分类的Mention识别 核心思想 以单词(字)为分类对象 三种类别:Mention头、Mention中部、非Mention E.g:{周杰伦} –{周-开头(B),杰-中部(I),伦-中部(I)} 采用Maxent算法进行分类 特征集合 基于序列标注的Mention识别 以单词(字)为处理对象 采用CRF来进行Mention类型标注 序号 特征类型 类型说明 1 构词特征 考察组成Mention的单词本身,我们选取词本身作为特征 2 词性特征 考察组成Mention的词的词性信息,我们选取词性作为特征 3 语义特征 考察组成Mention的词的命名实体特征,我们选取词对应的命名实体作为特征取值 4 首字和尾字特征 考察构成Mention的词的字符构成规律。分别选择该词的前1、2、3、4字符,后1、2、3、4字符作为特征 5 大小写特征 利用英文中明显大小写区分现象作为特征,考察构成Mention的词的大小写规律,包括:IsAllCap、IsInitCap、IsCapPeriod三个特征

10 基于实例动态泛化的共指消解方法 Mention识别实验结果 Mention识别改进前后共指消解实验结果对比 召回率提升,但准确率大幅下降
抽取方案 学习算法 P R F Baseline 规则 55.26 63.6 59.14 基于分类的方法 Maxent 34.05 75.51 46.93 基于序列标注的方法 CRF 81.93 81.62 81.77 识别率大幅提升, 达22.63% IDGen鲁棒性较强,而最大熵对Mention精度较为敏感 Mention识别改进前后共指消解实验结果对比 抽取方案 抽取算法 消解算法 MUC P R F Baseline 规则 IDGen 0.565 0.550 0.558 Maxent 0.557 0.509 0.532 基于分类的合并方案 0.805 0.357 0.495 0.812 0.329 0.468 基于序列标注的方案 CRF 0.716 0.548 0.621 0.720 0.612 F值大幅提升,达 6.3% F值大幅提升,达 8.0%

11 (Generation point: GP)
基于实例动态泛化的共指消解方法 泛化点抽取: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

12 基于实例动态泛化的共指消解方法 泛化点抽取 精确泛化点 结构化泛化点 词汇化特征(Lexical Feature)
刻画两个表述之间的核心词一致性 E.g: {亚洲天王周杰伦,该专辑} --- ( LF=周杰伦-专辑 ) 半词汇化特征(NE Feature) 刻画两个表述之间命名实体标注信息的一致性 NE -命名实体类别 + 后缀-字符串匹配 NE-SAME NE-SUBSAME NE-STRING1-STRING2 E.g:{亚洲天王周杰伦,杰伦} --- ( NEF= PERSON-SUBSAME) 结构化泛化点

13 基于实例动态泛化的共指消解方法 使用精确泛化点的实验结果 引入两个精确特征效果不升反降 F值提升 0.9% F值提升 1% F值提升 1%
抽取方案 抽取算法 消解算法 MUC P R F Baseline (传统Mention识别) Soon IDGen 0.565 0.550 0.558 Maxent 0.557 0.510 0.532 精确泛化点 Soon+L+SL 0.548 0.588 0.567 0.578 0.562 0.570 Soon+L 0.552 0.586 0.568 0.572 Soon+SL 0.553 0.584 0.542 0.555 (新Mention识别) 0.663 0.623 0.733 0.641 F值提升 0.9% F值提升 1% F值提升 1% 同时引入精确泛化点+Mention后 F值大幅提升,达 6.5%

14 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

15 (Generation point: GP)
基于实例动态泛化的共指消解方法 本章内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

16 共指链生成方法研究 基于词汇信息的共指链生成方法 基于分类置信度的共指链生成方法 倾向于选择词汇距离近的Mention进行合并
Step1:基于规则的方式过滤 Step2:将当前Mention与满足共指关系的最近的一个合并 基于分类置信度的共指链生成方法 信赖分类器的分类结果 Step1:比较所有分类器给出的共指概率 Step2:将当前Mention与之前分类概率最大的一个合并

17 共指链生成方法研究 基于Ranking的共指链生成方法 核心思想 特征
通过对多个候选结果的排序学习,针对每个文件选择自适应选择最合适的系统输出 特征 Partition特征 针对所有共指消解常规特征进行计算,每一种候选系统对应一个特征向量,而特征向量的每一维对应着一个常规特征的出现概率 Method特征 针对所有共指消解的训练文本进行计算,每一篇训练文本对应一个特征向量,而特征向量的每一维对应着一个候选系统在文本中的选择结果 Document1 { SystemA = 1,SystemB = 0 } Document2 { SystemA = 0,SystemB = 1 }

18 共指链生成方法研究 ACE2005英文BN语料上实验结果 ACE2005英文NW语料上实验结果 理论上的最佳算法效果最差…?...
--分类器水平所限 合并方案 学习算法 特征集合 MUC P R F 最近合并 IDGen Soon 0.552 0.554 0.553 Soon+Tree 0.569 0.584 0.576 最佳合并 0.280 0.815 0.417 0.271 0.813 0.406 Ranking方法 0.564 0.581 0.572 0.574 0.593 0.583 使用Ranking方法, F值提高达 1.9% BN语料的效果明显优于NW…?... --BN语料较为规整 ACE2005英文NW语料上实验结果 合并方案 学习算法 特征集合 MUC P R F 最近合并 IDGen Soon 0.733 0.434 0.545 Soon+Tree 0.744 0.461 0.570 最佳合并 0.292 0.488 0.426 0.303 0.805 0.440 Ranking方法 0.721 0.451 0.554 0.738 0.466 0.571 使用Ranking方法, F值提升0.9%

19 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

20 (Generation point: GP)
基于实例动态泛化的共指消解方法 本章内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

21 基于实例动态泛化的共指消解方法 音乐语料 全局实体 关系 句子级关系抽取 局部关系 共指消解 共指链 关系推理 预处理 并列关系抽取
并列实体

22 基于实例动态泛化的全局实体关系抽取 句子级关系抽取 共指关系 并列关系 针对同一句子中的实体抽取关系 采用基于实例动态泛化的共指消解方法
利用共指链信息对构成关系的代词和指示性代词进行还原 利用实体间的等价关系补充系统抽取结果 Eg: [A1,A2,A3]、[B1,B2,B3]共指,当A3、B2存在关系r时,那么A3等价类中的任一实体和与B2都应该具有关系r 并列关系 采用模板进行抽取 认为并列实体间满足相同的关系 对系统未能抽取的关系利用并列予以补充 Eg:[A,B,C]并列,当C、D存在关系r时,如果系统没有抽取出实体A,B和D之间的关系,那么可以通过推理生成[A,D,r]和[B,D,r]

23 基于实例动态泛化的全局实体关系抽取 156 119 92 关系数目 处理方案
150 119 120 92 90 6.This is an example text. Go ahead and replace it with your own text. 证明共指关系对全局实体关系抽取的作用 60 证明并列关系对丰富关系的作用 30 局部关系 局部关系+并列 局部关系+并列 +共指 处理方案 第 23 页

24 基于实例动态泛化的全局实体关系抽取 中文音乐语料共指消解实验结果 F值都较高,达到82%以上,消解结果较为可靠 数据集 学习算法 特征集合
MUC P R F 中文音乐新闻语料 IDGen Soon 0.856 0.795 0.824 Soon+Head 0.813 0.802 中文音乐评论预料 0.846 0.833 0.839 0.825 0.834 0.829 F值都较高,达到82%以上,消解结果较为可靠

25 基于实例动态泛化的全局实体关系抽取 P: R: 0.731 0.726 0.658 0.534 处理方案 精确率略有升高 召回率大幅度升高
0.80 0.731 0.75 0.726 0.70 精确率略有升高 0.658 0.65 0.60 召回率大幅度升高 0.55 0.534 0..50 局部关系 局部关系+并列 +共指 处理方案 第 25 页

26 基于实例动态泛化的全局实体关系抽取 中文音乐语料关系抽取实验结果 应用全局实体关系,F值提高7.8% 准确率略微提升,几乎不变
抽取方案 学习算法 关系数目 P R F 句子级实体关系抽取(RE) 混合核方案 92 0.726 0.534 0.615 全局实体关系抽取(GRE) 共指+并列 156 0.731 0.658 0.693 应用全局实体关系,F值提高7.8% 准确率略微提升,几乎不变 召回率大幅度上升,最终提升了F值 全局实体关系可以获取更多篇章信息,丰富抽取内容

27 大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

28 结论 基于序列标注的Mention识别方法效果突出 精确泛化点对共指消解任务帮助巨大,引入该类泛化点后指标平均提升2.5%
基于Ranking的合并方案能够有效提高二元分类合并算法的效果,提升幅度达到1.5% 全局实体关系抽取能够有效获取篇章级别的信息

29 恳请各位老师批评指正 谢谢


Download ppt "基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇 2011.6.23."

Similar presentations


Ads by Google