基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇 2011.6.23.

Slides:



Advertisements
Similar presentations
办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
Advertisements

S.1 封面 S.2 目錄 S.3 個案一 S.4 個案二 S.5 感想 S.6 社會的行動 S.7 政府的行動 S.8 活到老 學到老 S.9 總結 S.10 老?!
大公教育行政职业能力测验讲义 邢长文老师. Page 2 大公教育全国客服热线:
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
(一)辦桌文化起始略說: 1. 祭祀宗教 2. 生命禮儀 3. 外燴 --- 老師、師公、師傅、總鋪師 4. 搬桌搬椅時代 (二) 食物食材 1. 靠山考海 2. 基本:炒米粉、糍、檳榔 3. 小吃搬上桌 (三) 變變變 1. 調味不同 2. 師承不同 3. 地點也變.
高中生物专题复习 丰宁一中 李俊英. 问题: 很多同学认为高等植物个体发育的起点 是种子, 你认为对吗 ?
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
第4章 交易性金融资产与可供出售金融资产 学习目标
 第11讲 美国 巴西.
湘雅医院中层干部培训讲座之二 医院行政管理工作思路 孙 虹 2010年10月27日.
地理信息系统的空间特性 空间实体及其描述 空间问题论述 空间处理方法 北京大学遥感与GIS研究所 程承旗.
(4F01) 陳可兒 (4F03) 張令宜 (4F05) 何秀欣 (4F14) 潘美玲
從觀光產業看大學生就業市場 東南旅行社 許永裕 副總經理.
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
§2 线性空间的定义与简单性质 主要内容 引例 线性空间的定义 线性空间的简单性质 目录 下页 返回 结束.
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
第二章 复式记账原理*** 主要内容、重点难点: 1.会计要素与会计等式*** 2.会计科目与账户*** 3. 借贷记账法***
眼睛的守護者.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
1、分别用双手在本上写下自己的名字 2、双手交叉
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
小学《人•自然•社会》 五年级教材解读 浙江省教育厅教研室 李 荆 -
1.6 中国人口迁移.
愛之花.
輕歌妙舞送黃昏 組員名單 組長:程鵬飛 組員:黎達華 劉展鵬 邱迦欣.
欢迎南京市政治学科的教研同仁 光临指导.
2007年11月考试相关工作安排 各考试点、培训中心和广大应考人员:
财务管理.
期考議題 單元一:資訊科技(eg上網活動)與人際關係 單元二:青少年社政參與(80後) 單元二:郊野公園與房屋政策/問題
大學多元入學方案 財務金融二 王詩茹.
分式的乘除(1) 周良中学 贾文荣.
交通事故處置 當事人責任與損害賠償 屏東縣政府警察局交通隊.
第四章 制造业企业 主要经济业务核算.
《思想品德》七年级下册 教材、教法与评价的交流 金 利 2006年1月10日.
造成近視的原因 一、外在環境:佔百分之七十 1. 飲食失調: __偏食引起。 __甜食過多。 __酸鹼度不平衡。  人體是弱鹼性,攝取過多酸性食物,也會近視。
礼仪课程 社交礼仪— 馈赠礼仪 主讲:罗亦 主讲:罗亦 TEL: QQ:
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
人地關係 ── 熱帶雨林 人文活動對環境的影響.
服務流程 名留 教學部.
政府扶持资金通览 技术改造篇.
 第20讲 中国的交通.
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
第十二单元 第28讲 第28讲 古代中国的科技和文艺   知识诠释  思维发散.
2014高考 地理专题复习 行星地球.
教师队伍 冷传莉 课程负责人 冷传莉,女,1969年8月生,汉族,山东省蓬莱人,中共党员,教授,贵州大学法学院副院长,硕士生导师,武汉大学法学院民商法博士研究生。 兼任贵州大学民法经济法研究所所长,中国法学会民法学、商法学研究会全国理事,贵州省人民政府行政复议委员会委员,贵州省社科院法学研究所和贵州省社科院民商法研究中心特聘法学研究员,贵州省企业法制研究院副院长,贵阳市人民政府法律顾问,贵阳仲裁研究会副会长,贵阳仲裁委员会资深仲裁员,贵阳法制频道法律顾问。
徐志摩与 四大美女.
伯裘書院 環保廣告能否有效 地推動環保意識.
4H (1)歐宛曈 (9)李熹漩 (12)吳紀芙 (14)唐曉筠
本科生医保资料的提交.
統計圖表的製作.
04 03 add your text. add your text. add your text. add your text add your text. add your text. add your text. add your text. add your text add your text.
2015 灰黑商务大气专业PPT模板 灰黑商务大气专业PPT模板 【适用于总结汇报/新年计划/培训课件】
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
LOGO 点击添加标题内容 点击添加印章文字 单击此处添加副标题单击此处添加副标题 汇报人:XXX 汇报时间:2016.0X.0X.
LOGO Business 中国风PPT商务PPT模版,更多模版请进入宝藏PPT搜索 汇报人:小精灵 汇报时间:201X.0X.XX.
畢業資格審查系統 操作步驟說明.
新制退休實務計算說明- 現職人員退休範例說明
社会主义核心价值体系的内涵和凝练.
设岗申请 审核发布 岗位申请 助教培训 津贴发放 工作考核 授课教师 岗位要求 工作内容 开课单位 确定课程、岗位 发布需求 研究生
B A C D ADD YOUR TEXT ADD YOUR TEXT ADD YOUR TEXT ADD YOUR TEXT
106 學年度新生入學說明會 國立臺灣海洋大學 教務處簡介
學士學位畢業論文說明 逢 學 大 甲 土 理 管 地 2009/10/05.
高雄市97年度國民小學閱讀計畫創新教學-教案達人創新教學方案
中式烹调技艺 第五章.
報告組別 : 第1組 組員 : 企碩2乙 M 藍元坤 企碩2乙 M 胡湘萍
聖經的獨特.
生命銀行 生命銀行.
Presentation transcript:

基于实例动态泛化的共指消解及应用 导师:秦兵教授 答辩人:张牧宇 2011.6.23

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

绪论 共指消解(Coreference Resolution) 根据篇章中各个表述(Mention)的内容以及上下文信息将这些表述对应到具体实体(Entity)的过程,它是一个对所有表述进行等价类划分的过程 E.g: 周杰伦推出新专辑《我很忙》,这张专辑开启了周杰伦新纪元。该专辑也体现了周董这个牛仔角色。 实例: 可能存在共指关系的表述对 <先行语,照应语> E.g: <周杰伦,周董>,<我很忙,这张专辑>,<我很忙,该专辑>

绪论 研究现状(两类方法) 存在的问题 发展趋势 基于语言学规则 基于机器学习方法 语料不足 方法问题: 共指链生成的研究不足 性别、单复数和人称 + 句法和语义 一致性规则 基于机器学习方法 基于分类的方法 + 基于聚类的方法 存在的问题 语料不足 方法问题: 基于规则的共指消解方法: 只能精确覆盖少数的高频实例,不能覆盖为数不少的低频情况 基于统计分类的机器学习方法: 在不断优化的训练过程中,只选择能够覆盖多数实例的优化方向。 共指链生成的研究不足 发展趋势 篇章全局优化技术 从篇章信息入手,以全局图分割等方式引入篇章结构,处理共指消解问题

(Generation point: GP) 绪论 论文内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 t 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

(Generation point: GP) 基于实例动态泛化的共指消解方法 本章内容: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

基于实例动态泛化的共指消解方法 基于分类的Mention识别 基于序列标注的Mention识别 核心思想 特征集合 以单词(字)为分类对象 序号 特征类型 类型说明 1 分类特征 参见前文 2 代词词典特征 常用的指示代词词表,出现在此表中,对应特征为1 3 名词词典 常用的名词词表,出现在此表中,对应特征为1 4 人名词典 常用的人名词表,出现在此表中,对应特征为1 5 头衔词典 常用的头衔词表,出现在此表中,对应特征为1 6 交通工具词典 常用的交通工具词表,出现在此表中,对应特征为1 7 地点词典 常用的地点词表,出现在此表中,对应特征为1 8 公司词典 常用的公司词表,出现在此表中,对应特征为1 9 Person下位词 常用的Person下位词表,出现在此表中,对应特征为1 基于分类的Mention识别 核心思想 以单词(字)为分类对象 三种类别:Mention头、Mention中部、非Mention E.g:{周杰伦} –{周-开头(B),杰-中部(I),伦-中部(I)} 采用Maxent算法进行分类 特征集合 基于序列标注的Mention识别 以单词(字)为处理对象 采用CRF来进行Mention类型标注 序号 特征类型 类型说明 1 构词特征 考察组成Mention的单词本身,我们选取词本身作为特征 2 词性特征 考察组成Mention的词的词性信息,我们选取词性作为特征 3 语义特征 考察组成Mention的词的命名实体特征,我们选取词对应的命名实体作为特征取值 4 首字和尾字特征 考察构成Mention的词的字符构成规律。分别选择该词的前1、2、3、4字符,后1、2、3、4字符作为特征 5 大小写特征 利用英文中明显大小写区分现象作为特征,考察构成Mention的词的大小写规律,包括:IsAllCap、IsInitCap、IsCapPeriod三个特征

基于实例动态泛化的共指消解方法 Mention识别实验结果 Mention识别改进前后共指消解实验结果对比 召回率提升,但准确率大幅下降 抽取方案 学习算法 P R F Baseline 规则 55.26 63.6 59.14 基于分类的方法 Maxent 34.05 75.51 46.93 基于序列标注的方法 CRF 81.93 81.62 81.77 识别率大幅提升, 达22.63% IDGen鲁棒性较强,而最大熵对Mention精度较为敏感 Mention识别改进前后共指消解实验结果对比 抽取方案 抽取算法 消解算法 MUC P R F Baseline 规则 IDGen 0.565 0.550 0.558 Maxent 0.557 0.509 0.532 基于分类的合并方案 0.805 0.357 0.495 0.812 0.329 0.468 基于序列标注的方案 CRF 0.716 0.548 0.621 0.720 0.612 F值大幅提升,达 6.3% F值大幅提升,达 8.0%

(Generation point: GP) 基于实例动态泛化的共指消解方法 泛化点抽取: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

基于实例动态泛化的共指消解方法 泛化点抽取 精确泛化点 结构化泛化点 词汇化特征(Lexical Feature) 刻画两个表述之间的核心词一致性 E.g: {亚洲天王周杰伦,该专辑} --- ( LF=周杰伦-专辑 ) 半词汇化特征(NE Feature) 刻画两个表述之间命名实体标注信息的一致性 NE -命名实体类别 + 后缀-字符串匹配 NE-SAME NE-SUBSAME NE-STRING1-STRING2 E.g:{亚洲天王周杰伦,杰伦} --- ( NEF= PERSON-SUBSAME) 结构化泛化点

基于实例动态泛化的共指消解方法 使用精确泛化点的实验结果 引入两个精确特征效果不升反降 F值提升 0.9% F值提升 1% F值提升 1% 抽取方案 抽取算法 消解算法 MUC P R F Baseline (传统Mention识别) Soon IDGen 0.565 0.550 0.558 Maxent 0.557 0.510 0.532 精确泛化点 Soon+L+SL 0.548 0.588 0.567 0.578 0.562 0.570 Soon+L 0.552 0.586 0.568 0.572 Soon+SL 0.553 0.584 0.542 0.555 (新Mention识别) 0.663 0.623 0.733 0.641 F值提升 0.9% F值提升 1% F值提升 1% 同时引入精确泛化点+Mention后 F值大幅提升,达 6.5%

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

(Generation point: GP) 基于实例动态泛化的共指消解方法 本章内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

共指链生成方法研究 基于词汇信息的共指链生成方法 基于分类置信度的共指链生成方法 倾向于选择词汇距离近的Mention进行合并 Step1:基于规则的方式过滤 Step2:将当前Mention与满足共指关系的最近的一个合并 基于分类置信度的共指链生成方法 信赖分类器的分类结果 Step1:比较所有分类器给出的共指概率 Step2:将当前Mention与之前分类概率最大的一个合并

共指链生成方法研究 基于Ranking的共指链生成方法 核心思想 特征 通过对多个候选结果的排序学习,针对每个文件选择自适应选择最合适的系统输出 特征 Partition特征 针对所有共指消解常规特征进行计算,每一种候选系统对应一个特征向量,而特征向量的每一维对应着一个常规特征的出现概率 Method特征 针对所有共指消解的训练文本进行计算,每一篇训练文本对应一个特征向量,而特征向量的每一维对应着一个候选系统在文本中的选择结果 Document1 { SystemA = 1,SystemB = 0 } Document2 { SystemA = 0,SystemB = 1 } …

共指链生成方法研究 ACE2005英文BN语料上实验结果 ACE2005英文NW语料上实验结果 理论上的最佳算法效果最差…?... --分类器水平所限 合并方案 学习算法 特征集合 MUC P R F 最近合并 IDGen Soon 0.552 0.554 0.553 Soon+Tree 0.569 0.584 0.576 最佳合并 0.280 0.815 0.417 0.271 0.813 0.406 Ranking方法 0.564 0.581 0.572 0.574 0.593 0.583 使用Ranking方法, F值提高达 1.9% BN语料的效果明显优于NW…?... --BN语料较为规整 ACE2005英文NW语料上实验结果 合并方案 学习算法 特征集合 MUC P R F 最近合并 IDGen Soon 0.733 0.434 0.545 Soon+Tree 0.744 0.461 0.570 最佳合并 0.292 0.488 0.426 0.303 0.805 0.440 Ranking方法 0.721 0.451 0.554 0.738 0.466 0.571 使用Ranking方法, F值提升0.9%

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

(Generation point: GP) 基于实例动态泛化的共指消解方法 本章内容结构: 1.基于分类的方案 2.基于CRF的方案 1.精确泛化点 2.结构化泛化点 1.基于词汇信息的方法 2.基于分类置信度的方法 3.基于Ranking的方法 全局实体关系抽取应用 Mention识别 二元分类 分类结果合并 应用 D 关系抽取 结果 GP1 GP2 GPn …… 泛化点对应的倒排实例集合 (Generation point: GP)

基于实例动态泛化的共指消解方法 音乐语料 全局实体 关系 句子级关系抽取 局部关系 共指消解 共指链 关系推理 预处理 并列关系抽取 并列实体

基于实例动态泛化的全局实体关系抽取 句子级关系抽取 共指关系 并列关系 针对同一句子中的实体抽取关系 采用基于实例动态泛化的共指消解方法 利用共指链信息对构成关系的代词和指示性代词进行还原 利用实体间的等价关系补充系统抽取结果 Eg: [A1,A2,A3]、[B1,B2,B3]共指,当A3、B2存在关系r时,那么A3等价类中的任一实体和与B2都应该具有关系r 并列关系 采用模板进行抽取 认为并列实体间满足相同的关系 对系统未能抽取的关系利用并列予以补充 Eg:[A,B,C]并列,当C、D存在关系r时,如果系统没有抽取出实体A,B和D之间的关系,那么可以通过推理生成[A,D,r]和[B,D,r]

基于实例动态泛化的全局实体关系抽取 156 119 92 关系数目 处理方案 150 119 120 92 90 6.This is an example text. Go ahead and replace it with your own text. 证明共指关系对全局实体关系抽取的作用 60 证明并列关系对丰富关系的作用 30 局部关系 局部关系+并列 局部关系+并列 +共指 处理方案 第 23 页

基于实例动态泛化的全局实体关系抽取 中文音乐语料共指消解实验结果 F值都较高,达到82%以上,消解结果较为可靠 数据集 学习算法 特征集合 MUC P R F 中文音乐新闻语料 IDGen Soon 0.856 0.795 0.824 Soon+Head 0.813 0.802 中文音乐评论预料 0.846 0.833 0.839 0.825 0.834 0.829 F值都较高,达到82%以上,消解结果较为可靠

基于实例动态泛化的全局实体关系抽取 P: R: 0.731 0.726 0.658 0.534 处理方案 精确率略有升高 召回率大幅度升高 0.80 0.731 0.75 0.726 0.70 精确率略有升高 0.658 0.65 0.60 召回率大幅度升高 0.55 0.534 0..50 局部关系 局部关系+并列 +共指 处理方案 第 25 页

基于实例动态泛化的全局实体关系抽取 中文音乐语料关系抽取实验结果 应用全局实体关系,F值提高7.8% 准确率略微提升,几乎不变 抽取方案 学习算法 关系数目 P R F 句子级实体关系抽取(RE) 混合核方案 92 0.726 0.534 0.615 全局实体关系抽取(GRE) 共指+并列 156 0.731 0.658 0.693 应用全局实体关系,F值提高7.8% 准确率略微提升,几乎不变 召回率大幅度上升,最终提升了F值 全局实体关系可以获取更多篇章信息,丰富抽取内容

大纲 绪论 基于实例动态泛化的共指消解方法 共指链生成方法研究 基于共指消解的全局实体关系抽取 结论

结论 基于序列标注的Mention识别方法效果突出 精确泛化点对共指消解任务帮助巨大,引入该类泛化点后指标平均提升2.5% 基于Ranking的合并方案能够有效提高二元分类合并算法的效果,提升幅度达到1.5% 全局实体关系抽取能够有效获取篇章级别的信息

恳请各位老师批评指正 谢谢