词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋

Slides:



Advertisements
Similar presentations
绿色圃中小学教育网 xīn yuàn 心 愿 绿色圃中小学教育网 月亮.
Advertisements

古典風華,現代視野 人文薈萃,桃李成蹊 招生說明 (參考簡報) 台師大教務處提供.
第一章 会计信息系统 第一节 计算机会计概述.
粒子物理卓越创新中心优秀青年骨干 选拔报告
东北石油大学研究生“学术之星”讲评活动.
自然语言处理 第07章 汉语自动分词 软件学院 陈鄞.
审计学原理课件 江苏省淮阴商业学校 财贸系会计教研室 沈 扬.
丹 溪 翁 传 戴 良.
五蠹(節 錄) 《韓非子》 主講教師:張其昀.
大师 的 童稚活泼 亲切可爱.
中醫養生 穴位保健按摩 長庚醫院 桃園分院 中醫骨傷科 主治醫師 長庚大學、長庚技術學院 講師 中華民國中醫傷科醫學會 理事
天净沙·秋思 马致远 枯藤老树昏鸦, 小桥流水人家, 古道西风瘦马。 夕阳西下, 断肠人在天涯。
21、水乡歌 团结和平中心学校 李团乐.
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
Research Question-Methodology
收录引证检索技巧及规范 规划战略与信息中心:苏郁洁
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
姓 名: 刘永鹏 专 业: 计算机应用 指导老师:王宗敏 教授 李润知 讲师
浙江大学CAD&CG国家重点实验室 南京大学多媒体技术研究所 国家体育总局体育科学研究所
決策分析研究室 巫沛倉 劉浩天 胡承方 義守大學工業工程與管理學系.
《战国策》:范雎说秦王学习要点 一、《战国策》题解 二、长沙马王堆汉墓简介 三、《范雎说秦王》说明 四、《范雎说秦王》语言角度分析
聚會即將開始…….. 為讓您有個舒服的聚會 邀請您~~~
虚拟机实时迁移技术 (Live Migration)
第4章 需求分析 教学目的:了解需求分析的任务和步骤、评审标准和过 程,掌握基本技术,理解需求规格说明书的 作用与组成。
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
libD3C: 一种免参数的、支持不平衡分类的二类分类器
A Question Answering Approach to Emotion Cause Extraction
Blind dual watermarking for color images’ authentication and copyright protection Source : IEEE Transactions on Circuits and Systems for Video Technology.
中科院“百人计划”终期评估汇报 卢 克 清 中科院西安光学精密机械研究所.
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
学 术 报 告 新型富勒烯的合成 报告人: 时间: 地点: 简历: 谢素原 教授 (厦门大学) (周三)
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
机器翻译前沿动态 张家俊 中国科学院自动化研究所
당신을 향한 노래.
主永活在我心 zhu yong huo zai wo xin
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
宣教的中国 xuan jiao de zhong guo
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
資料查詢與資料庫檢索 圖書館推廣服務組 校內分機 /04/09 1.
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
现代信息检索 Modern Information Retrieval
云上太阳 yun shang tai yang 敬拜赞美诗歌107首.
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
药物和疾病啥关系 ? 李智恒.
中科院自动化所评测技术报告(SYSTEM II)
數學素養的教學思維 林福來 國立臺灣師範大學數學系 2011/01/11 台北市建國中學.
阅读大地的徐霞客.
后鼻韵母 ɑng eng ing ong ng 鼻音.
开题报告: 一种基于文本蕴含的选择题问题求解方法
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
信息素养知识 信息素养系列讲座第1讲: 主讲人:赵建庆 (中北校区) 电 话:
Semantic Navigation Liang Zheng.
先生们,大家好! 尊敬的各位先生,下午好! 西安交通大学理学院 科学计算系 褚蕾蕾
利用Web of Science核心合集数据库助力科学研究
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
模式识别与智能系统研究中心介绍 2017年8月.
暑期活动见闻 程龚.
Mendengar Percakapan (1) Pertemuan 5
课前练习(5分钟) 熔( ) 泻( ) 杯( ) 讯( ) 溶( ) 泄( ) 坏( ) 迅( ) 一、看拼音写词语: yǎng qì
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
李允中教授-軟體工程實驗室研究方向 觀點導向之軟體發展(Aspect-Oriented Software Development): 觀點導向軟體開發方法主要源自於重新思考軟體系統的模組化(Modularization)以及關注點分離的概念(Separation of Concerns)。當建構軟體系統功能時,往往會發現到除該功能本身之外,必須還要在這些功能上特別關注其他面向的考量,例如執行效能的面向、元件或模組的再利用性、系統的可靠程度等等。因此,一個軟體系統內,往往存在著這些錯綜交織的面向於軟體開發的
ACM数据库 及其使用 iGroup亚太资讯公司 2007年10月.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
外國學生漢字學習的認知與策略整理 兼談漢字教學的建議
以碎形正交基底和時間情境圖為基礎進行之視訊檢索 Video retrieval based on fractal orthogonal bases and temporal graph 阿凡達 研究生:張敏倫 指導教授:蔣依吾博士 國立中山大學資訊工程學系.
緣由 由於積體電路(Integrated Circuit, IC)製造技術的精進,系統設計已由運用個別積體電路功能整合的方式進步至系統晶片(System-on-a-Chip, SoC) 設計的世代。原本分屬不同設計範疇的類比(Analog)積體電路設計與數位(Digital)積體電路設計已經必須同時整合,而進入新的混合訊號(Mixed-Signal)積體電路設計的世代。
关于一些本体评价方法测评指标的综述 姜成樾.
地点识别调研 施林锋.
Some discussions on Entity Identification
Presentation transcript:

词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋 苏州大学自然语言处理实验室http://nlp.suda.edu.cn/

主要内容 1. 问题描述 2. 研究现状 3. 研究内容 4. 研究方法 5. 实验结果与分析 6. 总结与展望 2

1. 问题描述 实体语义关系抽取 研究意义 简称关系抽取,是信息抽取中的重要研究内容之一。 其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如:关系实例“他 的 妻子”中的存在的PER-SOC关系。 研究意义 关系抽取对自然语言处理的许多应用,如内容理解、问题回答、自动文摘以及社会关系网络构建等都具有重要的意义。 3

2. 研究现状 中文关系抽取 基于特征向量的方法 关系实例的特征包含词汇、组块、句法和语义等各种信息。 如车万翔等[2005];董静等[2007];Li 等[2008] 基于核函数 将关系实例表示成的离散结构,如: 字符串:Che等[2005];刘克彬等[2007] 句法树:黄瑞红等[2008],虞欢欢等[2010] 4

词汇语义资源的作用 词汇语义信息 对关系抽取具有重要的作用。词汇不同但是语义相近的两个词语,在句子中可表示相同的语义关系。如关系实例“毛泽东妻子杨开慧”和“周恩来夫人邓颖超”。 目前的解决方法 Che等[2005]等采用了编辑距离核函数,考虑了词汇之间在《同义词词林》中的语义相似度; 刘克彬等[2007]采用了字符串序列核函数,考虑了词汇之间在《知网》中的语义相似度; 不足之处 两者都是在字符串核中考虑了词汇语义信息,而没有把词汇语义信息用在抽取性能最好的句法树核中。

3. 研究内容 研究动机 研究内容 随着句法树的卷积树核在关系抽取中的广泛应用,很自然的问题是: 词汇语义信息是否对基于卷积树核函数的关系抽取有用? 词汇语义信息如何使用才更有益于关系抽取? 研究内容 如何把词汇语义信息结合到基于树核函数的中文关系抽取中; 6

4. 研究方法 基于卷积树核的中文关系抽取 关系实例的结构化表示 关系实例的相似度计算 将词汇语义类别嵌入到句法树中 利用语义卷积树核函数 7

关系实例的结构化表示 合一句法和语义树(Qian等,2008) 将句法树和实体的语义信息(实体类型等)结合起来。 如图所示为短语“银行总裁”的合一句法和语义树。 左边为句法树; 右边为实体语义树 8

关系实例的相似度计算 卷积树核函数(CTK, Convolution Tree Kernel) 计算方法 两棵句法树的相似度为相似子树的个数,即 计算方法 如果n1和n2的产生式(采用上下文无关文法)不同,则△(n1,n2)=0;否则转2; 如果n1和n2是词性(POS)标记,则△(n1,n2)= ;否则转3; 按照如下公式递归计算 其中:#ch(n)是结点的子结点数目,ch(n,k)是结点的第k个子结点,而(0< <1) 则是衰减因子,用来防止子树的相似度过度依赖于子树的大小。 9

卷积树核函数-举例 由于两棵树在所有6个子树片段中有1个片段相同,所以两棵树的相似子树数量为1。 下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。 由于两棵树在所有6个子树片段中有1个片段相同,所以两棵树的相似子树数量为1。

语义资源-知网HowNet 《知网》 义原的提取 用一系列的“义原”来对每一个“概念”进行描述。 总共有1500多个义原,这些义原分事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性等九大类。 义原的提取 《知网》中每一个词语的概念定义也用多个义原来描述,不过第一基本义原反映了一个概念最主要的特征,因此我们仅抽取了词语的第一基本义原作为它的语义类别。 11

方法一、将语义类别信息嵌入句法树中 基本方法 将实体中心词的词汇的第一义原直接嵌入到句法树中; 如短语“台北大安森林公园”中,“台北”的第一义原是“地方”,“公园”的第一义原是“设施”。 12

嵌入语义信息-举例 嵌入语义信息后的相似度: 两棵树的相似子树数量为3。 13

方法二、语义卷积树核函数 基本思想(SCTK,Semantic Convolution Tree Kernel) 实现方法 在匹配包含词语的子树时,考虑词汇间的语义相似度; Bloehdorn和Moschitti[2007]利用英文名词在WordNet中的层次结构关系来计算词语之间的相似度,并通过语义卷积树核实现问题分类任务,取得了较好的效果。 实现方法 将标准CTK的第一步修改为: 1) 如果n1和n2的产生式(采用上下文无关文法)相同,则转2;否则,如果n1和n2是实体所对应的中心词的父结点,则△(n1,n2)= * LexSim(HW1,HW2);否则,△(n1,n2)=0; 14

词汇语义相似度的计算 http://code.google.com/p/xsimilarity/downloads/list SCTK的核心是两个词汇之间的语义相似度计算 采用的是刘群和李素建编写的基于《知网》的词汇相似度计算软件包。 软件包下载地址: http://code.google.com/p/xsimilarity/downloads/list 15

语义卷积树核函数-举例 由于使用了词汇语义相似度,两棵树的相似子树数量为: 3.72+2+1.86+1+1+0.86= 10.44 下图列出了对应于短语“他妻子”和“她丈夫”的两棵句法树及其子树。 由于使用了词汇语义相似度,两棵树的相似子树数量为: 3.72+2+1.86+1+1+0.86= 10.44

5. 实验结果与分析 语料库 采用ACE 2005中文语料库作为实验语料。该语料库定义了中文实体之间的6个关系大类,18个关系小类。它包含633个文件,其中广播新闻类298个,新闻专线类38个,微博和其它类等97个; 处理工具 中科院计算所研制的分词系统ICTCLAS进行分词 ; 采用支持卷积树核函数的SVMLightTK工具包作为分类器; 修改了其树核函数计算部分,以嵌入词汇之间的语义相似度; 评估方法 采用五倍交叉验证策略,取5次平均值作为最终的性能; 评估标准采用常用的准确率(P)、召回率(R)和F1指标(F1)。 17

实验结果1-嵌入语义类别信息 BL:基准系统 BL+HN:实体词汇义原 BL+ET:加入实体类型 BL+ET+HN:实体类型+词汇义原 BL+ET+HN+HNV:上述基础上再考虑动词的义原 在没有实体类型信息的前提下,实体词汇的第一义原能显著提高性能; 在已有实体类型信息的前提下,实体词汇和动词的义原降低了性能; 大类和小类抽取性能的提高幅度明显大于关系检测性能,说明义原信息能辨别关系类型。 18

实验结果2-语义卷积树核函数 BL:基准系统 BL+HN:实体词汇相似度 BL+ET:加入实体类型 BL+ET+HN:实体类型+词汇相似度 BL+ET+HN+HNV:上述基础上再考虑动词的相似度 在已有实体类型信息的前提下,实体词汇和动词的义原仍然提高性能,原因是第一义原只能反映主要含义,而相似度能反映总体含义; 最佳性能大于直接嵌入句法树中的方法。 19

实验结果3-与其它系统的比较 由于语料库的规模不同,训练和测试的方法不同,比较仅供参考。 系统 P(%) R(%) F1 Qian et al: Composite kernel (linear+tree) 80.9 61.8 71.1 Li et al: Feature-based 81.7 61.7 70.3 Qian et al: CTK with USST 79.8 61.0 69.2 Ours: SCTK with UPST 81.1 60.0 69.0 Yu et al: CTK with UPST 75.3 60.4 67.0 Zhang et al.: Composite kernel 81.83 49.79 61.91 由于语料库的规模不同,训练和测试的方法不同,比较仅供参考。 20

6. 总结与展望 在没有实体类型的前提下,词汇语义信息能显著提高中文关系抽取的性能; 在已有实体类型的前提下,基于语义相似度的语义卷积树核函数能进一步提高中文抽取的性能; 词汇语义信息的加入有助于小类关系抽取性能的提高,即语义信息能区分更细致的关系类型。 21

下一步工作 可利用英文语义资源(如WordNet)来提高英文关系抽取的性能。 探索基于大规模语料库的词汇相似度计算方法对中英文关系抽取的影响,以缓解由于词汇语义资源的缺乏而引起的数据稀疏性问题。 22

参考文献 Zhou G.D., Qian L.H., Fan J.X.: Tree kernel-based Semantic Relation Extraction with Rich Syntactic and Semantic Information. Information Sciences. Vol. 18(8). pp.1313-1325(2010) Jiang J., Zhai C.X. : A Systematic Exploration of the Feature Space for Relation Extraction. NAACL-HLT’2007: Rochester, NY, USA. pp.113~120(2007) Chan Y.S., Roth D.: Exploiting Background Knowledge for Relation Extraction. COLING’2010. pp. 152–160(2010) Sun A., Grishman R., and Sekine S.: Semi-supervised Relation Extraction with Large-scale Word Clustering. ACL’2011. pp. 521-529(2011) Zhang M., Zhang J., Su J. Zhou G.D.: A Composite Kernel to Extract Relations between Entities with both Flat and Structured Features. COLING-ACL’2006. pp.825-832(2006) Zhou G.D., Zhang M., Ji D.H., Zhu Q.M.: Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information. EMNLP/CoNLL’2007. pp.728-736(2007) Qian L.H., Zhou G.D., Kong F., Zhu Q.M., Qian P.D.: Exploiting Constituent Dependencies for Tree Kernel-based Semantic Relation Extraction. COLING’2008. Manchester, pp. 697-704(2008) Culotta A. and Sorensen J.: Dependency tree kernels for relation extraction. In Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics. ACL’2004. pp.423-439(2004) Che W.X., Liu T., Li S.: Automatic Entity Relation Extraction. 19(2): 1-6(2005) Dong J., Sun L., Feng Y.Y, Huang R.H.: Chinese Automatic Entity Relation Extraction. Journal of Chinese Information (in Chinese). Vol.21(4), pp. 80-85, 91(2007) Li W.J., Zhang P., Wei F.R., Hou Y.X., Lu Q.: A Novel Feature-based Approach to Chinese Entity Relation Extraction. ACL’2008: 89-92(2008)

参考文献 Che W.X., Jiang J., Su Z., Pan Y., Liu T.: Improved-Edit-Distance Kernel for Chinese Relation Extraction. IJCNLP’2005: 132-137(2005) Liu K.B., Li F., Liu L., Han Y.: Implementation of a Kernel-Based Chinese Relation Extraction System. Computer Research and Development(in Chinese), Vol.44(8), pp.1406-1411(2007) Huang R.H., Sun L., Feng Y.Y, Huang Y.P.: A Study on Kernel-based Chinese Relation Extraction. Journal of Chinese Information(in Chinese), Vol.22(5), pp.102-108(2008) Yu H.H., Qian L.H., Zhou G.D. Zhu Q.M.: Chinese Semantic Relation Extraction Based on Unified Syntactic and Entity Semantic Tree. Journal of Chinese Information(in Chinese), Vol.24(5). pp.17-23(2010) Mei J.J., Zhu Y.M., Gao Y.Q., Yin H.X.: TongYiCi CiLin second edition. Shanghai. Shanghai Lexicographic Publishing House(in Chinese)(1996) Collins M., Duffy N.: Covolution Tree Kernels for Natural Language. NIPS’2001: 625-632(2001) Bloehdorn S., Moschitti A.: Exploiting Structure and Semantics for Expressive Text Kernels. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, Lisbon, Portugal(2007) Qian L.H., Zhou G.D., Zhu Q.M.: Employing Constituent Dependency Information for Tree Kernel-based Semantic Relation Extraction between Named Entities. ACM Transaction on Asian Language Information Processing. Vol.10(3), Article 15(24pages)(2011) Lin D.: An Information-theoretic Definition of Similarity. In Proceedings of the 15th International Conference on Machine Learning. Madison, WI(1998) Liu Q., Li S.J.: Word Similarity Computing Based on How-net. Computational Linguistics, Chinese information processing. pp. 59-76(2002) Zhang J., Ouyang Y. and Li W.J.: A Novel Composite Approach to Chinese Relation Extraction. ICCPOL '09(2009)

Comments & Question?