一种准确高效的领域知识图谱构建方法.

Slides:

Advertisements

Similar presentations

模板的使用教育学江西教育学院教育系冯芳 2012 － 10. 第二章教育学的产生和发展第一节教育学的研究对象和任务第二节教育学的产生与发展第三节学习教育学的意义与方法.

Advertisements

用藥安全用藥安全護理師張嘉芬. 前言前言正確用藥的方法藥袋上的秘辛為了減少重大疾病或是醫療處理、用藥不當的相關事件發生。

阿尔伯特亲王阿尔伯特亲王纪念碑维多利亚女王夫妇维多利亚女王一家建造水晶宫水晶宫初建时的照片.

强力打造湖北农业信息网全面推进湖北农村信息化

黄金时代黄金时代：老子，释迦牟尼，苏格拉底，孔子，庄子，耶稣…… 他们是人类智慧的顶峰，他们用人生展示了智慧与慈爱。

梦想启航 ——大学生活与职业规划专题讲座.

河北保定外国语学校高三家长会.

以信息化带动教育现代化，打造教育的“南山质量”

第四章商代之舞蹈本檔案圖片來源：google圖片.

个体税收征管政策讲解浏阳市地方税务局.

封面 2015易驾考最新分享：科目二考试方法秘诀文章来源：易驾考官网.

基于行业的企业技术创新信息保障体系研究刘华博士中国科学技术信息研究所.

嗇色園主辦可立小學故宮製作日期:2011年3月21日.

第四讲 1949—1991年的中苏关系及其经验教训.

“鼠标加水泥”的百货公司——武汉中百朱巧巧陆嘉怡田泽宇.

合理控制索道游客流量确保景区可持续发展云南丽江玉龙雪山索道陈加林二0一五年十一月.

狂犬病保護你我，愛護動物武漢國中黃憶暄.

千里挑一的“征途” ——浅谈中国“国考”热.

迪士尼動畫玩具總動員1.

恒泰期货研究所2016年期债暴跌告一段落，短期波动降低国债期货周报

研修4组学习简报(第3期) 主编：左文玲 2015年2月7日.

潘集小学英语班学习简报(第5期) 主编：吴婷 2016年2月28日.

与领导、下级、同事的沟通技巧.

潜能宇宙平衡法则 ——启动11.11天地人合新生命工程（分类系统）凛然智慧（北京）教育咨询有限公司.

失眠的饮食及调理北京国济中医院

中餐烹調實習Ⅲ 第九章中國菜系介紹林可薇製作.

新高考研究介绍湖北省教育考试院项目研究组.

動物的繁殖行為.

5,2 新时代的劳动者.

小学数学教育质量监测命题的路径与方法彭晓玫

如东中专学校文化课现状及提升举措的思考

105年臺北市優先免試入學高中職免試入學五專免試入學報名方式宣導

行動報告人:丁俊源行動參與人和單位: 我們全家人社區鄰居、管委會新北市環保局

第3讲时间管理.

高等教育出版社工作汇报化学化工分社翟怡.

******班班级学习简报(第*期) 主编：*** ****年**月**日.

劳模的风采.

采购控制程序 2008年9月.

单位：十堰离退休职工服务中心时间：2016年2月1日

中国家电企业如何打造全球化品牌黄辉.

四川信托-汇誉10号集合资金信托计划.

《现代大学英语》说课程公共课部臧朝晖益阳医学高等专科学校.

保大人还是保小孩 ---产房里的伦理学问题小组成员蔡婷基础医学系郭灵飞基础医学系

超星尔雅 tsk.erya100.chaoxing.com 网络通识课程学习指导.

中药学第十一章祛风湿药.

單車失竊記心得.

形势与政策 2016年上.

幼儿园班务管理实践.

中医内科学第一章第一节感冒.

中共江西省委党史研究室从井冈山斗争中汲取信念的力量沈谦芳（江西省委党史研究室主任，博士、教授）

电气安全技术和管理 ——面对工厂管理者的电气安全管理主讲人：林仿生.

第四节存货一、存货的分类二、存货核算的主要内容三、存货的确认条件四、存货入账价值的确定五、存货发出的计价六、原材料

七年级下册《生物学》神经调节的基本方式小关镇第一初级中学张书珺.

家庭教育 ----关爱成长颜士杰.

2016年陕西省中考语文试题分析(宝鸡市) 金台区教研室马莉宁.

第三章人类社会及其发展规律.

中医内科学第二章第二节胸痹.

小组成员：吴芋蓓，钟汶珊，程瑶，唐嘉馨，朱然

跨校選課說明會主辦人：[國文系學會學權股] 葉軒如、李美玟.

科技经费管理与监督检查浙江省科学技术厅计划财务处 2012 • 8.

稅知多少國家的重要基礎.

105學年第1學期期初校務會議圖書館工作報告報告人: 林佩佳主任.

岗位聘任管理系统使用说明浙江师范大学人事处咨询电话：、

全陽圓格局位置最好的A6-2樓面中庭花園3房2廳2衛三面採光捷運藍線江子翠捷運站1號出口Google距離210公尺

统计学第7章参数估计教师：张文利.

台灣房價指數台灣房屋中央大學 2011年7月29日.

Presentation transcript:

一种准确高效的领域知识图谱构建方法

前言　作为语义网的数据支撑,知识图谱在知识问答､语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,但是构建一个质量较高､规模较大的知识图谱往往需要花费巨大的人力和时间成本。如何平衡准确率和效率,快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战。

目录 1.相关研究综述 2.实例 3.实验 4.结论

1.相关研究综述 1.1 本体构建本体构建用的是半自动构建本体的方法,使用统计方法和无监督方法得到的本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善。半自动构建本体介于人工构建本体和自动构建本体之间,对于大多数领域而言,完全自动化地构建本体是难以实现的,所以在自动构建本体的过程中通常还需要在用户的指导下进行的。 1.2 语义标注语义标注指的是对原始数据做标记,使其包含一定的语义信息,这样不仅人可以理解,而且机器也能够理解。语义标注的研究主要包括利用本体技术和自然语言处理等技术来进行语义标注的算法研究和应用研究。语义标注是基于Pundit开发的众包半自动语义标注工具,可以满足众包标注过程中的标注审核､标注溯源､共指消解､数据存储等需要,极大地提升了众包标注的效率。

1.相关研究综述 1.3 信息抽取介绍是关系抽取：关系抽取指的是从文本中抽取出实体和实体之间的关系,这样才能将零散的实体联系起来。关系抽取的算法可以分为基于规则的方法和基于机器学习的方法。基于规则的方法需要人工制定较多规则且难以全面;基于机器学习的方法又可以分为有监督､半监督和无监督三类:有监督的方法需要大量质量较好的标注数据,半监督的方法需要少量标注数据,无监督的方法不需要标注数据。使用有监督的方法进行关系抽取,可以看作是多分类问题,先预先将每个关系定义为一个类别,然后将句子中实体之间的关系划分到预先定义的类别中;较多采用的半监督算法bootstrapping 算法､协同训练算法和标注传播算法. 其中bootstrapping 方法中的远程监督方法目前最受学界关注,该方法首先将每种关系的少量三元组作为种子集,然后回标出同时包含种子集中三元组的两个实体的句子作为表征这一关系的训练数据,再从文本中找出符合这一关系的其他句子,这些句子中的实体和实体之间则很有可能也满足这一关系。该方法最大的问题是训练数据噪声,即包含两个实体的句子的语义关系可能会有很多种但是回标的时候所有句子被当成了一种语义关系.本文对有监督､半监督和无监督的方法都进行了相关实验.

2.实例以面向基础教育的地理学科知识图谱的构建为例，构建框架如下图

2.实例 1.本体构建对于基础教育领域的学科本体，覆盖率和准确率是非常重要的评价指标。在当前中文本体自动构建技术还不成熟的情况下，我们结合基础教育领域的特点，利用本体学习和统计学习等方法得到的本体知识，结合其他知识图谱的本体知识，在专家的指导下构建出了地理学科领域本体。 1.1 归纳领域概念领域的核心概念对应的是本体中的类,每个核心概念都对应着许多实例,例如“国家”这个概念下就对应着“中国” “美国”､“俄罗斯”等实例。采用三种方法来得到地理学科领域的核心概念： (1) 利用统计方法得到领域术语,再从领域术语中得到领域核心概念，领域的核心概念是领域术语的子集合，因此可以用获取领域中术语的方法来获得领域概念。 TF-IDF 算法是一种统计方法,它的作用是评估一个词语对于一个语料库中的其中一份文档的重要程度.该算法的核心思想是一个词语的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

2.实例 TF-IDF 算法综合考虑了词语出现的频率､位置和密度等因素,但是它没有对整篇文档中相互有联系的词语进行综合考虑,而TextRank 算法恰恰考虑到了词语之间的关系,并对词语的重要程度进行分配。 TextRank 算法基于Google 的PageRank算法,其核心思想与PageRank 算法相同,如果将网络中的节点看作是词语,那么在词语网络中词语的重要程度取决于与它相连的词语(指定窗口内的词语)给它的投票数目,而票的权重取决于该词语自己的票数。 (2) 参考质量较高的知识图谱或数据源。我们主要参考了Schema.org , DBpedia和Geonames.Schema.org (3) 在众包半自动语义标注步骤中进行完善补充。以上方法得到的核心概念的归纳整理需要参照本体构建的两个基本原则,即本体中的类的设计应当秉承独立性和共享性原则。前者指的是这个类可以独立存在,不依赖于特定的领域;后者指的是类是可以共享的,即有被复用的可能和必要。此外,本体中包含的类的数目应该尽可能的最小化,尽可能去除冗余的类。根据上面的原则,我们最终确定了地理学科的核心概念。(如下图所示)

2.实例每个节点是一个概念，节点之间的连线表示父概念(靠近中心的节点)和子概念(远离中心的节点)的关系。

2.实例 1.2 定义领域关系及其约束关系是本体的核心基本要素,它是对领域中的概念、实例之间的相互作用的描述。关系直接决定了本体知识图谱的知识丰富程度,以及基于知识图谱构建的其他应用系统的功能范围。关系学习是本体学习中的一个重要部分。主要通过四种方法来定义关系: (1)利用OpenIE 方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系。 (2)参考质量较高的知识图谱或数据源Wikidata和Schema.org。 (3)根据核心概念和百科信息框来确定关系。 (4)众包半自动语义标注过程中补充新的关系。综上方法得到地理科学的“特征”详细描述（如下图）

2.实例 2.众包半自动语义标注基于领域本体的语义标注是指在领域本体的指导下从文档中抽取出结构化知识的过程,即将文档中的纯文本知识用RDF语言描述出来。语义标注的过程通常可以包含两种标注: (1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例; (2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息。标注时通常将实例及实例间的关系表示为三元组的形式(E1, R, E2),其中R是实例E1和E2之间的关系.

2.实例众包半自动语义标注系统界面如下：

2.实例 3.外源数据补全外源数据指的是外部数据源按照地理学科领域本体结构处理后得到的和标注数据结构一致的RDF 数据。外部数据源一般是互联网上公开的知识图谱或其他结构化程度较好的网站，特点是数据量大，结构较好。以下介绍地理学科知识图谱中的三个外部数据源：（1） Geonames （2）百度百科信息框（3）中国行政区划信息

2.实例 4.信息抽取 4.1 实体集扩充想要根据知识图谱中每个概念的实体集进行扩充。使用的方法是词向量。词向量最早是1986年由Hinton提出,又称为概念的分布式表达。词向量的主要作用是通过大量词语语料的训练,将每个词语映射到一个固定维度的向量。从而可以根据两个词语的向量之间的余弦距离来刻画两个词语的语义相关性,使用最为广泛的方法是Google 团队的Word2Vec方法。事实上,实体集扩充之后应该还有一步实体消歧的操作,但是通用知识图谱存在着较多的歧义,领域知识图谱的歧义较少。例如“苹果”既是水果,又是科技公司。但是几乎不存在某个领域知识图谱会同时包括科技公司和水果这两个概念。

2.实例 4.2 关系抽取采用了无监督､有监督和半监督三种方法来进行关系抽取。无监督的方法中,使用了基于规则的方法和LDA 模型.基于规则的方法中,为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述;LDA 模型是一种无监督的机器学习技术,用来识别文本中隐藏的关系类别信息,并且用词袋的方式来表示每类关系的特征。有监督的方法中,将知识图谱中已有的关系数据作为训练数据,从文本中抽取出相应的三元组.由于已有的数据还是不够多,因此为防止过拟合,使用了较为简单的多层感知机。半监督的方法中,我们采用了基于多语言注意力机制的远程监督方法,通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果。

3.实验实验一：半自动语义标注从地理学科标注文档中随机抽取7 个标注文档,并对文档中的标注记录进行统计得到的结果: 可以看出,文档的标注F1 值大多数在90%以上.通过对标注错误和漏标的三元组进行分析,这些标注错误主要有以下三点原因: （1）标注人员标注时出现手误；（2）标注人员对知识的理解有误；（3）标注人员漏标注。

3.实验实验二：实体集扩充使用百度维基文本作为Word2Vec方法的训练语料,训练结束后,输入一个词语,会得到这个词语的相似词语集.通过把知识图谱中某个概念下的M个实体作为输入,每个实体的相似词语取前K个,一共得到M*K个含有重复词语的集合。取重复次数 >=N 的词语作为扩充的新实体。一个词语的重复次数越高,那么该词语映射到该概念下的新实体的可能性就越大。下表就是M=3时的几个例子。

3.实验实验三：关系抽取 3.1无监督方法使用LDA 模型对中国大百科文本进行聚类分析,得到每种关系对应的特征词。下表展示了其中一些关系的特征词抽取效果。其中,“位于”和“毗邻”是严格的“关系”,其他的是“属性”。

3.实验接着，利用每种关系的特征词以及总结的正则式,使用bootstrapping 的方法从中国大百科文本中迭代抽取表达关系的文本。下表就是不同策略下基于中国地理大百科文本3000 个句子,20 个关系上测试的结果。

3.实验 3.2 有监督方法基于知识图谱中每种关系的训练数据,我们尝试用多层感知机对中国大百科文本来进行关系抽取,在将句子向量化时,采用了两种方式: (1)选取句子中所有词语向量的均值作为句子的向量值; (2)简单将所有词语向量拼接在一起作为句子的向量值. 选取了关系含义重叠度较小的七种关系,使用多层感知机的方法进行了实验。左下表展示了训练文本的样式。右下表展示了多层感知机对文本按照关系进行分类的效果.

3.实验 3.3半监督方法使用了清华大学自然语言处理实验室公开的中英双语关系抽取数据集来做远程监督的关系抽取实验,选取了地理学科领域中的49种关系进行实验,其中有1种特殊的关系NA表示实体之间没有任何关系.为中英文分别设置了训练集､验证集和测试集如表所示

3.实验关系抽取方法使用的是基于多语言注意力机制的远程监督方法MNRE,评估方法采用的是held-out。实验结果的准确率/召回率如图所示：

4.总结结论：领域知识图谱应用很广，构建难度却很大，自动化的方法尚不成熟，人工方法效率低下。本文提出的准确高效构建领域知识图谱的方法——“四步法”，可以很好地平衡自动化方法和人工参与,在效率可以接受的情况下，实现很高的准确率。本方法的适用领域是对知识覆盖率和召回率要求较高的领域。例如本文中的地理学科知识图谱,作为基础教育学科的知识图谱，保证知识点完全覆盖是必需的.如果对知识覆盖率和召回率要求不严格的领域，可以考虑将众包语义标注替换为信息抽取和人工审核结合的方法来得到核心标注数据，同时降低时间和人力成本。用“四步法”构建出的地理学科知识图谱可以包含 67 万个实例，1421万条 RDF 三元组

THANKS！