Presentation is loading. Please wait.

Presentation is loading. Please wait.

利用关联数据实现机构知识库的语义扩展方法研究

Similar presentations


Presentation on theme: "利用关联数据实现机构知识库的语义扩展方法研究"— Presentation transcript:

1 利用关联数据实现机构知识库的语义扩展方法研究
青年人才领域前沿项目结题报告 利用关联数据实现机构知识库的语义扩展方法研究 项目总指导:祝忠明 项目负责人:王思丽 项目组成员:姚晓娜 卢利农 刘魏 兰州分馆信息系统部 2018/9/18

2 提 纲 1.项目完成情况 2.研究主要成果 3.存在问题及拟采取措施 3.经费及使用情况 2018/9/18 2

3 1.项目完成情况1 项目实施路线 2018/9/18 3

4 1.项目完成情况2 关联数据的相关技术进展研究 直接创建和发布静态的RDF文档:FOAF-a-matic、FOAFaMaticMark2
扩展已有API抓取和关联RDF数据:Google、Yahoo、 GovWILD 将关系数据库公开为RDF接口

5 1.项目完成情况3 关联数据的相关技术方法对比分析 ① ② ③ ④ 序号 技术方法分析 应用场景分析
这种方式比较简单,一般多依赖于用户或兴趣团体手工创建或者使用较为简单的软件进行转换输出。一般只需按照软件的提示进行操作,有的时候可能需要为非信息资源对象设置相应的URI,配置标准的多用途互联网邮件扩展的类型。一般只是简单的html页面(jsp、php、asp)或者简单的java小工具。 通常适合数据量较少、对数据规范要求不太严格、不占用较大的服务器空间、只需简单存储或可将较大的文件拆分存储和发布、也不需要经常更新的情况。最常见的应用就是发布个人的FOAF文件或者RDF词表等。 是RDF化的一些小型工具,可将PDF、Word、Visio、CSV、Excel、BibTex、Flickr等传统格式的数据转换成RDF格式,术语统称为RDFizer。一般采用java、C语言或C++语言开发。 该方法适合于数据格式严格规范、数据量较大但可拆分、数据存储模式相对简单的情况,借助工具能够进行批量转换,减少人工创建所花费的开销,提高转换的效率和准确率。 利用关联数据可以对这些已有的API进行扩展,并为一些非信息资源分配一定的URI,当以Application/RDF+XML格式进行查询请求时,可以获取到RDF格式的结果数据,以便机器进行自动处理。同时可以通过解析抓取到的RDF中的URI关联到其他外部数据源的数据。 适合数据量多,数据格式复杂,数据流通性比较快捷的一些项目,主要是搜索引擎或者门户型网站平台等。如Google and Google Base,eBay,Yahoo,Amazon等主流应用平台一般都有自己的API,提供了多样化的查询、检索接口以及多种格式的返回结果(如XML、JSON或Atom)等,造成了一般数据浏览器访问的困难和搜索引擎抓取数据的不便。因而可以关联数据格式整合和可视化各种数据,丰富其检索结果和服务。 一般由大型的软件公司或实验室开发,如Openlink的Virtuoso,惠普实验室的Joseki(Jena),通常使用了较为复杂的本体建模技术,如RDF和OWL,可以处理XML、RDF、ODB和关系数据库存储,以及web服务和应用程序服务器。能够将关系数据库中的数据公开为虚拟RDF视图,从而作为一个SPARQL端点被用户浏览和访问,并进行一定的查询和推理。 适用于各种关系型数据库。都提供了通用的机制,仅仅需要修改和进行一些配置就可以投入使用,使得将关系数据库快速公开为一个RDF知识库的过程变得相对简单和可行。但对于数据模式比较复杂或者数据模式没有正确定义,亦或者数据库中含有不一致性数据的关系数据库,在将其进行处理并转换为RDF的过程中需要根据实际情况加入额外的处理步骤。

6 1.项目完成情况4 关联数据的典型应用案例分析 2018/9/18 6 项目名称 项目网址 所属领域 oreChem
化学 Bio2RDF 生物学 LODD 医学 JISC 教育学 LIBRIS 数字图书馆 Europeanna Library of Congress . 2018/9/18 6

7 1.项目完成情况4 关联数据的典型应用案例分析(续前表) 2018/9/18 7 项目名称 技术方法及应用效果分析 oreChem
依赖于一个核心数据模型(即本体)去描述和标示化学科研实体以及它们之间的相互关系,然后根据该数据模型将已有的化学数据关联扩展到各种外部化学数据源,建立不同数据提供者之间的联系,从而增强化学数据的结构化检索。 Bio2RDF 主要运用了Sesame的开源三元组存储技术和OWL本体,将一些来自于公共生物学知识库如Kegg、PDB、MGI、HGNC、NCBI的文档可以有效地以一个唯一的URI形式 LODD 含有超过8万个RDF三元组以及37万个RDF内部链接。利用关联数据把来自不同数据源的医药数据关联起来,在此基础上回答一些相关的医学和商业的问题。 JISC 将各个高等教育机构之间的教育、教学资料和课程资料发布为关联数据进行共享,并构建教育类本体, 实现基于本体的数据分析和推理应用。 LIBRIS 将国家图书馆级书目数据全部发布为关联数据,为大学图书馆、公共图书馆、博物馆以及档案馆提供在线编目服务。使用了FOAF、Bibliontology的混合体,并以RDF实现了部分FRBR算法。 Europeanna 重视门户的互操作性,采用了SKOS编码,引入了语义层,在各聚合对象之间建立语义连接,利用关联数据实现语义检索。 Library of Congress 以SKOS格式将LCSH全部关联数据化并提供词表的开放下载,成为关联数据应用的成功范例。 2018/9/18 7

8 1.项目完成情况5 关联数据的典型应用案例分析-LODD LODD关联数据集 2018/9/18 8

9 1.项目完成情况6 主流的关联数据源 数据源 技术描述和分析 DBpedia
基于Wikipedia抽取结构化数据并转换为关联数据格式进行发布和共享 DBLP 以XML格式存储计算机领域期刊文献和会议论文的元数据信息 Freebase 遵循知识共享CC(Creative Commons)协议,元数据严格结构化 WordNet 包含了20多万个基于认知语言学方面词汇的英语词表集 Flickr 含有超过40亿的图片数据,并提供图片的分类、存储、检索等功能 YAGO 基于Wikipedia和WordNet的语义知识库,约含有1700多万个实体 DrugBank 含有约4800种药物元数据信息的生物化学资源集 MusicBranz 由个人用户负责添加和管理的音乐元数据集合 GeoNames 包含超过1000万个地名和550万个地理别名的地理信息数据集 Revyu 允许用户自由标注实体和投票打分的数据集 Book Mashup 提供了书籍的相关信息,包含了大约7000个RDF链接 New York Times 提供了NYT标题词和DBpedia概念之间的关联链接 World Factbook 包含了200个国家信息的数据集

10 1.项目完成情况7 启示和借鉴意义 利用关联数据进一步扩展数字图书馆知识库的资源规模。在关联数据源中,有许多关联
资源可以作为图书馆的资源库和知识库,可以利用关联数据进行图书馆资源的扩展和关 联,为用户提供更丰富、更有意义的检索结果。 利用关联数据增强图书馆和其他机构团体间的资源共享和知识重组。图书馆可以将自己 的特色数据发布成关联数据,增加用户返回图书馆的途径。关联数据是结构化的,依靠 提供相关资源的链接而丰富现有的资源,有助于知识库在更大范围内提供开放扩展服务。 利用关联数据构建数字图书馆综合科技资源的语义化描述组织的本体框架。关联数据作 为一种支持语义互操作的技术体系,通过采用描述性语言RDF以及以数据为中心的、可 定制的XML标记语言和技术来支持基于多维情境关系如关联、层次、约束、等价等的构 建,支持对Web文档和内容进行富有意义的机器可理解的描述。这些机器可处理的描述 反过来允许设计更加智能的软件系统,对基于Web的信息进行自动分析和利用。本体被 认为是支撑语义互操作和集成数据和过程的关键技术。

11 1.项目完成情况8 利用关联数据实现机构知识库的语义扩展方法研究
将机构知识库中的实体关系发布为能够进行语义揭示的关联数据格式。机构知识库可以为不同的研究社群之间,以及同一个研究社群的不同子社群之间,提供动态的链接,描述其归属关系;同一个作者的不同科研成果之间,同一个科研成果的合作者之间,同一个资源所属学科主题的上下位关系之间,等都可以通过关联数据来关联扩展到这些资源的上下文信息,从而不仅能够让用户更快地获得更多更全面的相关知识,同时还可以增加用户回到机构知识库服务的途径。 将机构知识库中数字对象间的知识组织体系扩展到已有的关联词表(本体模型)。关联数据构建的基本原则之一就是尽可能地复用已有的关联词表或本体模型。一般最常用在数字图书馆领域的就是DC、FOAF、SKOS、LCSH等,它们均已经实现了全面的关联数据化,搭建了知识组织系统(如分类体系、词表)到关联数据之间的桥梁,切实可行。 将机构知识库中的实体数据进行语义标注,并扩展到外部关联数据源。关联数据可以为机构知识库扩展资源信息提供结构化的数据基础,经过语义标注的数据不仅能够返回给用户关于该实体的尽可能多的相关信息的统一视图,而且更利于第三方平台尤其是机器用户对数据信息的理解和处理,很大程度地提升机构知识库的知识服务能力。 2018/9/18 11

12 1.项目完成情况9 详细研究内容 确定并抽取机构知识库中可扩展的实体关系,为其进行语义层次上的内容关联和深层表达奠定基础。借助于机构知识库的关系数据库的底层数据结构和相关的元数据字段,主要抽取了科研人员、研究部门、会议论文、会议、学科主题等相关实体关系。 选择合适的关联词表和关联数据源,将抽取到的实体关系RDF化。机构知识库中的数据主要是期刊论文、会议论文、学术论文、专利、专著、研究报告等科研文献,要将机构知识库中的元数据扩展到外部的关联数据源,选择合适的关联数据源十分重要。通过对关联数据源和关联词表的比较分析,加上对机构知识库核心元数据框架体系的了解,本项目主要选DBpedia和DBLP作为机构知识库的关联数据源,DC、FOAF、SKOS、ISWC、VCARD作为其扩展的关联词表。 将RDF化的实体数据发布为公开的关联数据集服务。通过前期的调研和评估,项目选择了D2RQ开源工具,将机构知识库的关系数据源公开为虚拟RDF接口进行访问,同时开放了该接口的SPARQL端点,提供机构知识库基于简单语义的查询和推理,该查询会返回一个包含结果集的HTML列表,该结果集会将一个变量集和一个RDF术语集映射起来提供给用户。同时还提供了将结果集定制为XML、XML+XSLT、JSON多种格式的web服务。 2018/9/18 12

13 1.项目完成情况10 设计和实现方案-步骤1 抽取机构知识库的实体关系,并制定关联约束规则,为RDF化数据做准备
科研人员(Persons)--FOAF 研究部门(Organizations) 会议论文(Papers)--ISWC+DBLP 会议(Conferences)--ISWC+VCARD 学科主题(Topics)--DC+SKOS # Foreign keys for table papers ALTER TABLE `papers` ADD CONSTRAINT `papers_ibfk_1` FOREIGN KEY (`Conference`) REFERENCES `conferences` (`ConfID`); 13

14 1.项目完成情况10 设计和实现方案-步骤2 借助D2RQ组件进行编程,将实体关系RDF化,并发布为关联数据集服务
D2RQ Mapping定义并生成本体映射文件(可人工干预) D2RQ Engine调用映射文件将关系数据源映射为虚拟RDF数据库 D2R Server发布关联数据服务并提供SPARQL查询接口 14

15 1.项目完成情况11 本体映射文件 15 Prefix:Namespace Description
map:<file:/D:/Program/d2r-server-0.7/iswc.n3#> D2R自动生成,指定机构知识库映射文件的绝对位置,可以更改 db: <> D2R自动生成,关系数据库标准前缀 rdf:< D2R自动生成,OWL标准格式 rdfs:< owl:< xsd:< d2rq:< D2R自动生成,指定D2R的标准命名空间 jdbc:< D2R自动生成,指定关系型数据库的驱动 casir: < 人工修改,指定casir关联数据服务的URL,2020为D2R标准服务端口 dc:< 人工添加,指定DC的命名空间;主要用于扩展Paper和Conference的相关属性,如将Paper的Title扩展到dc:title,将Conference的Date扩展到dc:date 15

16 1.项目完成情况12 本体映射文件(续前表) 16 Prefix:Namespace Description(续前表)
dcterms: < 人工添加,指定Dcterms的命名空间;主要用于扩展Paper的相关属性,如将Paper的Abstract扩展到dcterms:abstract foaf: < 人工添加,指定foaf的命名空间;主要用于扩展Person的相关属性,如将Person的mbox扩展到foaf:mbox;name扩展到foaf:name skos: < 人工添加,指定skos的命名空间;主要用于扩展Topic的相关属性,如将Topic的name扩展到skos:subject,如果还有子学科,可以继续扩展到skos:primarySubject iswc: < 人工添加,指定iswc的命名空间;主要用于扩展Conference的相关属性,如将Conference 的location扩展到iswc:location vcard: < 人工添加,指定vcard的命名空间;主要用于开展Organization的相关属性,如将Organization的Country扩展到vcard:Country,Location扩展到vcard:Locality Dbpedia 人工添加,以owl:sameAs的形式附加标注指定部分资源在DBpedia 中的描述信息。 DBLP 人工添加,DBLP主要是用来描述计算机科学领域文献元数据。本文以rdfs:seeAlso的形式附加标注指定的资源到DBLP数据源。 16

17 1.项目完成情况13 本体映射规则 17 # Table papers map:papers a d2rq:ClassMap;
d2rq:dataStorage map:database; d2rq:uriPattern d2rq:class iswc:InProceedings; d2rq:class foaf:Document; . map:papers_Title a d2rq:PropertyBridge; d2rq:belongsToClassMap map:papers; d2rq:property dc:title; d2rq:property rdfs:label; d2rq:column "papers.Title"; d2rq:lang "en"; map:papers_URI a d2rq:PropertyBridge; d2rq:property dc:identifier; d2rq:uriColumn "papers.URI"; map:papers_Conference a d2rq:PropertyBridge; d2rq:property iswc:conference; d2rq:refersToClassMap map:conferences; d2rq:join "papers.Conference => conferences.ConfID"; 参数简要说明: ①d2rq:uriPattern提供一个URI标识,用来指导生成所实例化实体的真实URI。一般由关系数据库的实体表名和对应的主键组成。 ②d2rq:class表示该映射类所对应的实体类,其取值一般来自所应用的OWL 本体或RDFS Schema,也可以根据自己的数据模型定义新class。 ③d2rq:PropertyBridge代表OWL本体或ORDFS Schema中类的属性,它具体映射到关系数据库中数据表的某一列。 17

18 1.项目完成情况14 机构知识库RDF虚拟接口的功能描述 能够生成并使用一个或多个一致的隐性本体描述的合法RDF
能够接收一个查询或者一个对返回数据的说明 能够生成并发布可准确反映机构数据库中实体关系的关联数据集服务。 2018/9/18 18

19 1.项目完成情况15 语义扩展模块的测试和运行 示例1-机构知识库关联数据服务的基本界面 2018/9/18 19

20 1.项目完成情况16 语义扩展模块的测试和运行 示例2-会议实体浏览 2018/9/18 20

21 1.项目完成情况17 语义扩展模块的测试和运行 示例3-语义化的会议元数据 2018/9/18 21

22 1.项目完成情况18 语义扩展模块的测试和运行 示例4-语义化的科研人员实体 2018/9/18 22

23 示例5-关联数据服务的SPARQL查询端点
1.项目完成情况19 语义扩展模块的测试和运行 示例5-关联数据服务的SPARQL查询端点 2018/9/18 23

24 1.项目完成情况20 语义扩展模块的测试和运行 示例6-RDF格式的查询结果 2018/9/18 24

25 1.项目完成情况20 结论 实验结果表明,关联数据组织方式灵活,数据格式简单,借助于开源工具能够和目前主流的关系数据源进行交互,并快速地形成一定规模性应用。因而如果能够进一步地合理地利用关联数据,真正将关联数据技术融入现有的用户知识群组配置技术中,它就能够为机构知识库在内容组织、资源组织方式上提供更为丰富的功能支持和语义发现服务,对未来提高机构知识库的服务能力有着重大的意义。同时也为加速国科图实现从基础服务版的机构知识库到语义集成资源版的机构知识库的发展蜕变奠定了基础。 示例6-RDF格式的查询结果 2018/9/18 25

26 2.研究主要成果 发表论文 研究报告及系统 利用关联数据实现机构知识库的语义扩展研究(现代图书情报技术)
研究报告及系统 利用关联数据实现机构知识库的语义扩展方法研究(2.23万字) 语义扩展模块 2018/9/18 26

27 3.存在问题及拟采取措施1 借助分面浏览技术?可视化浏览技术?提供更加人性化的浏览方式
从用户的角度来看,关联数据的最大好处是可以提供多个分布式异构数据源的整合的关联的访问,希望能够做到点击的次数最少,而获得的内容最丰富最详实。而从开发者的角度来考虑,是需要将来自不同数据源的统一对象进行集成,返回关于该对象的所有相关信息的同一对象的统一视图,不仅希望能够充分利用现有数据之间的关联关系,而且时刻根据实际需要实现与Web上得高质量的数据建立新的关联关系。本模块虽然提供了基于实体、基于类和属性的基本浏览方式,但本质上还是需要用户具有一定的学科知识背景才能更好地驾驭,无形中将适用对象和范围限定到了科研人员、教师和学生,使得项目潜在用户的应用范围并不是很广。 借助分面浏览技术?可视化浏览技术?提供更加人性化的浏览方式 2018/9/18 27

28 3.存在问题及拟采取措施2 权衡使用开源工具D2RQ的优点和代价 选择更合适的开发工具?建立安全监测机制和更新机制。
可缩减编程工作量,降低设计的复杂性,提高项目开发的成功率 可自动生成本体映射文件,将关系数据源公开为虚拟RDF视图 提供SPARQL查询端点,集成了对Jena和Sesame语义web框架的支持 RDB模式发生变化时,映射文件需要重新映射和修改。 RDF接口相对于关系数据源是一个精确映射,安全性如何保证? SPARQL查询语法比较复杂,通常适用于机器用户。 D2RQ在操作数据时,将整个导入到内存模型中,在数据量大的情况下,可能会出现内存溢出问题,也会使映射文件的加载非常缓慢。 选择更合适的开发工具?建立安全监测机制和更新机制。 2018/9/18 28

29 4.经费及使用情况 经费到位总额:3.5万元 经费执行情况: 经费剩余情况:1282.1元 图书购买费:467.9元 论文版面费:1000元
管 理 费:5250元 软件开发费:22400元 软件测试费:2000元 其 他:2600元 合 计: 元 经费剩余情况:1282.1元 2018/9/18 29

30 请各位专家指导! 谢谢! 2018/9/18 30


Download ppt "利用关联数据实现机构知识库的语义扩展方法研究"

Similar presentations


Ads by Google