Presentation is loading. Please wait.

Presentation is loading. Please wait.

Semantic interoperability of linked data

Similar presentations


Presentation on theme: "Semantic interoperability of linked data"— Presentation transcript:

1 Semantic interoperability of linked data
数字环境下图书馆前沿问题研讨班 上海 2008 ID: URI: Related topics: Rdfa Microformat/microcontent Linked open data DBPEDIA TWINE GLUE UMBEL Primo 作为互操作的方法 Reference: Talking with talis DC2008 Proceedings(translation papers) Semantic interoperability of linked data

2 我为什么介绍这个主题? DC-2009 theme: Semantic Interoperability of Linked Data
“元数据运动”的现状和趋势? 敬请关注:

3 我们是否因为元数据,而使信息的查找更 为容易?

4 图书馆技术服务:元数据加工厂,建设语义仓储…
图书馆不出版信息,但“整序”信息。目的:服务 From:

5 图书馆职业的未来: 把数字带进图书馆 把语义带给万维网 数字图书馆和万维网的互惠互利
实际上是图书馆 Technical Services的未来

6 图书馆职业的中介本质: 以互操作整合信息资源 提供基本的信息公平

7 未来(数字)图书馆技术服务:数字资源的书目控制
数字(未来)图书馆的”技术服务” 资源描述(元数据) 知识组织(本体) 服务整合(基于协议) 资源整合(语义互操作) 未来(数字)图书馆技术服务:数字资源的书目控制 技术基础

8 未来(数字)图书馆的技术服务 元数据服务:用于资源描述,包括资源集 合、保存性/管理性需求等; 本体服务:知识组织;
资源整合:跨库/联邦检索、个性化门户创 建;基于标准协议的整合与”强行”整合; 服务整合:Web2.0,无所不在的服务,业 务流程重组。 技术基础:语义描述与互操作技术(目前是 战国纷争) 强行整合:Google方式和基于页面分析

9 走向Web 走向网络,走向语义 走向语义

10 什么是语义(Semantics) 语义:“表达(representation)的含义”; 元数据(关于数据的数据)就是语义;
RDF就是表达机器可理解语义的基本格式; 在Web环境下,任何非RDF表达的语义,都 无法被看做是全局语义。

11 什么是互操作? “互操作性”指不同系统平台或系统之间 交换和共享数据的能力。 互操作解决信息系统之间的”异构”问题 。
不同的技术架构、数据库形式、媒体、以 及不断产生的多语种数字内容使异构也呈 现出丰富多彩、无穷无尽的形式。 上世纪九十年代以来,数字图书馆作为一个综合的研究领域得到了很大发展,在体系结构、海量存储、分布式搜索、多媒体信息管理与利用、个性化传播、人机界面与可视化方面都有了显著进展。 然而对于如何保证在分布式的数字图书馆环境中,人们能够更准确而全面地获得其所需要的知识和信息这一方面,并没有太多的研究,遑论突破性的研究。 但是我们也同时看到,进入二十一世纪以来在互联网技术方面的进展,以语义Web为核心的本体和元数据技术,能够结合Web服务、分布式构建技术、面向对象技术以及数据库和知识库领域几十年的积累,使这个领域的突破成为现实和可能。 数字图书馆从本质上说是一个没有明确边界的研究领域,关注的是对一个有组织(或称为有序)的信息体的构造,不论这个信息体是分布的还是集中的、虚拟的还是实在的,以满足特定的信息需求,不论这个需求来自真实的用户还是机器代理。 数字化和网络化,特别是近20年来互联网的指数级发展给人们带来严重的信息超载(Information Overload),使数字图书馆应运而生。更好地组织信息,满足人们的信息需求,从根本上有赖于机器对信息的处理能力,甚至”理解”能力,而不仅仅满足于对编码信息、符号甚至信号的识别和处理。 数字图书馆关注大规模信息体内的语义信息的组织和检索问题,应该说也是理所当然。 “语义”通常是指”信息的含义”。互联网不仅是无数台服务器、信息设备的联合体,更可以看作是一个庞大的信息资源的联合体。从抽象意义上来看,这个联合体实际上是一个巨大的符号系统,由无数的语法、语用和语义规则联结而成。 从具体的组成来看,这个联合体是由无数自治的信息体和功能体组成,每个相对独立的信息体就是一个数字图书馆。 对于作为信息体的数字图书馆而言,”语义”和基于语义而实现的功能是其存在的目的和价值所在,所有的语法规则(各类协议、结构、约束等)和语用信息都是为了组织和传播语义而存在的。 “互操作性”指不同系统平台或编程语言之间交换和共享数据的能力。互操作解决信息系统之间的”异构”问题。不同的数据库形式和结构、丰富的信息媒体(文本、音频及视频)、以及不断产生的多语种数字内容使异构也呈现出丰富多彩、无穷无尽的形式。 信息系统的异构是有层次的,因而互操作也是有层次的。互联网最初的设计,是为了解决机器的互联互通,因而只要在网络和硬件层面达到互操作就可以了。随着各类标准规范的建立,达成网络操作系统、分布式数据库等数据层面的互操作也逐步成为可能。 然而人类的需求是无止境的,信息资源的增加和网络规模的扩张积累到一定程度的时候,仅仅数据层面的互操作往往不能尽如人意,直接表达和处理”语义”的需求就提了出来。 互操作是数字图书馆作为网络分布式应用需要解决的一个核心问题,而语义互操作是互操作的目的和重点。 这并不是说目前的互操作解决方案中没有考虑语义互操作,而是没有把语义互操作当作独立的目标来考虑。可以设想,定义和设计独立的互操作层,使数字图书馆所包含的信息资源的语义”显性”化,而不是象现在大多数系统一样,隐式地、内含地包含在语法和其它结构中,将大大地促进数字图书馆的语义互操作问题的解决。

12 Web语义互操作的实现 语义描述层面(静态):元数据和本体方法;
协议层面(动态):(Z39.50, CORBA, COM/DCOM, SDARTS) , ZING, WS, REST, Linked Data… (包括术语服务及整个实现的体系架构)

13 DCAM图示(来自Andy Powell)
Record (encoded as html, XML, or RDF/XML Description set Resource Description (URI) Resource Description (URI) Resource Description (URI) Statement Statement Vocabulary encoding scheme Statement property (URI) value URI value string syntax encoding scheme language (pt-BR)

14 新加坡框架图示(来自Tom Baker) 应用指南 DC应用纲要 功能需求 领域模型 元素集 描述 编码指南 与数据格式 社区领域 模型
标注 Annotate 功能需求 领域模型 元素集 描述 编码指南 与数据格式 建立基础 建立基础 建立基础 使用 使用 建立基础 建立基础 社区领域 模型 元素词表 DCMI 抽象模型 DCMI 句法指南 建立基础 建立基础 建立基础 领域标准 RDF/S RDF 建立基础 基础标准

15 元数据方案的互操作程度 第一级 共享元素语义(Shared Term Definitions):共享对于术语 的自然语言理解;只要采用了DC的元素即可; 第二级 正式语义互操作(Formal Semantic Interoperability):共 享对于术语的形式化语义。需要每个术语的RDF参考;需要符合 值域限制;需要符合子元素的限制; 第三级 语法描述级互操作(Description Set Syntactic Interoperability):共享术语的形式化语义以及语法(达成语义 互操作)。抽象模型层面的语义互操作;形式化语义+语法限定 的一致性,并保证交换。 第四级 描述纲要级互操作(Description Set Profile Interoperability ):整套元数据方案的形式化和互操作。保证了最严格的语义互 操作。 第一级 共享元素语义(Shared Term Definitions):共享对于术语的自然语言理解;无需URI;无需元素的值域限制;无需复合DCAM;只要用了DC的元素即可。例如:IEEE LOM,采用了DC的元素,并提供了映射。可以说目前绝大多数DC应用都是这一级别的“语义互操作”。 第二级 正式语义互操作(Formal Semantic Interoperability):共享对于术语的形式化语义。需要每个术语的RDF参考;需要符合值域限制;需要符合子元素的限制(具体指什么?); 不需要复合DCAM。例如,2008年版的Expressing Dublin Core metadata in XHTML and HTML meta tags描述的规定即符合本级互操作。 第三级 语法描述级互操作(Description Set Syntactic Interoperability):共享术语的形式化语义以及语法(达成语义互操作)。抽象模型层面的语义互操作;形式化语义+语法限定的一致性,并保证交换。 第四级 描述纲要级互操作(Description Set Profile Interoperability):整套元数据方案的形式化和互操作。新加坡框架即是为了达成该级别的互操作而提出,保证了最严格的语义互操作。例如:学术著作应用刚要[SWAP]

16

17 At this point I have to say that I wish DCAM would just die
At this point I have to say that I wish DCAM would just die. It has been more of a hindrance than help, so far. If you could use it for good rather than for berating people, you might get further. ----Karen Coyle (此时此刻我不得不说:让DCAM去死吧!到目前为止,它真是累赘多于帮 助,如果你想因为有用而用而是因为想让人出丑,你真应该抛弃它!) Karen Coyle: So if you say: "the difference between "non-literal" and "literal" values is not the difference between URIs and strings..." I would disagree with you. But if you say: "the difference between DCAM:non-literal and DCAM:literal values is not the difference between URIs and strings..." I would agree.

18 只有机器会操作,才能彻底解放 全世界图书馆员
目的:元数据方案的机读化 只有机器会操作,才能彻底解放 全世界图书馆员 只有机器能操作,才能解放全人类

19 语义互操作的实现:协议 基于页面分析的(HTTP/DOM):一站式检索 平台; 基于API的:Web Services, Mashup;
基于HTTP/XML-RPC的:OAI-PMH; 基于HTTP/RDF的:语义互操作

20 从开放应用程序接口到开放数据 封闭系统CGI 大多数现有的一站式检索系统 数据封装,接口开放
页面分析 封闭系统CGI 大多数现有的一站式检索系统 基于API 数据封装,接口开放 Web Services, Mashup(开放服务) 开放数据 REST, OpenURL Linked Data

21 网管眼中的Web:The Web of Linked Computers

22 Google眼中的Web:The Web of Documents

23 The Web of Data http://richard.cyganiak.de/2007/10/lod/
Think the Web as a huge database.

24 My document can point at your document on the Web, but my database can't point at something in your database without writing special purpose code. The Semantic Web aims at fixing that. ——Jim Hendler (我在网上的文件能够很容易指向你的文件,但是我的 数据库中的数据如果不写一些特别的代码,就无法指 向你的数据。语义Web就是要解决这个问题。) As Jim Hendler once wrote, My document can point at your document on the Web, but my database can't point at something in your database without writing special purpose code. The Semantic Web aims at fixing that.

25 Document Web vs. Data Web
Glued by hyperlinks Data are HTML pages Query result is HTML pages, which can not be further processed Data are just interlinked, but not integrated Data access through different APIs Data Web Glued by RDF links Data are RDF triples Query result is RDF triples which can be easily further processed (e.g., web services) Data are interlinked and integrated, and links are typed Data access through a single and standardized access mechanism (maybe it will called in the future LOD API?)

26 什么是关联数据(Linked Data)? 由Web的发明人Tim Berners-Lee提出;
定义了一种URI规范,使得人们可以通过HTTP/URI机 制,直接获得数字资源(Thing); A richer Linking mechanism for the Web that takes us from Hypertext Links (Document to Document) to Hyperdata Links (across things that documents are about) 关联数据是实现Data Web的关键技术。 From: Kingsley Idehen, Creating, Deploying, and Exploiting Linked Data Tim Burners-Lee:

27 关联数据的四项基本原则: 使用URI作为任何事物的标识名称 使用HTTP URI使任何人都可以访问名称 当有人访问名称时,提供有用的信息
Use URIs as names for things 使用HTTP URI使任何人都可以访问名称 Use HTTP URIs so that people can look up those names 当有人访问名称时,提供有用的信息 When someone looks up a name, provide useful information 尽可能提供相关的URI以使人们发现更多的信息 Include links to other URIs so that they can discover more things Tim Burners-Lee:

28 application/rdf+xml wins
关联数据举例: From: Michael Panzer’s presentation “DDC, SKOS, and Linked Data on the Web” Thing From:Michael Panzer, DDC, SKOS, and Linked Data on the Web 303 See Other Generic Document [300 Multiple Choices] application/rdf+xml wins text/html wins content negotiation 200 OK RDF HTML Content-Location:

29 A Few Words on Linked Data
“Linked Data on the Web” is a collection of best practices for publishing data on the semantic web. Distinguishing between Information and non-information resources. 303 redirects and content negotiation. HTTP URIs for everything on Earth. owl:sameAs 重新定义“语义Web”( rebranding of the semantic web). Much more emphasis on links amongst datasets. Much less emphasis on formal semantics. 任意的数据浏览Linked data can be browsed, in much the same way we browse the traditional web. So we can find data either by searching for it (with Swoogle/Tripleshop) or by surfing our way to it. Lessons learned by the community.

30 值得关注: RDF OWL SKOS RDFa Linked Data/Cool URL GRDDL SPARQL REST
大量的过渡技术已经/注定倒在沙滩上: unAPI Microformat

31 Google的元数据公理 Web对象应该实现自描述World wide web objects should describe themselves 不能相信隐藏的、用户产生的元数据You can’t trust “hidden,” user generated information 通过链接可以提高Web对象之间的相关性The more world wide web objects that link to your world wide web object the more relevant your object must be. 注:相关性即反映了“元数据”所要反映的内容

32 图书馆员的元数据公理 信息对象并不总是能够说明自己 Information objects don’t always describe themselves (images, audio, movies, technical writing) 信息专家是可以信赖的You can trust information provided by information experts 页面排序并不总能精确反映相关性,而语 义内容则可以Pagerank does not accurately denote relevance, meaning does

33 中国元数据发展:我们处在什么位置? 元数据运动:“元数据!元数据!!” 规范逐步出台,从行业规范到国家标准 研究众多,培训频繁
理念普及 概念普及 规范逐步出台,从行业规范到国家标准 研究众多,培训频繁 数字化资源普遍采用元数据,虽然解决方 案并不能发挥元数据的潜能; 共识:“MARC已死,Meta当立!”

34

35 中国元数据发展:我们有什么问题? 全民元数据:“让元数据走开!” 认识理解不一:“元数据最终应该是为机 器而做,不是为人而做。”
缺乏领域应用的应用指南和操作手册 缺乏“最佳实践”:行业评比? 应用效果不显著:平台?工具? 缺乏权威机构的更新维护:民间机构能否 承担此任? 没有必要的软件工具

36 中国元数据发展:当前我们最需要什么? 建立元数据(术语)登记注册体系; 建立基于Web的知识组织体系;
开发提供资源描述与编码的平台、软件和 工具; 建立可供测试和应用的规范数据仓储; 建立保障上述设施运行的行业性的更新维 护机制。

37 谢谢!


Download ppt "Semantic interoperability of linked data"

Similar presentations


Ads by Google