Semantic interoperability of linked data

Slides:



Advertisements
Similar presentations
胡文 伊宁三中. If I were the only girl in the world and you were the only boy! Nothing else would matter in the world today we could go on living in the same.
Advertisements

期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学 习和生活习惯; 1. 学生住校不利于了解外 界信息; 2 可与老师及同学充分交流有 利于共同进步。 2. 和家人交流少。 在寄宿制高中,大部分学生住校,但仍有一部分学生选 择走读。你校就就此开展了一次问卷调查,主题为.
智慧老伯的一席話 原稿 : 溫 Sir 中譯 : 老柳 A man of 92 years, short, very well- presented, who takes great care in his appearance, is moving into an old people’s.
考研英语复试 口语准备 考研英语口语复试. 考研英语复试 口语准备 服装 谦虚、微笑、自信 态度积极 乐观沉稳.
英语中考复习探讨 如何写好书面表达 宁波滨海学校 李爱娣. 近三年中考试题分析 评分标准 试卷评分与练习 (2009 年书面表达为例 ) 影响给分的因素: 存在问题 书面表达高分技巧 建议.
第七课:电脑和网络. 生词 上网 vs. 网上 我上网看天气预报。 今天早上看了网上的天气预报。 正式 zhèngshì (报告,会议,纪录) 他被这所学校正式录取 大桥已经落成,日内就可以正式通车 落伍 luòw ǔ 迟到 chídào 他怕迟到,六点就起床了.
《互联网运营管理》系列课程 觉浅网 荣誉出品
如何与客户有效沟通 外贸团队销售及管理实战培训 浙江艾力斯特健康科技有限公司
劉凝慧 青年新歌.
2014 年上学期 湖南长郡卫星远程学校 制作 13 Getting news from the Internet.
信息技术在教学中的应用 信息技术应用于教学的整体观、系统观 信息技术应用于教学的整体观、系统观 对信息技术整合的理解——教师的视角
国际数据标准发展趋势及典型案例分析 东北石油大学 袁满 2015年7月23日.
Section B Period Two.
爺爺有沒有穿西裝.
Unit 9 Have you ever been to an amusement park? Section A.
专题八 书面表达.
Planes, ships and trains
用括号中所给动词的正确形式填空(有提示词)
人工智能 Artificial Intelligence 第十一章
2012高考英语书面表达精品课件:话题作文6 计划与愿望.
第五章 要怎麼收穫先那麼栽 教育發展與職業選擇
Google Scholar 學術搜尋引擎工具揭密 Use Google Scholar Effectively for Research
初中进阶 (2346 期 ) 1 版. 1. What types of bullying do you know about? Physical hitting, tripping, stealing and hair pulling Social telling other kids.
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
Unit 2 What should I do?.
馬太福音 Matthew 11: 那時,耶穌說:「父啊,天地的主,我感謝你!因為你將這些事向聰明通達人就藏起來,向嬰孩就顯出來。26 父啊,是的,因為你的美意本是如此。27 一切所有的,都是我父交付我的; 25 At that time Jesus said, “I praise you,
關聯式資料庫.
语义网若干基本问题的讨论 申思 2003年5月.
The Meditation (dhyan) world
知识仓库建库管理系统(KDKW35) KDKW35的简介 KDKW35的系统结构 KDKW35的功能 KDKW35的技术特点
我祝願你足夠 背景音樂-星空下的小喇叭【電影:亂世忠魂】 AUTO.
Guide to Freshman Life Prepared by Sam Wu.
Friendship Bouquet 友谊之花 Music: Nightengale Serenade
创建型设计模式.
Cross cultural communication in college english
但是如果你把它发给最少两个朋友。。。你将会有3年的好运气!!!
助動詞(Auxiliary Verbs) 重點1~9英文助動詞有: do must shall/should/ought to
微软新一代云计算 面向企业的 Office 365 客户培训大纲
数据库内容及检索功能 – 如何利用这些资源帮助科技论文的写作与发表 钟似璇 (Sixuan Zhong s.
Lesson 28 How Do I Learn English?
CALIS资源整合服务模式探讨 ——云计算下的变革
PubMed整合显示图书馆电子资源 医科院图书馆电子资源培训讲座.
Could you please clean your room?
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
通識教育中心 邱子恒 網際網路資源之檢索與評選 通識教育中心 邱子恒
英语教学课件 九年级全.
SectionA(Grammar Focus-4c)
Lesson One She Says/He Says 男生女生各說各話
“情态动词+have done”的用法.
高考英语写作测试及备考策略 湘潭市教育科学研究院 陈红 2017年9月4日长沙.
資料庫 靜宜大學資管系 楊子青.
祝智庭 (代表教育部现代远程教育技术标准化委员会)
人社學院 通識教育中心 邱子恒 網際網路資源之檢索與評選 人社學院 通識教育中心 邱子恒
主日信息:『彼此相愛』 薛忠勇 弟兄 3  9 2014.
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Lesson 19: A Story or a Poem?
Why Semantic Web? Speaker: 呂瑞麟 國立中興大學資訊管理學系教授
True friendship is like sound health;
中考英语阅读理解 完成句子命题与备考 宝鸡市教育局教研室 任军利
商業英文 組員: 張裕欣 廖彥鈞 吳鎵佑 陳奕達.
Philosophy of Life.
高考应试作文写作训练 5. 正反观点对比.
TinyDB資料庫 靜宜大學資管系 楊子青.
創造思考的開發與培養.
英语单项解题思路.
More About Auto-encoder
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
Reflections on life 生命的倒影.
Presentation transcript:

Semantic interoperability of linked data 数字环境下图书馆前沿问题研讨班 上海 2008 ID: kevenlw@gmail.com URI: http://www.kevenlw.name/foaf.rdf Related topics: Rdfa Microformat/microcontent Linked open data DBPEDIA TWINE GLUE UMBEL Primo 作为互操作的方法 Reference: Talking with talis DC2008 Proceedings(translation papers) Semantic interoperability of linked data

我为什么介绍这个主题? DC-2009 theme: Semantic Interoperability of Linked Data “元数据运动”的现状和趋势? 敬请关注:http://dublincore.org

我们是否因为元数据,而使信息的查找更 为容易?

图书馆技术服务:元数据加工厂,建设语义仓储… 图书馆不出版信息,但“整序”信息。目的:服务 From: http://www.wayland.ma.us/library/images/tech%20services2.jpg

图书馆职业的未来: 把数字带进图书馆 把语义带给万维网 数字图书馆和万维网的互惠互利 实际上是图书馆 Technical Services的未来

图书馆职业的中介本质: 以互操作整合信息资源 提供基本的信息公平

未来(数字)图书馆技术服务:数字资源的书目控制 数字(未来)图书馆的”技术服务” 资源描述(元数据) 知识组织(本体) 服务整合(基于协议) 资源整合(语义互操作) 未来(数字)图书馆技术服务:数字资源的书目控制 技术基础

未来(数字)图书馆的技术服务 元数据服务:用于资源描述,包括资源集 合、保存性/管理性需求等; 本体服务:知识组织; 资源整合:跨库/联邦检索、个性化门户创 建;基于标准协议的整合与”强行”整合; 服务整合:Web2.0,无所不在的服务,业 务流程重组。 技术基础:语义描述与互操作技术(目前是 战国纷争) 强行整合:Google方式和基于页面分析

走向Web 走向网络,走向语义 走向语义

什么是语义(Semantics) 语义:“表达(representation)的含义”; 元数据(关于数据的数据)就是语义; RDF就是表达机器可理解语义的基本格式; 在Web环境下,任何非RDF表达的语义,都 无法被看做是全局语义。

什么是互操作? “互操作性”指不同系统平台或系统之间 交换和共享数据的能力。 互操作解决信息系统之间的”异构”问题 。 不同的技术架构、数据库形式、媒体、以 及不断产生的多语种数字内容使异构也呈 现出丰富多彩、无穷无尽的形式。 上世纪九十年代以来,数字图书馆作为一个综合的研究领域得到了很大发展,在体系结构、海量存储、分布式搜索、多媒体信息管理与利用、个性化传播、人机界面与可视化方面都有了显著进展。 然而对于如何保证在分布式的数字图书馆环境中,人们能够更准确而全面地获得其所需要的知识和信息这一方面,并没有太多的研究,遑论突破性的研究。 但是我们也同时看到,进入二十一世纪以来在互联网技术方面的进展,以语义Web为核心的本体和元数据技术,能够结合Web服务、分布式构建技术、面向对象技术以及数据库和知识库领域几十年的积累,使这个领域的突破成为现实和可能。 数字图书馆从本质上说是一个没有明确边界的研究领域,关注的是对一个有组织(或称为有序)的信息体的构造,不论这个信息体是分布的还是集中的、虚拟的还是实在的,以满足特定的信息需求,不论这个需求来自真实的用户还是机器代理。 数字化和网络化,特别是近20年来互联网的指数级发展给人们带来严重的信息超载(Information Overload),使数字图书馆应运而生。更好地组织信息,满足人们的信息需求,从根本上有赖于机器对信息的处理能力,甚至”理解”能力,而不仅仅满足于对编码信息、符号甚至信号的识别和处理。 数字图书馆关注大规模信息体内的语义信息的组织和检索问题,应该说也是理所当然。 “语义”通常是指”信息的含义”。互联网不仅是无数台服务器、信息设备的联合体,更可以看作是一个庞大的信息资源的联合体。从抽象意义上来看,这个联合体实际上是一个巨大的符号系统,由无数的语法、语用和语义规则联结而成。 从具体的组成来看,这个联合体是由无数自治的信息体和功能体组成,每个相对独立的信息体就是一个数字图书馆。 对于作为信息体的数字图书馆而言,”语义”和基于语义而实现的功能是其存在的目的和价值所在,所有的语法规则(各类协议、结构、约束等)和语用信息都是为了组织和传播语义而存在的。 “互操作性”指不同系统平台或编程语言之间交换和共享数据的能力。互操作解决信息系统之间的”异构”问题。不同的数据库形式和结构、丰富的信息媒体(文本、音频及视频)、以及不断产生的多语种数字内容使异构也呈现出丰富多彩、无穷无尽的形式。 信息系统的异构是有层次的,因而互操作也是有层次的。互联网最初的设计,是为了解决机器的互联互通,因而只要在网络和硬件层面达到互操作就可以了。随着各类标准规范的建立,达成网络操作系统、分布式数据库等数据层面的互操作也逐步成为可能。 然而人类的需求是无止境的,信息资源的增加和网络规模的扩张积累到一定程度的时候,仅仅数据层面的互操作往往不能尽如人意,直接表达和处理”语义”的需求就提了出来。 互操作是数字图书馆作为网络分布式应用需要解决的一个核心问题,而语义互操作是互操作的目的和重点。 这并不是说目前的互操作解决方案中没有考虑语义互操作,而是没有把语义互操作当作独立的目标来考虑。可以设想,定义和设计独立的互操作层,使数字图书馆所包含的信息资源的语义”显性”化,而不是象现在大多数系统一样,隐式地、内含地包含在语法和其它结构中,将大大地促进数字图书馆的语义互操作问题的解决。

Web语义互操作的实现 语义描述层面(静态):元数据和本体方法; 协议层面(动态):(Z39.50, CORBA, COM/DCOM, SDARTS) , ZING, WS, REST, Linked Data… (包括术语服务及整个实现的体系架构)

DCAM图示(来自Andy Powell) Record (encoded as html, XML, or RDF/XML Description set Resource Description (URI) Resource Description (URI) Resource Description (URI) Statement Statement Vocabulary encoding scheme Statement property (URI) value URI value string syntax encoding scheme language (pt-BR)

新加坡框架图示(来自Tom Baker) 应用指南 DC应用纲要 功能需求 领域模型 元素集 描述 编码指南 与数据格式 社区领域 模型 标注 Annotate 功能需求 领域模型 元素集 描述 编码指南 与数据格式 建立基础 建立基础 建立基础 使用 使用 建立基础 建立基础 社区领域 模型 元素词表 DCMI 抽象模型 DCMI 句法指南 建立基础 建立基础 建立基础 领域标准 RDF/S RDF 建立基础 基础标准

元数据方案的互操作程度 第一级 共享元素语义(Shared Term Definitions):共享对于术语 的自然语言理解;只要采用了DC的元素即可; 第二级 正式语义互操作(Formal Semantic Interoperability):共 享对于术语的形式化语义。需要每个术语的RDF参考;需要符合 值域限制;需要符合子元素的限制; 第三级 语法描述级互操作(Description Set Syntactic Interoperability):共享术语的形式化语义以及语法(达成语义 互操作)。抽象模型层面的语义互操作;形式化语义+语法限定 的一致性,并保证交换。 第四级 描述纲要级互操作(Description Set Profile Interoperability ):整套元数据方案的形式化和互操作。保证了最严格的语义互 操作。 第一级 共享元素语义(Shared Term Definitions):共享对于术语的自然语言理解;无需URI;无需元素的值域限制;无需复合DCAM;只要用了DC的元素即可。例如:IEEE LOM,采用了DC的元素,并提供了映射。可以说目前绝大多数DC应用都是这一级别的“语义互操作”。 第二级 正式语义互操作(Formal Semantic Interoperability):共享对于术语的形式化语义。需要每个术语的RDF参考;需要符合值域限制;需要符合子元素的限制(具体指什么?); 不需要复合DCAM。例如,2008年版的Expressing Dublin Core metadata in XHTML and HTML meta tags描述的规定即符合本级互操作。 第三级 语法描述级互操作(Description Set Syntactic Interoperability):共享术语的形式化语义以及语法(达成语义互操作)。抽象模型层面的语义互操作;形式化语义+语法限定的一致性,并保证交换。 第四级 描述纲要级互操作(Description Set Profile Interoperability):整套元数据方案的形式化和互操作。新加坡框架即是为了达成该级别的互操作而提出,保证了最严格的语义互操作。例如:学术著作应用刚要[SWAP]

At this point I have to say that I wish DCAM would just die At this point I have to say that I wish DCAM would just die. It has been more of a hindrance than help, so far. If you could use it for good rather than for berating people, you might get further. ----Karen Coyle (此时此刻我不得不说:让DCAM去死吧!到目前为止,它真是累赘多于帮 助,如果你想因为有用而用而是因为想让人出丑,你真应该抛弃它!) Karen Coyle: So if you say: "the difference between "non-literal" and "literal" values is not the difference between URIs and strings..." I would disagree with you. But if you say: "the difference between DCAM:non-literal and DCAM:literal values is not the difference between URIs and strings..." I would agree.

只有机器会操作,才能彻底解放 全世界图书馆员 目的:元数据方案的机读化 只有机器会操作,才能彻底解放 全世界图书馆员 只有机器能操作,才能解放全人类

语义互操作的实现:协议 基于页面分析的(HTTP/DOM):一站式检索 平台; 基于API的:Web Services, Mashup; 基于HTTP/XML-RPC的:OAI-PMH; 基于HTTP/RDF的:语义互操作

从开放应用程序接口到开放数据 封闭系统CGI 大多数现有的一站式检索系统 数据封装,接口开放 页面分析 封闭系统CGI 大多数现有的一站式检索系统 基于API 数据封装,接口开放 Web Services, Mashup(开放服务) 开放数据 REST, OpenURL Linked Data

网管眼中的Web:The Web of Linked Computers

Google眼中的Web:The Web of Documents

The Web of Data http://richard.cyganiak.de/2007/10/lod/ Think the Web as a huge database. http://richard.cyganiak.de/2007/10/lod/

My document can point at your document on the Web, but my database can't point at something in your database without writing special purpose code. The Semantic Web aims at fixing that. ——Jim Hendler (我在网上的文件能够很容易指向你的文件,但是我的 数据库中的数据如果不写一些特别的代码,就无法指 向你的数据。语义Web就是要解决这个问题。) As Jim Hendler once wrote, My document can point at your document on the Web, but my database can't point at something in your database without writing special purpose code. The Semantic Web aims at fixing that.

Document Web vs. Data Web Glued by hyperlinks Data are HTML pages Query result is HTML pages, which can not be further processed Data are just interlinked, but not integrated Data access through different APIs Data Web Glued by RDF links Data are RDF triples Query result is RDF triples which can be easily further processed (e.g., web services) Data are interlinked and integrated, and links are typed Data access through a single and standardized access mechanism (maybe it will called in the future LOD API?)

什么是关联数据(Linked Data)? 由Web的发明人Tim Berners-Lee提出; 定义了一种URI规范,使得人们可以通过HTTP/URI机 制,直接获得数字资源(Thing); A richer Linking mechanism for the Web that takes us from Hypertext Links (Document to Document) to Hyperdata Links (across things that documents are about) 关联数据是实现Data Web的关键技术。 From: Kingsley Idehen, Creating, Deploying, and Exploiting Linked Data Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html

关联数据的四项基本原则: 使用URI作为任何事物的标识名称 使用HTTP URI使任何人都可以访问名称 当有人访问名称时,提供有用的信息 Use URIs as names for things 使用HTTP URI使任何人都可以访问名称 Use HTTP URIs so that people can look up those names 当有人访问名称时,提供有用的信息 When someone looks up a name, provide useful information 尽可能提供相关的URI以使人们发现更多的信息 Include links to other URIs so that they can discover more things Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html

application/rdf+xml wins 关联数据举例: From: Michael Panzer’s presentation “DDC, SKOS, and Linked Data on the Web” http://dewey.info/class/338.4 Thing From:Michael Panzer, DDC, SKOS, and Linked Data on the Web 303 See Other http://dewey.info/class/338.4/about Generic Document [300 Multiple Choices] application/rdf+xml wins text/html wins content negotiation 200 OK RDF HTML Content-Location: http://dewey.info/class/338.4/about.de.skos http://dewey.info/class/338.4/about.de.html

A Few Words on Linked Data “Linked Data on the Web” is a collection of best practices for publishing data on the semantic web. Distinguishing between Information and non-information resources. 303 redirects and content negotiation. HTTP URIs for everything on Earth. owl:sameAs 重新定义“语义Web”( rebranding of the semantic web). Much more emphasis on links amongst datasets. Much less emphasis on formal semantics. 任意的数据浏览Linked data can be browsed, in much the same way we browse the traditional web. So we can find data either by searching for it (with Swoogle/Tripleshop) or by surfing our way to it. Lessons learned by the community.

值得关注: RDF OWL SKOS RDFa Linked Data/Cool URL GRDDL SPARQL REST 大量的过渡技术已经/注定倒在沙滩上: unAPI Microformat …

Google的元数据公理 Web对象应该实现自描述World wide web objects should describe themselves 不能相信隐藏的、用户产生的元数据You can’t trust “hidden,” user generated information 通过链接可以提高Web对象之间的相关性The more world wide web objects that link to your world wide web object the more relevant your object must be. 注:相关性即反映了“元数据”所要反映的内容

图书馆员的元数据公理 信息对象并不总是能够说明自己 Information objects don’t always describe themselves (images, audio, movies, technical writing) 信息专家是可以信赖的You can trust information provided by information experts 页面排序并不总能精确反映相关性,而语 义内容则可以Pagerank does not accurately denote relevance, meaning does

中国元数据发展:我们处在什么位置? 元数据运动:“元数据!元数据!!” 规范逐步出台,从行业规范到国家标准 研究众多,培训频繁 理念普及 概念普及 规范逐步出台,从行业规范到国家标准 研究众多,培训频繁 数字化资源普遍采用元数据,虽然解决方 案并不能发挥元数据的潜能; 共识:“MARC已死,Meta当立!”

中国元数据发展:我们有什么问题? 全民元数据:“让元数据走开!” 认识理解不一:“元数据最终应该是为机 器而做,不是为人而做。” 缺乏领域应用的应用指南和操作手册 缺乏“最佳实践”:行业评比? 应用效果不显著:平台?工具? 缺乏权威机构的更新维护:民间机构能否 承担此任? 没有必要的软件工具

中国元数据发展:当前我们最需要什么? 建立元数据(术语)登记注册体系; 建立基于Web的知识组织体系; 开发提供资源描述与编码的平台、软件和 工具; 建立可供测试和应用的规范数据仓储; 建立保障上述设施运行的行业性的更新维 护机制。

谢谢!