2007数字图书馆建设与应用研讨会*深圳 元数据抽象模型与新加坡框架 刘炜 上海图书馆.

Slides:



Advertisements
Similar presentations
虚拟天文台天文教育平台建设构想 刘高潮 华中师范大学 国家天文台. 报告索引 虚拟天文台环境下的教育概述 虚拟天文台天文教育平台建设构想 天文历算服务开发示例.
Advertisements

第六 章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页 退出.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
6 Copyright © Oracle Corporation, All rights reserved. 维护控制文件.
通訊科技教育改進計畫 「網路應用與服務組」 行動電子商務課程 XML之簡介.
中文元数据标准研究及其示范数据库 项目进展及其成果应用
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
在PHP和MYSQL中实现完美的中文显示
利用关联数据实现机构知识库的语义扩展方法研究
语义网若干基本问题的讨论 申思 2003年5月.
如何使用CiteSpace分析Derwent专利数据
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Hadoop I/O By ShiChaojie.
第二讲 搭建Java Web开发环境 主讲人:孙娜
面向对象建模技术 软件工程系 林 琳.
学习前的准备工作 讲师:burning.
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
SOA – Experiment 3: Web Services Composition Challenge
管理信息结构SMI.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
Visual Studio Team System 简介
SPARQL若干问题的解释 刘颖颖
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
何謂名稱空間 何謂URI 名稱空間的作用方式 使用名稱空間的注意事項
数 控 技 术 华中科技大学机械科学与工程学院.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
数字图书馆标准规范建设与应用 北京交通大学图书馆 张 彦 2008年4月.
普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编.
本节我们结合AD5724驱动时序给大家介绍一下状态机在实际工程中的使用。
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
Semantic interoperability of linked data
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
一个RDF数据自然语言生成器的设计与实现
IGroup 中国 宁艳丽 产品简介 iGroup 中国 宁艳丽
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
祝智庭 (代表教育部现代远程教育技术标准化委员会)
C语言程序设计 主讲教师:陆幼利.
EBNF与操作语义 请用扩展的 BNF 描述 javascript语言里语句的结构;并用操作语义的方法描述对应的语义规则
张孝祥IT课堂 -深入体验Java Web开发内幕
第四章 团队音乐会序幕: 团队协作平台的快速创建
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
VB与Access数据库的连接.
姚金宇 MIT SCHEME 使用说明 姚金宇
分裂对象模型 C++ otcl.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
实体描述呈现方法的研究 实验评估 2019/5/1.
互联网行业 公司年终总结 PRESENTED BY OfficePLUS
第4章 Excel电子表格制作软件 4.4 函数(一).
105學年度 服務學習教育說明會 Service Learning.
数据集的抽取式摘要 程龚, 徐丹云.
异构数据源集成工具包及其在生物医学领域的应用
Chapter 18 使用GRASP的对象设计示例.
Visual Basic程序设计 第13章 访问数据库
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Turtle规范报告
ARM裸机第一部分-ARM那些你得知道的事
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
陳昭珍 國立臺灣師範大學圖書資訊學研究所副教授
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
DATASET 0.2 设计方案 (第一阶段) 2019/7/20 刘庆霞 Websoft NJU.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

2007数字图书馆建设与应用研讨会*深圳 元数据抽象模型与新加坡框架 刘炜 上海图书馆

主要内容 DC元数据标准规范体系 DC元数据抽象模型 DC元数据新加坡框架:应用纲要的规范形式 纯属介绍,没有原创,但是容易被忽视 本来想涉及编码方案的,由于关于编码的最佳实践非常琐碎,而且目前应用实践还没有很大需求,暂且不讲。以后专文介绍。 文中所涉及的内容,许多为本人理解,一些为尚无定论,欢迎讨论。内容都是别人的,错误都是我的

80%的人对DC元数据的认识:15个元素

说明:Google图片搜索对此slide亦有贡献 DC怪物 15%的人对DC的理解 说明:Google图片搜索对此slide亦有贡献

DC1.0 DC2.0 DC元数据标准规范体系 Element | DCMES, DCQ Element |DCAMDCAP (DCTerms++)

DC1.0 Elements元素 Qualifiers修饰词 Element Refinements元素修饰词(子元素) Encoding Schemes编码体系修饰词 Vocabulary Encoding Schemes词表编码体系 Syntax Encoding Schemes语法编码体系 1Elements 2Qualifiers 2.1Element Refinements 2.2Encoding Schemes 2.2.1vocabulary encoding schemes 2.2.2syntax encoding schemes 参见:http://dublincore.org/usage/documents/principles/#element

DC应用纲要1.0 CWA14855定义 指南性文档 没有对于元数据编码的任何规定 不支持DCAM 不支持Description Set (描述集)

DC眼中的世界(DCAM) 任何事物都是资源 任何资源都有属性 任何属性都有属性值 属性值有领域和范围(domain & range) 资源有类型 任何资源都可以以URI标识 任何资源都有属性 属性词即元数据 属性词表即元数据方案 元数据方案可有多种形式:不/半/规范的 应用纲要是一种正在成型的半/规范形式 任何属性都有属性值 属性值有领域和范围(domain & range) 属性值可以是另一个资源,可以是文字(literal) 取值的规范控制,即各类KOS,也是元数据 资源是类 属性(词)是类 属性词是资源

DCMI类型词表(DCTYPE) DC元数据描述的资源对象可能存在的类型: Collection Dataset Event Image MovingImage StillImage InteractiveResource PhysicalObject Service Software Text A resource requiring interaction from the user to be understood, executed, or experienced. Examples include forms on Web pages, applets, multimedia learning objects, chat services, or virtual reality environments.

“资源”的唯一必备属性:URI URI:Uniform Resource Identifier (RFC3986定义) 唯一必备功能:标识资源(无论是物理的还是抽象的); 包含三部分: 访问资源的命名机制 存放资源的主机名 资源自身的名称,由路径表示 两种类型: URL 如: http://www.ietf.org/rfc/rfc3986.txt mailto:java-net@java.sun.com news:comp.lang.java URN 如: urn:isbn:096139210x urn:doi:10.1045/november2007-kaufman URI是抽象类,并不规定解析

进一步说明 元数据是一种人工语言(消除歧义、明确定义、人机共读); 元数据元素集是描述资源各个方面的属性词表; 元数据取值如果规定只能从某些词表中选取,这些词表就属于受控的规范词表;这属于元素取值的domain和range; 元数据应用纲要是为了领域应用而制订的元数据方案的一种表达形式,目前正在成为规范的,叫做“DC元数据应用纲要”,核心是符合DC抽象模型的元数据形式化表述(也就是一种机读形式),通常可以以RDF形式表达; 应用模型(规定应用领域的各类实体及其相互关系)、著录规则等文档,也可以成为元数据应用纲要的组成部分; 元数据注册系统可以作为元数据元素的命名域管理体系而存在,但命名域并非一定需要注册系统进行管理; 元数据元素词表,包括规定元数据取值的规范词表,都可以看成是一种人工语言,每个术语都应该被赋予唯一的URI,都可以通过注册系统进行管理; 元数据形式化的表达必须采用基于XML的RDF或OWL等的Schema,著录工作单当然可以通过完整表达元数据方案各种关系和约束的schema来自动生成,并进行校验。当然这需要一定的环境和软件工具来实现

Resource has property X 属性词 属性值 谓词 主语 修饰/限定词 [optional qualifier] DC:Creator DC:Title DC:Subject DC:Date... 主语 Resource has property X 修饰/限定词 [optional qualifier] [optional qualifier] 来自(from):Stuart Weibel

Resource has Subject "Languages -- Grammar" Resource has Date LCSH Resource has Date "2000-06-13" ISO8601 Revised 来自(from):Stuart Weibel

DC属性元素的“领域和范围(Domain and Range)” 见:http://dublincore.org/documents/domain-range/index.shtml

DCAM图示(来自Andy Powell) Record (encoded as html, XML, or RDF/XML Description set Resource Description (URI) Resource Description (URI) Resource Description (URI) Statement Statement Vocabulary encoding scheme Statement property (URI) value URI value string syntax encoding scheme language (pt-BR)

新加坡框架进一步定义了DC应用纲要 符合DC抽象模型(DCAM)的应用纲要 (“DC应用纲要”) 包含如下一系列文档: 功能需求说明(必须desirable) 领域模型 (应有mandatory) 元素集描述 (DSP) (应有mandatory) 应用指南 (可选) 编码句法指南(可选) 元数据应用纲要的新定义 最大的不同:DSP: Description Set Profile

新加坡框架图示(来自Tom Baker) 应用指南 DC应用纲要 功能需求 领域模型 元素集 描述 编码指南 与数据格式 社区领域 模型 标注 Annotate 功能需求 领域模型 元素集 描述 编码指南 与数据格式 建立基础 建立基础 建立基础 使用 使用 建立基础 建立基础 社区领域 模型 元素词表 DCMI 抽象模型 DCMI 句法指南 建立基础 建立基础 建立基础 领域标准 RDF/S RDF 建立基础 基础标准

描述集纲要(DSP) 定义了描述集在结构方面的约束: 以XML表达(RDF当然是XML) 忽略元素的定义(通过URI参考) 忽略版本控制 允许出现怎样的描述 允许采用怎样的属性 怎样的属性值聚合方式 以XML表达(RDF当然是XML) 忽略元素的定义(通过URI参考) 忽略版本控制 不要求应用指南著录规范等给人读的文档 形式化描述的实现试验:SHAME项目,自动生成XML/RDF表单,共转换、输入数据。 翻译、修改自Mikael Nelsson的演讲稿

参见:http://dublincore.org/architecturewiki/DescriptionSetProfile

当前元数据研究和应用中的问题 人读而非机读 语义的模糊性 模型的完整性(两类模型:FRBR和DCAM) 执行的一致性 数据的独立性 基本上无法编码实现(包括数据库系统开发) 我们目前的元数据方案可以说只完成了MARC数据格式的定义,还没有2709格式使其真正机器可读 从这一点来说,目前各类元数据著作、方案中值得推敲的地方还是比较多的

一些建议 随着元数据应用的开展和普及,一致性问题越来越严重。现在如果不重视,将后患无穷! 建立本地化扩展术语的命名域参考 建立元数据应用纲要(词表)及编码的登记注册体系 修订目前的领域应用元数据应用纲要 推进元数据集成开发系统(IDE)软件和工具的开发 建立数字图书馆标准规范的开放讨论维护机制 “机读版”元数据方案的推广、培训 随着元数据应用的开展和普及,一致性问题越来越严重。现在如果不重视,将后患无穷! 科技部成果大多可以看成是基于领域应用的应用纲要,其扩展的术语(包括元素、元素修饰词、编码体系修饰词)及其定义、解释,都应该建立命名域参考,以便复用和参考引用。 理想的方式是通过登记注册体系全面地实现元数据术语管理,除了命名域管理之外,还提供属性词表、取值词表(编码体系)的管理,包括查询、版本管理、编码模式管理等功能。 针对已有的具体应用领域,建立基于新加坡框架的机器可读元数据应用纲要(即形式化的元数据方案),为此现有的元数据方案需要进行审查和修订。 机读版的应用纲要通常是RDF/RDFS形式,使这类应用刚要发挥作用,必须要固化到一定的软件工具或应用平台上去。这一步可以由企业和图书馆界一起进行。 建立开放讨论维护机制,但不一定是”权威组织”,而是建立元数据开放共享的平台,营建社区,大家一起来讨论。

问题讨论

元素名是否应该翻译? 元素名只是一个机器识别的符号(Token)而已 一个符号(token),多种翻译(labels) 如果翻译了,就不是DC了 (“盗版DC“?) dc:creator “Verfasser” 标签 “Creator” 标签 [Server in Germany] [DCMI Server] “创建者” 标签 [Server in CAS] (上图改编自Stuart Weibel有关演示文稿)

元数据“记录”是怎样的结构? 过去称为记录的,多为现在所称的描述 平面化(MARC中的记录) “虚拟记录” 传统结构:数据库记录-文件系统 描述/描述集 1:1原则是针对描述而言,而非记录 描述/描述集可以通过不同的记录形式/格式来实现

DCAM打散了资源描述,在具体应用中如何实现? 目前URI是一切Web资源描述的基础,包括URL和URN两类。URN(eg:DOI/ISBN,甚至各类词表)如何实现全局解析,不是Web的事情,是行业应用的事情; URI不是完美的资源标识方法,新的方法正在研讨中

编码问题 …… <creator> <name>John Doe</name> <date>             <earliestDate>1589</earlestDate>             <latestDate>1670</latestDate>     </date> </creator> 主要问题:元数据描述集/元数据描述1:1 Token的应用:dc.creator, dcterms.date… 元素的扩展:name(是否是FOAF的name?) 嵌套表示是否值得推荐? 编码体系修饰词的采用(如:W3CDTF)

元数据抽象模型与新加坡框架 谢谢! 欢迎访问DC中文网:http://dublincore.cn/