基于OAI和METS远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua.edu.cn 清华大学图书馆 学位论文项目组 2007.09.27 南京
主要内容: NOW “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤
“CALIS 学位论文数据库”服务体系架构 中心 CALIS数字图书馆门户 认证中心 计费中心 资源调度 中心 CALIS-OID 解析中心 CALIS高校 学位论文数据库 分中心 读者 浏览器 DRM 阅读器 纸本扫描 加工 学位论文 提交与 发布系统 DRM 数字版权 保护 参建馆 本地系统
CALIS 学位论文参建馆本地系统涉及到三个层面: 本馆层面 满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求 符合相关标准、规范 开放架构 CALIS子项目(分中心)层面 纳入“CALIS高校学位论文数据库”服务体系 CALIS中心层面 纳入“CALIS高等教育数字图书馆”服务体系
学位论文参建馆本地系统结构图 学位论文参建馆本地系统结构图 1 2 3 4 5 6 7 8 DRM 版权保护 系统(PDF) 纸本扫描 读者 浏览器 DRM 阅读器 1 2 3 4 5 6 7 8 DRM 版权保护 系统(PDF) 安全 通信层 OAI-DP 服务器 MQ 服务器 METS 接口模块 对象安全 访问接口 CALIS-OID 本地解析 认证 接口 计费 接口 CLRC OpenURL 接口 服务 接口层 Web 检索 全文 引擎 专业 编目 文档 标准化 论文 回溯 发布 管理 Web 提交 Web 审核 应用层 纸本扫描 加工系统 存储层 论文元数据库 论文(PDF)对象库 学位论文提交与发布系统 学位论文参建馆本地系统结构图
参建馆本地系统与CALIS子项目中心的互操作关系 中心论文 元数据仓库 论文(前16页) 对象仓库 仓储层 CALIS 学位论文 分中心 服务 接口层 METS 接口模块 CALIS-OID 访问 数字对象 请求 OAI收割 服务器 MQ 服务器 安全 通信层 1 2 3 4 5 6 7 8 安全 通信层 DRM 数字版权 保护系统 CLRC OpenURL 接口 对象安全 访问接口 CALIS-OID 本地解析 OAI-DP 服务器 MQ 服务器 METS 接口模块 认证 接口 计费 接口 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统
学位论文提交与发布系统与CALIS中心的互操作关系 服务门户 认证 中心 计费 中心 资源调度 中心 CALIS-OID 解析中心 1 2 3 4 5 6 7 8 安全 通信层 DRM 数字版权 保护系统 OAI-DP 服务器 MQ 服务器 METS 接口模块 认证 接口 计费 接口 CLRC OpenURL 接口 对象安全 访问接口 CALIS-OID 本地解析 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统
本地系统升级的主要接口 OAI和METS数据收割接口,实现元数据和对象数据的收集; CALIS_OID解析接口,实现数字对象的解析和获取; 数字对象安全下载接口,实现数字对象的安全下载; CALIS ODL接口,实现CADLIS各系统之间的统一检索; CADLIS认证/计费接口,实现认证计费。
本地系统升级的主要接口
主要内容: “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤 NOW
基于OAI和METS数据收割模式 模式一: OAI-DP / METS-DP+MQ联动 模式二: 仅采用OAI-DP
模式一:OAI-DP / METS-DP+MQ联动 ---收割方式(1) 实时自动收割 元数据通过OAI-DP发布。OAI-DP所发布出来的OAI Record采用“CALIS OAI Record V1.0” 数据格式; 本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALIS METS Record V1.0” ; 元数据和数字对象之间的关系通过OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID进行关联; 学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;
模式一:OAI-DP / METS-DP+MQ联动 ---收割方式(2) 手动收割 用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAI Record数据的XML文件,该文件称为OAI记录文件,数据格式为“CALIS OAI Record V1.0” ; 用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METS Record数据的XML文件,该文件称为METS记录文件,数据格式记为“CALIS METS Record V1.0” ; 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;
模式一:OAI-DP / METS-DP+MQ联动 ---数据格式(元数据) CALIS RECORD V1.0 用于维护元数据与METS 一致的四项信息
模式一:OAI-DP / METS-DP+MQ联动 ---数据格式(对象数据)
模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试 2006.03月---2006.07月 学位论文和特色库项目验收前,采用模式一方式收割 学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作; 在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割; 参加测试的学校: TPI:中国人民大学,中国农业大学 TRS:清华大学 北大方正:北京大学 杭州麦达:北京大学医学院
模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试 收割结果 实时自动收割: 本地系统和数据都存在问题 中心系统对本地系统的自动收割难以有效进行 手工收割: 本地系统能顺利提交数据 但所上传的数据仍存在问题 本地系统存在的主要问题 系统bugs 数据问题
模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(系统bugs) OAI-DP本身的bugs 比较容易发现。但本地管理员仍缺乏有效易用的工具; METS-DP本身的bug问题以及MQ配置问题 难以由本地管理员自行发现; OAI-DP+METS-DP+MQ联动问题 厂商技术人员和本地管理员都难以测试和发现; 其他问题 著录和导入工具不完备; 本地DP所在机器软硬件系统的不稳定; DP本身的稳定性和可靠性问题 ; METS包传输丢包问题;
模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(数据问题) 数据不符合schema 导出的OAI和METS包文件,其数据不符合schema 数据必备性问题 很多数据项缺乏,不符合子项目组的数据规范性要求 CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能 数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致) OAI记录中的about内容不合逻辑 如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。 元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。 METS包中的时间戳应与OAI-about中的时间戳一致等。 数据的语义问题 张冠李戴
模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(问题原因) 本地系统的著录工具问题 单条入库的元数据和数字对象在必备性、一致性等方面存在问题。 本地系统的批量导入工具问题 批量入库的元数据和数字对象在必备性、一致性等方面存在问题; 批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。 统计结果的一致性问题 本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。 ——由内部检索机制不一致因素所造成。 本地系统缺乏有效的“数据质量检测工具/模块” 在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。 管理员无法自行发现上面的“数据问题”。
模式二:仅采用OAI-DP收割 为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二; 厂商依据规范要求,改进和完善系统; 模式二: 收割方式 实时自动收割 手动收割
---收割方式(1) 模式二:仅采用OAI-DP收割 实时自动收割 元数据和数字对象仅通过OAI-DP发布。发布出来的OAI Record采用“CALIS OAI Record V2.0” 数据格式; 学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;
---收割方式(2) 模式二:仅采用OAI-DP收割 手动收割 用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALIS OAI Record V2.0” ; METS-DP中的数字对象数据无需再单独导出; 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;
模式二:仅采用OAI-DP收割 ---数据格式 CALIS Record V1 CALIS Record V2
模式二:仅采用OAI-DP收割 ---数据格式 CALIS Record V2,无Mets
模式二:仅采用OAI-DP收割 ---实际收割测试 2007.09月 参加测试的学校: TPI:中国农业大学 TRS:清华大学 北大方正:北京大学 杭州麦达:北京大学医学院
比较: 模式一与模式二 ----在系统部署和维护方面 比较: 模式一与模式二 ----在系统部署和维护方面 类型 模式1 模式2 说明 部署内容 部署OAI-DP服务器 部署METS-DP服务器 部署MQ服务器 只需部署 OAI-DP服务器 前者部署、培训、 管理成本都较大 数据校验 和错误排 查 OAI文件 METS文件 OAI文件和METS文件对应 关系(如相关文件个数一致 、ID一致等) OAI文件(可 含METS数据) 对两类文件之间 的对应关系的问 题,模式1排查工 作量很大,排查 难度很大 系统故障 排查 METS-DP服务器、MQ服务 器以上三个系统之间的联动 前者工作量和难 度(尤其是系统 之间联动)都很大 厂商技术支持工作量 较大,当出现复杂问题时,需厂商和CALIS全力配合才能发现 大为降低
比较: 模式一与模式二 ----优缺点比较 类型 模式1 模式2 优点 比较: 模式一与模式二 ----优缺点比较 类型 模式1 模式2 优点 OAI-DP无需考虑大容量数据记录的传输问题,因此,模式1对OAI-DP在性能和超时处理等方面的要求较低; 只需部署与OAI-DP,无需部署METS-DP和MQ服务器; OAI记录和METS记录不再分离,一般不会出现一致性问题; 系统出现故障或数据出现问题时,管理员利用相关工具能够自己检测出来; 缺点 需要部署METS-DP和MQ服务器,需要这两个服务器与OAI-DP服务器联动; OAI记录和METS记录之间的一致性较难维护; 特别是:当上述三个服务器联动出现故障或者当OAI记录和METS记录之间出现不一致性时,系统管理员没有有效的问题排查手段,厂商也难以为管理员开发出来这种有效的检测工具; 对OAI-DP在性能方面有较高要求,OAI-DP应能对超大容量的数据记录予以正确响应。
比较: 模式一与模式二 ----结论 “模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 比较: 模式一与模式二 ----结论 “模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 工作量和难度都得大为减少, 模式二 的易用性和可管理性都大为提高; 其中“模式二”的手动收割,更为安全稳定,CALIS特色库的大批量数据收割均采用该方式; 学位论文本地系统的收割模块: TPI: 支持模式二的实时自动收割、手动收割; 北大方正:支持模式二的实时自动收割、手动收割; 麦达:支持模式二的实时自动收割、手动收割; TRS:支持模式二的手动收割;
主要内容: “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤 NOW
基于OAI和METS数据收割实施步骤 ---针对模式二(手动收割) 1)现有系统升级----公司介绍 2)数据导出----公司介绍 3) 数据质量检测 4)通过FTP方式提交
谢谢大家!