基于OAI和METS远程收集数据的 方法和流程

Slides:



Advertisements
Similar presentations
迪士尼公主裙衫变化记. 《白雪公主和七个小孩人》 《白雪公主和七个小矮人》,是世界电影史上第一部长动 画片,也是迪士尼的第一部。《白雪公主》不仅为迪斯尼 带来了第一尊奥斯卡小人,更是拯救迪斯尼于水火的贵 人 —— 在经济大萧条的 1937 年的美国,《白雪公主》为迪 斯尼赚到了 850 万美元,这约等于现在的数亿美元!
Advertisements

冠心病的 冠心病的 饮食运动疗法 中国医师协会 “ 心 希望工程 ” 健康教育讲堂 广东省人民医院 心研所 汪萍 主任.
一、软件简介 二、功能介绍 三、产品优势 四、应用范围 五、成功客户 目录目录 软件简介 ●员工工作时间,都认真工作了? ●还是在玩游戏? ●浏览与工作无关的网站? ●收发私人邮件? ●甚至将公司的机密资料拷贝带 走?或是通过邮件或聊天工具泄 密? …… 解决之道.
DP 二年级校长助理郭一根设计方案 广东碧桂园( IB )国际学校翻修方案 — 国际部 DP2 年级郭一根.
商業經營科 商業與管理群介紹 三年 1 班 10 號 16 號 邱若綺 曾慧珊. 商業與管理群 商業與管理群包括下列 11 科: 商業經營科、國際貿易科、會計事務科、資料處理科、 電子商務科、流通管理科、航運管理科、農產行銷科、 不動產事務科、水產經營科、文書事務科。 商業與管理群科對應的行業別 :
目录目录 1. 售票组织新手段 2. 售票组织多方式 3. 售票组织重管理 1996 年前,全路各站均采用原始的手工发售硬版票方式发售车票 弊病:方式落后,效率低下、站车脱节、运能浪费 新兴售票组织手段出现:席位复用、票额共用、席位自动预分、 席位集中管理、席位临时调整等 最大程度地利用票额,实现运能收益最大化。
管理科学与工程类专业 职业规划问题探讨 报告人 : 李增兵 67D103 , FTP : // 管理科学与工程学院.
政治全球化 促進國際間的了解, 抑或加劇了種族、宗教、文化和政 治實體之間的衝突 ?. 政治全球化 指一個國家或國際的政治事務,由一國或少數國家決定的模 式,逐漸過渡至複雜的跨國以至全球決策模式 政治活動和政治決策跨越國家界限.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
全国青少年科技创新大赛 科技辅导员项目组织与实施
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
万方数据库资源 的特色和使用方法 北京万方数据公司西安分公司.
102學年度 多元入學 大 學.
行政院人事行政總處 網際網路版人力資源管理資訊系統(WebHR) 103年增修功能說明
第八章 收益分配决策补:案例,习题 本章结构、主要内容、重点难点: 收益分配的原则;程序 收益分配的政策: 影响股利的因素 股利政策的种类
專題報告 訓練資源管理系統TRS 資四一 巫蓓雯 李孟娟 林安妮.
湖南省科学技术奖励 推荐工作要求.
《维普期刊资源整合服务平台》使用手册.
報告題目:遊戲交易平台 二技資管三甲 1A 張永成 1A 賴嘉宏 1A 郭俊佑
校园信息管理系统 河北科技大学网络中心 2000/4/10.
高校教参全文数据库 方正Apabi高校教参全文数据库,是方正Apabi于2003 年5月与CALIS管理中心全面开始合作,针对高校数字内容 需求,整理、搜集和解决数字版权的专业的经典教材、高 校指定教参的专业数据库。 方正Apabi高校教参全文数据覆盖“文、理、工、医、 农、林、管”等重点学科,着重发展“计算机”、“经济.
中山大学图书馆与CALIS联合目录共享共建的回顾与展望
科学基金 信息化工作进展 国家自然科学基金委员会 信息中心 2005年12月.
ZADL ZADL建设情况报告 ZADL省中心 · 竺海康 衢州.
在系統完成資料填報後 系統產生所有表件請全數印出 如下載的表件為「空白」文件,請安裝PDF中文字型 ★系統參考畫面:
第八章 网络课程的设计与开发.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
五年級上學期 體育課教學方案 設計者:吳文芳.
广东省高新技术企业培育库入库企业认定(第二批)工作介绍
阿尔茨海默病的康复评定 阿尔茨海默病是一种进行性发展的致死性神经退行性疾病,主要表现为认知功能障碍,认知功能属于大脑皮质的高级活动范畴,包括感觉、知觉、注意、记忆、理解和智能等。表现在日常生活能力进行性减退,并有各种神经精神症状和行为障碍。 康复1233 林涵 陈佳琪.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
文学名作与影视改编 郁达夫文学作品及相关影视赏析 授课教师 胡芳.
出版资源整合与统一管理 提升出版企业价值 方正智汇出版资源管理系统.
通州区 小学语文13班培训总结 暑期研修,行走在生命的渴望里——
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
参加“高校信息素质教育及其课程资源建设”研讨会的领导和嘉宾莅临指导!
甄選入學招生 第二階段集體及個別報名系統 系統開放時間:102/6/3 10:00~ 102/6/7 17:00止
财务报表无纸化网上报送培训.
打造公共服务新平台 树立智慧民生新形象 文雅(副总) 北京拓尔思信息技术股份有限公司广州分公司 广州
互联网时代班主任的挑战 万玮 2014年9月20日.
贵宾专享 金融服务方案 邓慧景.
珍惜时间 提高效率 初二1班
关注空巢老人的心理健康 525宿舍.
全国高校图工委 文献资源建设工作组 工 作 汇 报
协同共建 高等教育数字图书馆 尹玉辉 北京义华数图科技有限公司 2004年11月18日.
鄉村尋根-農具篇.
知识仓库建库管理系统(KDKW35) KDKW35的简介 KDKW35的系统结构 KDKW35的功能 KDKW35的技术特点
106年公幼改善教學環境設備補助計畫案撰寫技巧
全文检索 墨香简介 平台功能 产品优势 产品对比
SOA模型设计 杨子 2009/09/30.
中汇会计师事务所(特殊普通合伙)无锡分所
107年 國中教育會考 准考證資料處理系統 學校版 (集體報名單位) 操作說明
108新課綱教學目標與特色 (一)強化務實致用 (二)落實課程連貫 (三)深化基本職能 (四)符應產業需求 考招連動配套 部定實習科目
102學年度大學個人申請入學 招生審查資料上傳作業說明
微信商城系统操作说明 色卡会智能门店.
CALIS e得(易得)文献获取 申请指南 辽宁科技大学图书馆.
超星电子图书.
教學輔導教師 認證資料繳交說明 認證申請期間:108年4月10日至108年6月30日 請教師自行確認符合各項取證資格再行送件.
2004年湖北省高校图书馆 自动化和数字图书馆工作研讨会
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
鋼液冶煉製程介紹.
目 录: 一、网络存储系统的登录 二、网络存储系统的基本使用 三、学生提交作业功能的使用 四、教师开放资源功能的使用.
第一節 餐飲服務的定義及範圍 4-2 鋸條的種類、用途與規則 一. 鋸條規格 二. 鋸條的種類 三. 鋸條的用途.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
农科资源共享与采选平台介绍 中国农业大学图书馆 徐伟 (2012年4月 北京).
機械設計與製作專題 國立中興大學機械工程學系 盧銘詮
一、注册方法 1.请学生先登录“中国大学MOOC”,网址为“
大學考招新方案與銜接配套措施 【十二年國民基本教育課程綱要宣講】 教育部 大學招生委員會聯合會 108 年 9月.
Presentation transcript:

基于OAI和METS远程收集数据的 方法和流程 赵阳 zhaoyang@lib.tsinghua.edu.cn 清华大学图书馆 学位论文项目组 2007.09.27 南京

主要内容: NOW “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤

“CALIS 学位论文数据库”服务体系架构 中心 CALIS数字图书馆门户 认证中心 计费中心 资源调度 中心 CALIS-OID 解析中心 CALIS高校 学位论文数据库 分中心 读者 浏览器 DRM 阅读器 纸本扫描 加工 学位论文 提交与 发布系统 DRM 数字版权 保护 参建馆 本地系统

CALIS 学位论文参建馆本地系统涉及到三个层面: 本馆层面 满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求 符合相关标准、规范 开放架构 CALIS子项目(分中心)层面 纳入“CALIS高校学位论文数据库”服务体系 CALIS中心层面 纳入“CALIS高等教育数字图书馆”服务体系

学位论文参建馆本地系统结构图 学位论文参建馆本地系统结构图 1 2 3 4 5 6 7 8 DRM 版权保护 系统(PDF) 纸本扫描 读者 浏览器 DRM 阅读器 1 2 3 4 5 6 7 8 DRM 版权保护 系统(PDF) 安全 通信层 OAI-DP 服务器 MQ 服务器 METS 接口模块 对象安全 访问接口 CALIS-OID 本地解析 认证 接口 计费 接口 CLRC OpenURL 接口 服务 接口层 Web 检索 全文 引擎 专业 编目 文档 标准化 论文 回溯 发布 管理 Web 提交 Web 审核 应用层 纸本扫描 加工系统 存储层 论文元数据库 论文(PDF)对象库 学位论文提交与发布系统 学位论文参建馆本地系统结构图

参建馆本地系统与CALIS子项目中心的互操作关系 中心论文 元数据仓库 论文(前16页) 对象仓库 仓储层 CALIS 学位论文 分中心 服务 接口层 METS 接口模块 CALIS-OID 访问 数字对象 请求 OAI收割 服务器 MQ 服务器 安全 通信层 1 2 3 4 5 6 7 8 安全 通信层 DRM 数字版权 保护系统 CLRC OpenURL 接口 对象安全 访问接口 CALIS-OID 本地解析 OAI-DP 服务器 MQ 服务器 METS 接口模块 认证 接口 计费 接口 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统

学位论文提交与发布系统与CALIS中心的互操作关系 服务门户 认证 中心 计费 中心 资源调度 中心 CALIS-OID 解析中心 1 2 3 4 5 6 7 8 安全 通信层 DRM 数字版权 保护系统 OAI-DP 服务器 MQ 服务器 METS 接口模块 认证 接口 计费 接口 CLRC OpenURL 接口 对象安全 访问接口 CALIS-OID 本地解析 服务 接口层 应用层 存储层 参建馆 学位论文提交与发布系统

本地系统升级的主要接口 OAI和METS数据收割接口,实现元数据和对象数据的收集; CALIS_OID解析接口,实现数字对象的解析和获取; 数字对象安全下载接口,实现数字对象的安全下载; CALIS ODL接口,实现CADLIS各系统之间的统一检索; CADLIS认证/计费接口,实现认证计费。

本地系统升级的主要接口

主要内容: “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤 NOW

基于OAI和METS数据收割模式 模式一: OAI-DP / METS-DP+MQ联动 模式二: 仅采用OAI-DP

模式一:OAI-DP / METS-DP+MQ联动 ---收割方式(1) 实时自动收割 元数据通过OAI-DP发布。OAI-DP所发布出来的OAI Record采用“CALIS OAI Record V1.0” 数据格式; 本地系统的数字对象通过METS-DP+MQ发布。METS-DP负责将数字对象封装成METS数据包,然后通过MQ服务器发布出去,数据格式记为“CALIS METS Record V1.0” ; 元数据和数字对象之间的关系通过OAI Record中的CALIS_OBJ:objInfo 子元素所包含的MetaID进行关联; 学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;

模式一:OAI-DP / METS-DP+MQ联动 ---收割方式(2) 手动收割 用OAI数据导出工具将OAI-DP中的元数据导出成为包含OAI Record数据的XML文件,该文件称为OAI记录文件,数据格式为“CALIS OAI Record V1.0” ; 用METS数据导出工具将METS-DP中的数字对象数据导出成为包含METS Record数据的XML文件,该文件称为METS记录文件,数据格式记为“CALIS METS Record V1.0” ; 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式一:OAI-DP / METS-DP+MQ联动 ---数据格式(元数据) CALIS RECORD V1.0 用于维护元数据与METS 一致的四项信息

模式一:OAI-DP / METS-DP+MQ联动 ---数据格式(对象数据)

模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试 2006.03月---2006.07月 学位论文和特色库项目验收前,采用模式一方式收割 学位论文本地系统在部分参建馆完成升级、数据迁移和发布工作; 在厂商和参建馆配合下,CALIS技术中心和学位论文子项目组共同进行数据收割; 参加测试的学校: TPI:中国人民大学,中国农业大学 TRS:清华大学 北大方正:北京大学 杭州麦达:北京大学医学院

模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试 收割结果 实时自动收割: 本地系统和数据都存在问题 中心系统对本地系统的自动收割难以有效进行 手工收割: 本地系统能顺利提交数据 但所上传的数据仍存在问题 本地系统存在的主要问题 系统bugs 数据问题

模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(系统bugs) OAI-DP本身的bugs 比较容易发现。但本地管理员仍缺乏有效易用的工具; METS-DP本身的bug问题以及MQ配置问题 难以由本地管理员自行发现; OAI-DP+METS-DP+MQ联动问题 厂商技术人员和本地管理员都难以测试和发现; 其他问题 著录和导入工具不完备; 本地DP所在机器软硬件系统的不稳定; DP本身的稳定性和可靠性问题 ; METS包传输丢包问题;

模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(数据问题) 数据不符合schema 导出的OAI和METS包文件,其数据不符合schema 数据必备性问题 很多数据项缺乏,不符合子项目组的数据规范性要求 CALIS元数据schema本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能 数据内容不一致问题(尤其是OAI记录和METS记录之间的不一致) OAI记录中的about内容不合逻辑 如:有时间戳或类型而没有calis-oid;有calis-oid而没有时间戳。 元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。 METS包中的时间戳应与OAI-about中的时间戳一致等。 数据的语义问题 张冠李戴

模式一:OAI-DP / METS-DP+MQ联动 ---实际收割测试(问题原因) 本地系统的著录工具问题 单条入库的元数据和数字对象在必备性、一致性等方面存在问题。 本地系统的批量导入工具问题 批量入库的元数据和数字对象在必备性、一致性等方面存在问题; 批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带来很大压力。 统计结果的一致性问题 本地OAI-DP、METS-DP实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。 ——由内部检索机制不一致因素所造成。 本地系统缺乏有效的“数据质量检测工具/模块” 在OAI-DP和METS-DP发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。 管理员无法自行发现上面的“数据问题”。

模式二:仅采用OAI-DP收割 为解决模式一收割中的系统和数据问题,CALIS管理中心于2006年10月招集厂商开会,提出模式二; 厂商依据规范要求,改进和完善系统; 模式二: 收割方式 实时自动收割 手动收割

---收割方式(1) 模式二:仅采用OAI-DP收割 实时自动收割 元数据和数字对象仅通过OAI-DP发布。发布出来的OAI Record采用“CALIS OAI Record V2.0” 数据格式; 学位论文中心系统接收到 OAI-DP或METS-DP+MQ请求,自动收割参建馆本地系统中的数据;

---收割方式(2) 模式二:仅采用OAI-DP收割 手动收割 用新的OAI数据导出工具将本地系统中的元数据和数字对象合并为一条OAI记录导出为OAI记录文件。该文件中的数据格式为“CALIS OAI Record V2.0” ; METS-DP中的数字对象数据无需再单独导出; 本地系统管理员手工将上述两类文件通过FTP上传至CALIS学位论文中心,由其完成数据汇总、统计工作;

模式二:仅采用OAI-DP收割 ---数据格式 CALIS Record V1 CALIS Record V2

模式二:仅采用OAI-DP收割 ---数据格式 CALIS Record V2,无Mets

模式二:仅采用OAI-DP收割 ---实际收割测试 2007.09月 参加测试的学校: TPI:中国农业大学 TRS:清华大学 北大方正:北京大学 杭州麦达:北京大学医学院

比较: 模式一与模式二 ----在系统部署和维护方面 比较: 模式一与模式二 ----在系统部署和维护方面 类型 模式1 模式2 说明 部署内容 部署OAI-DP服务器 部署METS-DP服务器 部署MQ服务器 只需部署 OAI-DP服务器 前者部署、培训、 管理成本都较大 数据校验 和错误排 查 OAI文件 METS文件 OAI文件和METS文件对应 关系(如相关文件个数一致 、ID一致等) OAI文件(可 含METS数据) 对两类文件之间 的对应关系的问 题,模式1排查工 作量很大,排查 难度很大 系统故障 排查 METS-DP服务器、MQ服务 器以上三个系统之间的联动 前者工作量和难 度(尤其是系统 之间联动)都很大 厂商技术支持工作量 较大,当出现复杂问题时,需厂商和CALIS全力配合才能发现 大为降低

比较: 模式一与模式二 ----优缺点比较 类型 模式1 模式2 优点 比较: 模式一与模式二 ----优缺点比较 类型 模式1 模式2 优点 OAI-DP无需考虑大容量数据记录的传输问题,因此,模式1对OAI-DP在性能和超时处理等方面的要求较低; 只需部署与OAI-DP,无需部署METS-DP和MQ服务器; OAI记录和METS记录不再分离,一般不会出现一致性问题; 系统出现故障或数据出现问题时,管理员利用相关工具能够自己检测出来; 缺点 需要部署METS-DP和MQ服务器,需要这两个服务器与OAI-DP服务器联动; OAI记录和METS记录之间的一致性较难维护; 特别是:当上述三个服务器联动出现故障或者当OAI记录和METS记录之间出现不一致性时,系统管理员没有有效的问题排查手段,厂商也难以为管理员开发出来这种有效的检测工具; 对OAI-DP在性能方面有较高要求,OAI-DP应能对超大容量的数据记录予以正确响应。

比较: 模式一与模式二 ----结论 “模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 比较: 模式一与模式二 ----结论 “模式二”是对”模式一”的简化,相应的系统改造、升级、部署、维护等。 工作量和难度都得大为减少, 模式二 的易用性和可管理性都大为提高; 其中“模式二”的手动收割,更为安全稳定,CALIS特色库的大批量数据收割均采用该方式; 学位论文本地系统的收割模块: TPI: 支持模式二的实时自动收割、手动收割; 北大方正:支持模式二的实时自动收割、手动收割; 麦达:支持模式二的实时自动收割、手动收割; TRS:支持模式二的手动收割;

主要内容: “CALIS学位论文全文数据库”服务体系架构 基于OAI和METS数据收割模式 基于OAI和METS数据收割实施步骤 NOW

基于OAI和METS数据收割实施步骤 ---针对模式二(手动收割) 1)现有系统升级----公司介绍 2)数据导出----公司介绍 3) 数据质量检测 4)通过FTP方式提交

谢谢大家!