B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt 网络数据存档的存在问题 B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt bluerye(DXY)译.

Slides:



Advertisements
Similar presentations
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
Advertisements

102學年度 多元入學 大 學.
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
B.Kahle 原始出处:
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
迅航基于云服务的 美业Saas软件.
自主创业.
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
网络学习 浙江省天台县赤城中学.
第 8 课 美国经济的发展.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
素材 资源 库 文字 图形 图像 声音 动画 视频 人力 物力 财力 获取素材的渠道 数据库.
第七章 现代教育技术的应用 第一节 现代教育技术与生物学教育 第二节 计算机及其相关技术在生物学 第三节 互联网在生物学教学中的应用
本章重难点: 1.公文的格式 2.收文处理 3.发文处理 4.立卷归档要求 5.文书立卷标准
商业贿赂的构成及立法规制 2006级法学1班.
第四次大作业 登陆学校图书馆网站的电子数据库
在PHP和MYSQL中实现完美的中文显示
百链 1.
有机所文献利用快速指南 平台入口: 图书馆网站 文献、数据检索:
如何使用CiteSpace分析Derwent专利数据
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Harvard ManageMentor®
SVN的基本概念 柳峰
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
大学计算机基础 典型案例之一 构建FPT服务器.
SVN服务器的搭建(Windows) 柳峰
SQL Injection.
网络常用常用命令 课件制作人:谢希仁.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
数 控 技 术 华中科技大学机械科学与工程学院.
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
《手把手教你学STM32》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司 淘宝店铺:
数据挖掘工具性能比较.
供应商登录CJLR SRM系统入口 CJLR供应商仅可以在互联网上访问SRM系统,无法在CJLR内网登录SRM系统.
搜 刘智 iLife信息素养协会 索.
任务1-3 使用Dreamweaver创建ASP网页
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
编程作业3:网页正文抽取 (10分).
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
提供机构:XXXXXXXXX 机构级别:X级X等(无级别可不填写)
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
W3C标准网页制作 主讲教师:张 涛.
102學年度大學個人申請入學 招生審查資料上傳作業說明
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
互联网行业 公司年终总结 PRESENTED BY OfficePLUS
北京中科进出口有限责任公司 PQDT论文全文库检索平台.
iSIGHT 基本培训 使用 Excel的栅栏问题
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
超星电子图书.
Logo 思维 力量 商务展示·企业内训.
数据报分片.
本节内容 文件系统 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
RefWorks使用指南 归档、管理个人参考文献.
第二章 宪法与政治制度 陈 云.
超星电子书 让更多的人读更多的书.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
Presentation transcript:

B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt 网络数据存档的存在问题 B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt bluerye(DXY)译

网络数据存档的存在问题 “网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4) “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3)

网络存档的存在问题 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本 国际网络数据的存档库 例如:“wayback Machine”

三个会议 数据储存图书馆的未来 达姆施塔特[德国] 2001.9 国际数据网络存档大会 DPC论坛:网络数据存档 伦敦 2002.3 达姆施塔特[德国] 2001.9 国际数据网络存档大会 东京 2002.1 DPC论坛:网络数据存档 伦敦 2002.3

会议网站 http://www.bnf.fr/pages/infopro/dliECDL2001.htm http://www.ndl.go.jp/enews/sympoeng.html http://www.jisc.ac.uk/dner/preservation/webforum.html

存在问题 储存数字化信息的合法性? 版权? 是否允许访问和对公众开放? 选择一部分还是全部储存? 多长时间更新介质?何时更新? 如何在多变的网络中获得信息?

技术上面临的挑战 嵌入的外部链接和可执行程序 不变的名称和数据标识 复制控制 内容随时间的变化 表层网页和深层网页

澳大利亚(潘多拉档案库) NLA:http://www.nla.gov.au/pandora 仍没有合法地位 储存公有的出版物 选择性储存 ( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源) 允许公众访问 -NDB条款

澳大利亚(潘多拉档案库) ~1700个标题(2001.11) ADRI(澳大利亚数字资源确认) 增长率:每月40站点 重新整理:每月35站点 独特的确认方法 自身处理系统

美国(雅典娜议档案库)-议会图书馆 将互联网资源制图,可视化档案库 可通过网页访问资源 版权的合法性正在论证阶段 选择性收录 对公众公开

LC/IA 领航计划-“Election 2000” 将网上和议会资源库共享 目标: 图书馆:选择收集和分类站点;建造原型访问站点 网络档案库:在整理和归档站点的过程中学习经验 800多个站点(在这些站点中包括150多个选择后的站点和主要) 数据量有2-3万亿字节 每日归档(2000.8~2001.1)

丹麦 皇家图书馆,哥本哈根 出版物的储存有一定法律权限 只允许皇家图书馆,国立图书馆和大学图书馆访问 只归档静态站点(专论和过刊) 非动态的静态出版物-有限的站点 只允许皇家图书馆,国立图书馆和大学图书馆访问 只归档静态站点(专论和过刊) 奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点

丹麦(统计数字) 9000 网络出版物 (2001.6) -31%为专论,69%为过刊 -67.5%来自公共部门和图书馆,32.5%来自私立部门 工作人员中有0.5是技术人员,0.8是图书管理员

瑞典皇家图书馆 每年若干次对本国站点进行扫描 -不选择,收录一切 -包括所有网页,所有电子刊物,所有新闻 -包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。 -只归档但不允许访问。

瑞典 软件 使用Whois软件鉴定本国的站点 使用COMBINE Robot软件收录站点 -自动从超链接中收集文章 -同时收录图片和声音文件 -全自动化无需人为帮助

瑞典档案库(Kulturarw3) http://www.kb.se/kw3 所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面 文件命名:33个字符以及记录时间 截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量 储存在磁盘和碟片中,用分等储存管理(HSM)管理文件

瑞典档案库(Kulturarw3) 直到2002.7,只有部分法定权限(一些固定的网络文件) 2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。 2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位

芬兰 国际图书馆 使用了和瑞典类似的方案,最初只是负责本国范围之内。 具有收集数据资源的合法性和版权 使用芬兰的来自NEDLIB的软件收集数据。 档案元数据 使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码 配合时间标识作为一种挽救措施

芬兰-现行的数据收集情况 2001-2002年度的数据采集 -始于2001.8止于2002.4 -从29,000,000个URL中收集了9,400,000个文件 -压缩后的文件总计340G字节 -储存在国际超级计算中心提供的介质上 -硬件:SunE450服务器

芬兰-现行的数据收集情况 项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间” (Juha Haleka,“Finish Team”项目的主持人)

北欧网络档案库 北欧国际图书馆联合计划 不取决于数据是用哪个软件收集的 选择挪威的搜索引擎(FAST) 软件: -NEDLIB(芬兰 挪威 丹麦) -COMBINE(瑞典) 选择挪威的搜索引擎(FAST) 软件: -从100种不同MIME转换称HTML格式 -识别大部分欧洲语言 预算:260,000欧元(AUS$ 475,000)

37.9%-Image(GIF,JPEG,PNG) 相同的网页(表层) 芬兰 丹麦 1.500,000 HTML 1000,000 GIF 550,000 JPEG 36,500 PDF 11,800 plain text 6,000 word 5,300 JAVA etc 59.3%-Text/HTML 37.9%-Image(GIF,JPEG,PNG) 1.7%-PDF 1.1%-其他格式

英国 英国图书馆 -“Domain.uk” 计划(始于2002) -有意图提高规模(2004 竞标) 选择了100个英国站点 给备选的站点发现以活得批准 每3个星期重新访问 使用“Bluesquirrel Web whacker”软件 定期检查链接、变化和丢失 -有意图提高规模(2004 竞标)

英国 UKOLN 研究计划 Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -“uk.domain”估计大小应该有3,000,000个站点,24,000,000左右的网页。 Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -医学网站 -2002.3提供咨询,2002.10 完成数据 -2002.8 初步报告,最后报告会散布在整体里。

德国 档案库(德国藏书) -收集目标资料的经验 -两次不完全的快速扫描(2000.12,2000.2)

法国 档案库(法国藏书) 2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。 -结果并不是令人满意 一些非预期的特点 过大的站点 -正计划用两种不同的机器进行一次新的更为可行的研究。 -2001.6修改了允许储存的法律,但是扔未获得国会通过。

日本 国家议会图书馆 WARP(Web Archiving Program) 初步是实行选择性获得数据 日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。

国际档案库 1996年由Brewster Kahle以卖出WAIS获得的15,000,000美元建立国际档案库。 非营利组织 -发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括1903-1973的电影资料

国际档案库 每两个月完全扫描一次 机器排除,一些新闻、个人、照片。 完全拷贝了亚历山大港的档案库 在不同的洲复制。“复制是最好的保存方法” 版权?“也许这严重的侵害了合法的版权” (Lawrence Lessig,斯坦福的IP法和互联网空间专家)

国际档案库(“wayback machine”) http://www.archive.org 以收集和归档国际互联网公共网页为目标 包括大部分的图像数据 2001.10发部 对公众完全开放 每天2万用户,每秒200人 不提供文本搜索,只由URL搜索 资金支持情况?-未知

结论 “我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10) “在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。” (B.Kahle,2002.5)