B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt 网络数据存档的存在问题 B.Kahle 2000.3 原始出处:http://www.vala.org.au/hans0602.ppt bluerye(DXY)译
网络数据存档的存在问题 “网络站点无论队一个机构的数字资产,还是对于一个国家的信息和文化遗传都起着越来越重要的作用”(JISC 2002.4) “许多历史上的信息,生来就是数字化的。这点不同于早期的电视,因为它并没有记录。”(Brewster Kahle 2002.3)
网络存档的存在问题 澳大利亚 美国 北欧国家:丹麦 芬兰 瑞典 其他国家:英国 法国 日本 国际网络数据的存档库 例如:“wayback Machine”
三个会议 数据储存图书馆的未来 达姆施塔特[德国] 2001.9 国际数据网络存档大会 DPC论坛:网络数据存档 伦敦 2002.3 达姆施塔特[德国] 2001.9 国际数据网络存档大会 东京 2002.1 DPC论坛:网络数据存档 伦敦 2002.3
会议网站 http://www.bnf.fr/pages/infopro/dliECDL2001.htm http://www.ndl.go.jp/enews/sympoeng.html http://www.jisc.ac.uk/dner/preservation/webforum.html
存在问题 储存数字化信息的合法性? 版权? 是否允许访问和对公众开放? 选择一部分还是全部储存? 多长时间更新介质?何时更新? 如何在多变的网络中获得信息?
技术上面临的挑战 嵌入的外部链接和可执行程序 不变的名称和数据标识 复制控制 内容随时间的变化 表层网页和深层网页
澳大利亚(潘多拉档案库) NLA:http://www.nla.gov.au/pandora 仍没有合法地位 储存公有的出版物 选择性储存 ( 澳大利亚电子刊物,组织化站点, 政府出版物,短期资源) 允许公众访问 -NDB条款
澳大利亚(潘多拉档案库) ~1700个标题(2001.11) ADRI(澳大利亚数字资源确认) 增长率:每月40站点 重新整理:每月35站点 独特的确认方法 自身处理系统
美国(雅典娜议档案库)-议会图书馆 将互联网资源制图,可视化档案库 可通过网页访问资源 版权的合法性正在论证阶段 选择性收录 对公众公开
LC/IA 领航计划-“Election 2000” 将网上和议会资源库共享 目标: 图书馆:选择收集和分类站点;建造原型访问站点 网络档案库:在整理和归档站点的过程中学习经验 800多个站点(在这些站点中包括150多个选择后的站点和主要) 数据量有2-3万亿字节 每日归档(2000.8~2001.1)
丹麦 皇家图书馆,哥本哈根 出版物的储存有一定法律权限 只允许皇家图书馆,国立图书馆和大学图书馆访问 只归档静态站点(专论和过刊) 非动态的静态出版物-有限的站点 只允许皇家图书馆,国立图书馆和大学图书馆访问 只归档静态站点(专论和过刊) 奥尔胡斯会在每天夜里为国立和大学图书馆提供镜像站点
丹麦(统计数字) 9000 网络出版物 (2001.6) -31%为专论,69%为过刊 -67.5%来自公共部门和图书馆,32.5%来自私立部门 工作人员中有0.5是技术人员,0.8是图书管理员
瑞典皇家图书馆 每年若干次对本国站点进行扫描 -不选择,收录一切 -包括所有网页,所有电子刊物,所有新闻 -包括.se-,.com,.org,.net在内的所有使用瑞典地址和电话号码的网站。 -只归档但不允许访问。
瑞典 软件 使用Whois软件鉴定本国的站点 使用COMBINE Robot软件收录站点 -自动从超链接中收集文章 -同时收录图片和声音文件 -全自动化无需人为帮助
瑞典档案库(Kulturarw3) http://www.kb.se/kw3 所有资源都作为一个多部分的MIME一个元数据储存在一个文件里面 文件命名:33个字符以及记录时间 截至到2001.9:从97000个网络服务器中活得110,000,000文件,总计3000G字节的数据量 储存在磁盘和碟片中,用分等储存管理(HSM)管理文件
瑞典档案库(Kulturarw3) 直到2002.7,只有部分法定权限(一些固定的网络文件) 2001.12,数据核查联合会的确认计划被认为违法。于是改计划被叫停了。 2002.7,修改后的瑞典版权法,给予了瑞典皇家图书馆以收集本国网站和公开档案库的合法地位
芬兰 国际图书馆 使用了和瑞典类似的方案,最初只是负责本国范围之内。 具有收集数据资源的合法性和版权 使用芬兰的来自NEDLIB的软件收集数据。 档案元数据 使用MD5校验和的方法控制复制,这种方法较为权威而且具有唯一的认证码 配合时间标识作为一种挽救措施
芬兰-现行的数据收集情况 2001-2002年度的数据采集 -始于2001.8止于2002.4 -从29,000,000个URL中收集了9,400,000个文件 -压缩后的文件总计340G字节 -储存在国际超级计算中心提供的介质上 -硬件:SunE450服务器
芬兰-现行的数据收集情况 项目的经验:“NEDLIB数据收集系统可以除了任何网络空间(美国除外),配合完备的硬件,提供了足够的储存空间” (Juha Haleka,“Finish Team”项目的主持人)
北欧网络档案库 北欧国际图书馆联合计划 不取决于数据是用哪个软件收集的 选择挪威的搜索引擎(FAST) 软件: -NEDLIB(芬兰 挪威 丹麦) -COMBINE(瑞典) 选择挪威的搜索引擎(FAST) 软件: -从100种不同MIME转换称HTML格式 -识别大部分欧洲语言 预算:260,000欧元(AUS$ 475,000)
37.9%-Image(GIF,JPEG,PNG) 相同的网页(表层) 芬兰 丹麦 1.500,000 HTML 1000,000 GIF 550,000 JPEG 36,500 PDF 11,800 plain text 6,000 word 5,300 JAVA etc 59.3%-Text/HTML 37.9%-Image(GIF,JPEG,PNG) 1.7%-PDF 1.1%-其他格式
英国 英国图书馆 -“Domain.uk” 计划(始于2002) -有意图提高规模(2004 竞标) 选择了100个英国站点 给备选的站点发现以活得批准 每3个星期重新访问 使用“Bluesquirrel Web whacker”软件 定期检查链接、变化和丢失 -有意图提高规模(2004 竞标)
英国 UKOLN 研究计划 Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -“uk.domain”估计大小应该有3,000,000个站点,24,000,000左右的网页。 Wellcome Library和JISC正致力于寻找解决网络数据存档的出路。 -医学网站 -2002.3提供咨询,2002.10 完成数据 -2002.8 初步报告,最后报告会散布在整体里。
德国 档案库(德国藏书) -收集目标资料的经验 -两次不完全的快速扫描(2000.12,2000.2)
法国 档案库(法国藏书) 2001:进行了两次小规模尝试,收集了16,000左右的音乐、视频等多媒体站点。 -结果并不是令人满意 一些非预期的特点 过大的站点 -正计划用两种不同的机器进行一次新的更为可行的研究。 -2001.6修改了允许储存的法律,但是扔未获得国会通过。
日本 国家议会图书馆 WARP(Web Archiving Program) 初步是实行选择性获得数据 日本版权法有了一些大的变化,有可能获准进行一些更加深入的数据收集工作。
国际档案库 1996年由Brewster Kahle以卖出WAIS获得的15,000,000美元建立国际档案库。 非营利组织 -发起者包括:AT&T实验室,Compaq,Xerox PARC,Quantum DLT,国家科学基金 1996年后开始归档网页,包括1903-1973的电影资料
国际档案库 每两个月完全扫描一次 机器排除,一些新闻、个人、照片。 完全拷贝了亚历山大港的档案库 在不同的洲复制。“复制是最好的保存方法” 版权?“也许这严重的侵害了合法的版权” (Lawrence Lessig,斯坦福的IP法和互联网空间专家)
国际档案库(“wayback machine”) http://www.archive.org 以收集和归档国际互联网公共网页为目标 包括大部分的图像数据 2001.10发部 对公众完全开放 每天2万用户,每秒200人 不提供文本搜索,只由URL搜索 资金支持情况?-未知
结论 “我们在这里不是为了触探法律。我们要创造一个我们想要生活的世界。一个没有图书馆的世界就是一个没有记忆的世界,这是将是一场悲剧。”(B.Kahle,2001.10) “在互联网上,谁都可以成为一个出版者,现在我们这个图书馆就可以做这样的事情。” (B.Kahle,2002.5)