中国Web信息博物(Infomall) 十年来资源维护和保存 闫宏飞 yanhf AT pku.edu.cn 北京大学 2013/9/10
提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划
2013年9月Infomall数据 从2002年1月18日上线运行至今,已逾10年 机器配置: 共18台 保存网页85亿,占用空间:73TB * 2 (双份备份在线),另有一份线下备份 机器配置: 共18台 访问服务器:高性能机房 2004年购买的机器2台 储存服务器:2010年购买的机器8台, 2012年购买的机器 8台 即:用户给出URL,系统提供该URL的所有历史网页,供用户查询。系统采用Web方式对外提供服务(http://www.infomall.cn),每天接受数万次访问请求,包含数百个独立IP。 系统还提供网页数据批量访问服务(http://data.infomall.cn)。该服务用户数量很少,只有少数内部用户使用。
2013年9月Infomall服务 提供历史网页查询服务。 除上述基础服务之外,应用系统有 即:用户给出URL,系统提供该URL的所有历史网页,供用户查询。系统采用Web方式对外提供服务(http://www.infomall.cn)。 系统还提供网页数据批量访问服务(http://data.infomall.cn)。 除上述基础服务之外,应用系统有 事件搜索系统(http://sewm.pku.edu.cn/eventsearch ) 和历史事件追踪系统(http://hist.infomall.cn)。
阅读查询结果。 “A”表示统计栏,包括用户输入的URL和有关查询结果的统计数字; “B”表示查询结果, 包括存档网页的年代,该网页网址存档时间记录。选择任何一条记录进入,就可以浏览历史网页了。之后,系统返回的都是和该版本同时保存(同一版本)的链接网页,从而实现历史回放。
天网搜集记录 时间 规模 网页 站点 机器(台) 起始URL数 总数 均大小(K) 平均网页数 2001. 6 12 7 38,572,695 41,714 925.7 2001.11 1 47,707,998 46,669 1022.3 2002. 1 24,158,849 12.9 44,028 548.7 2002. 3 18 57,027,324 8.95 45,930 1241.6 表5-2中分别列出了每次搜集网页系统使用的机器数、起始URL数目,搜集到的网页总数、平均纯文本网页大小,搜集到的Web站点数目、平均每个站点拥有的网页数。 其中第一次和第二次搜集过程直到没有进一步可以搜索的网页为止(由系统中的unvisited表为空来标识;严格地讲,并不保证真正没有网页可搜了,但我们有理由认为达到了充分的覆盖),搜集过程中分析网页,只存储网页分析结果。从第三次开始,搜集分析过程中,增加了记录网页的全文本信息及超链接信息。第三次搜集过程直到硬盘空间耗尽为止。第四次搜集增加了机器,根据所访问URL的变化规律,搜集到适当的时候停止。本节基于第三次搜集存储的超链接信息分析中国网页的结构性质。根据前两次搜全的结果增长的比例推断第三次,得到2002年1月中国应该有大约49,146个网站,53,432,598个网页。从而说明第三次搜集覆盖了中国89.6%的网站,45.2%的网页。 尽管第三次搜集没有搜尽中国网页,但是2002年1月的数据已经具有足够的代表性。首先因为WebGather采用一种类似于宽度优先搜索的策略进行搜集,可以保证先搜集的网页更重要,更具有代表性[NW01][LW01]。其次根据覆盖率的推算结果可以说明(此处的覆盖率是指搜索引擎覆盖重要网页的程度)。根据中国互联网络网站影响力调查报告[CNNIC00]提供的有影响力站点列表,去除国外站点(例如www.intel.com,www.mirosoft.com 等)和不可访问的站点(例如www.cshop.com ),WebGather系统在2001年7月搜集到的结果的覆盖了96.6%有影响力的网站,2002年1月覆盖了93.2%有影响力的网站(尽管搜集过程只是从1个URL开始)。
2002年中国Web站点地域分布 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 北京 广东 上海 江苏 山东 浙江 香港 四川 福建 数量 11986 4861 3529 2432 2037 1771 1413 1356 1236 百分比 27.76 11.26 8.17 5.63 4.72 4.10 3.27 3.14 2.86 辽宁 陕西 河南 湖北 天津 黑龙江 河北 湖南 重庆 1197 1128 1090 1013 977 904 877 756 618 2.77 2.61 2.52 2.35 2.26 2.09 2.03 1.75 1.43 安徽 云南 广西 吉林 江西 甘肃 贵州 山西 新疆 511 464 397 387 369 353 310 309 251 1.18 1.07 0.92 0.90 0.85 0.82 0.72 0.58 海南 宁夏 内蒙 青海 西藏 台湾 澳门 218 188 178 34 16 14 0.50 0.44 0.41 0.08 0.04 0.03 0.00 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。平均每个网站有网页548.72个。网页文字平均为12.92 KB,网站在各省之间的分布方差为24.18。其中教育网有8144个网站,网站分布方差为16.14;科技网有732个网站,网站分布方差为27.68。 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 平均每个网站有网页548.72个。
2002年中国各省市网站分布
提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划 网页存储和回放设计目标 系统结构 网页信息存储的天网格式 衍生数据服务和系统 未来规划
网页存储和回放设计目标 网页存储设计目标 回放设计目标 力图实现对中国所有Web网页进行定期镜像和整理。 以尽可能短的工作周期把网上的信息保存下来,主要是指所有的静态网页。 回放设计目标 首要功能就是历史网页回放。 即用户给出一个初始URL和指定时间后可以在该时段的Web上漫游。
Infomall存储模型
Infomall体系结构
Infomall系统硬件部署
Infomall系统内部处理流程
网页信息存储的设计考虑 获取网页信息保存在磁盘中,需要按照规定的格式保存,便于后续处理和提供服务。 注意这种方案只是顺序保存网页信息,没有索引文件。 原始网页信息的存储格式应当设计为适合长期保存并易于处理,可以作为终端产品提供给用户使用。 考虑到终端产品使用的便利性,要求原始网页库的存储格式具备简单性的特点。 存储介质都是有寿命的,所以应当考虑当存储介质损坏时数据的可恢复性。 例如:磁盘的某个扇区损坏,导致部分数据不能读出,如果剩下的数据仍然可以使用,就能将损失降到最少。
天网存储格式定义 http://www.cwirf.org/TWFormat.pdf
天网存储格式样例
网页的抓取(1/2) 增量式 对Web主机进行流量控制 对Web主机进行任务分配 抓取状态的实时监控、展示 md5-digest网页链接和主体段落 Balloon filter保存摘要 保存新增、更新网页 对Web主机进行流量控制 遵守Robots协议 模仿人的浏览 对Web主机进行任务分配 自适应的抓取频率 抓取状态的实时监控、展示 通过多播把情况汇总到监控节点,在Web页面上展示
网页的抓取(2/2) 7个蜘蛛节点 每天抓取5万个网站 蜘蛛节点性能: 单节点400~800个抓取进程。 收获5M~20M个有效抓取。 双路四核CPU(E2650),8GB MEM,10Krpm SAS硬盘6*300GB
网页的储存 天网格式 传输、交换 服务 version 格式版本号 url Web资源对应的URL date 抓取的时间 ip 抓取的服务器地址 length 存储资源占用的空间大小 compress 存储资源使用的压缩算法 reply 按HTTP应答格式保存的Web资源 传输、交换 服务
提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划
Infomall通用公共许可证
中国事件检索与发现系统 Event searching for query “Olympic Games” 群体行为模式分析 从微观角度看,个体行为具有很大的随机性,但是通过网络结构相互作用,群体行为在宏观上会体现出确定性的行为模式。网络群体行为主要是基于信息的行为,如信息的发布、接收、传播、回复等,社交网络数据的庞大规模和短小分散等特点为网络群体行为的研究带来了挑战,也为群体智慧的利用提供了机遇。我们拟基于群体行为的微观随机性和宏观确定性模式,研究群体行为异常模式与突发事件预测,以及人类行为时空特性在网络空间的体现与影响。
中文信息检索评测
中国互联网数字资源财富库藏(CDAL) 2003年北京大学网络实验室启动了中国互联网数字资源财富库藏(CDAL)的工作。 包括7.5TB的1.63万资源。 这一工作的两个目的是: 收藏,不仅包括热门类别网络资源,还注重用户自己创建、组织的内容。 研究,关注网络资源从无序的原始状态到达有序组织过程中,有哪些环节可以用何种省力、省事的方式去完成。
CDAL提供的资源访问方式 目前提供的服务主要有3种方式见图 7‑1:基于分类体系的浏览(分类树见左侧框)、基于名字关键词的检索(检索结果见中间框)、和基于专题的收藏(见右侧框)。 由于每个资源有自身的内部构成,一些资源是某种作品集,可能包括关于一个事件的多个图片,一个作者的多部作品,或者一个专辑的多首歌曲,所以7.5TB的1.63万资源事实上包括了更多的单个实体。我们选出13个常见类别,其资源量和字节数分布如表 7‑1所示。
CDAL主要类别资源量 类别 资源数比例(%) 书籍 25.9 文章 3.26 电影 18.9 电视 8.97 软件 9.70 歌曲 戏剧曲艺 0.46 乐曲 3.80 图片(含照片绘画) 3.94 讲义 1.94 听力 0.72 视频资源 0.37 游戏 3.14
CDAL系统结构图
提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划
未来规划 技术上 形象上 管理上 不只是考虑硬件设施,还要考虑搜集的数据类型 例如不只包括网页,还要搜集博客,图片等。搜集的范围要足够宽。 昌平1PB集群上搭建GFS基础平台。带宽考虑万兆联通北大。 形象上 反映不出来InfoMall应该有的厚重感。外延丰富起来,除了提供url检索,还有其他的。 例如:2009sina pages, eventsearch, domainsearch。 管理上 存储更有规律性。Internet Archive是一个200人的单位。
谢谢