中国Web信息博物(Infomall) 十年来资源维护和保存

Slides:

Advertisements

Similar presentations

一、软件简介二、功能介绍三、产品优势四、应用范围五、成功客户目录目录软件简介 ●员工工作时间，都认真工作了？ ●还是在玩游戏？ ●浏览与工作无关的网站？ ●收发私人邮件？ ●甚至将公司的机密资料拷贝带走？或是通过邮件或聊天工具泄密？ …… 解决之道.

Advertisements

国家税务总局关于修改企业所得税年度纳税申报表（ A 类， 2014 年版）部分申报表的公告（国家税务总局公告 2016 年第 3 号）一、对《企业基础信息表》（ A ）及填报说明修改如下：（一） “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”

2014 年 12 月企业所得税年度纳税申报表 (A 类， 2014 版 ) 辅导材料（二） A 企业基础信息 A 主表.

一、老师申请题目，以下指导老师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”

當我已老謹以此文獻給像我一樣流浪在外的子女們.

资源平台应用培训武汉市交通学校信息化建设指导委员会.

图书馆电子资源的利用图书馆电子资源部电话：天河（3897）从化（3341）

景观水池渗漏的研究年级专业：12级土木工程指导教师： ××× 教学点： ××××教学点新疆工程学院继续教育学院 20 年月日

2015年12月14日-2015年12月20日缩略版.

专题19　自然灾害与防治.

指導老師：羅夏美組別：第四組組員：車輛二甲蔡中銘車輛三甲莊鵬彥國企二甲陳于甄國企二甲詹雯晴資傳二乙林怡芳

我的家乡南通 ….

104年度國立宜蘭大學新進主管研討主計業務宣導說明

数字化校园建设与思考扬州大学信息中心沈洁 2017年3月3日.

教育信息技术中心 2009年工作汇报 2010年1月.

大学计算机基础主讲：张建国电话: 实验及交作业网址：

时间与我们的世界 Pb 段心蕊.

102年實施之高中職及五專多元入學(含免試入學)之招生機制

读者与图书馆 2009年春季版总第 15 期山东交通学院图书馆 2009年3月.

工程定额与计价方法教材名称：工程建设定额原理与实务

阳光工程引导性培训宁夏自治区盐池县农广校

《毛泽东思想和中国特色社会主义体系概论》第一章马克思主义中国化两大理论成果

小学建筑设计中的相关设计规范.

2010年春季开学学校食堂食品安全知识培训徐汇区食品药品监督所

进出口食品检验监管基础讲课内容我国进出口食品安全管理体系介绍法律法规进口食品的检验检疫出口食品的检验检疫.

中小学校舍建设管理《地县教育局基建专干培训班》克拉玛依 2015年11月校舍建设管理与现存问题对策 1.

2012级暑期放假安全教育及宿舍搬迁工作布置会北京化工大学理学院辅导员：曹鼎 2013年6月6日.

网络上的人际交往.

授课班级安全技术管理0605班第 5 次课授课时间 2008年3月10日星期一授课地点科技楼401多媒体教室课题内容：

汇报大纲一、报送系统总体介绍二、自查及检查评分报送流程三、自查及检查方法及关键点四、建议及注意事项.

“网络问政”给九江新闻网带来新的发展机遇 -- 九江新闻网高立东 --.

總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.

第三节渐开线圆柱齿轮精度等级及应用.

第八章网络课程的设计与开发.

共产党员致力新疆油田信息化建设数据公司信息业务党支部 2013年6月.

实训十四、IE浏览器的基本应用.

2014年企业所得税汇算清缴相关税收政策新华区地方税务局卿继红

核心竞争力超低码流自主研发的超低码流无损压缩算法——解决了在ADSL普通宽带条件下(仅64KB的上传带宽)，远程监控低成本大规模普及的瓶颈问题。高清画质全国独家手机流畅观看1080P高清画质仅仅需40KB每秒的流量。与同类产品相比，神州鹰能节约80%以上手机流量。互联互通唯一大规模在全国架设电信、联通、铁通等服务器群组，实现全世界流畅观看，解决国内电信运营商南北互联互通的问题。

第十章季节施工 ——冬期施工准备.

危险废物环境管理情况河南省固体废物管理中心　韩晓晗 2007年6月6日.

食品添加剂生产许可审查通则起草说明.

俄语字母的发音体系阅读规则.

概述检索图书的检索工具检索期刊的检索工具检索特种文献的检索工具

餐饮服务从业人员食品安全知识培训孔莉朔州市食品药品监督管理局.

首次数据采集填报说明内蒙古自治区校车信息管理系统靳丽内蒙古自治区教育信息中心 2013年5月

2015年云南财经大学图书馆新生入馆教育考核试题答题指南

社会工作概论个案工作课程培训深圳电大赖小乐.

互联网时代班主任的挑战万玮 2014年9月20日.

大纲一、备案系统数据迁移方案二、备案系统过程数据处理方案三、备案系统内存量数据核验方案四、新备案系统信息真实性核验方案※

五、学习方法及应考对策（一）学习方法 1．保证复习时间，吃透教材：上课之前应该对课程相关内容进行预习，把不理解的问题记录下来，带着问题听课。考试之前务必把课本看3遍以上，第一遍一定要精读，最好能做笔记，边读边记，不要快，要记牢。第二、三遍可以查缺补漏型的看，通过做题目看书，加深课本印象。 2．加强概念、理论性内容的重复记忆：概念、理论性内容一般比较抽象，所以在理解的基础上一定要重复记忆，在接受辅导之后，再加以重点记忆，以便及时巩固所学内容，切忌走马观花似的复习，既浪费时间，效果也不好。

防空地下室审批要点主讲人：陈玉亭.

一二三四五六七项目建设总体情况建设工作机制与举措项目建设进展建设经费投入与使用贡献与示范典型案例

治超新政相关文件解读厅执法局江涛二零一六年九月.

学习目标： 1）理解包和包过滤 2）理解包过滤的方法 3）设置特殊的包过滤规则

鄉村尋根-農具篇.

欢迎各位 Nice to Meet U.

貨幣需求與貨幣市場的均衡.

强强联手共建支付安全 2008瑞星互联网安全技术大会.

Web前端开发第23章：网站发布阮晓龙 / 河南中医药大学管理科学与工程学科

国家体育总局自行车击剑运动管理中心备战亚运会诚征合作伙伴

香港傳統的農村生活.

商業行為成立的要件動動腦 Q 請試著判斷下列何者為商業行為？請試著判斷下列何者為商業行為？.

目次检索打印下载文字摘录更换背景多窗口阅读.

项目1：明沟排水建筑工程系.

“修身成材” 班级干部培训班黑龙江大学党委学工部.

【VA虚拟应用管理平台】专题培训接入防火墙陕西益和信息技术开发有限责任公司 2011年2月.

玻璃期货基础知识研究培训张恒 2012年7月30日.

106年免試入學第一次模擬選填重要日程表說明 1.106年1月10日中午12時～106年1月16日中午12時完成第一次模擬

Presentation transcript:

中国Web信息博物(Infomall) 十年来资源维护和保存闫宏飞 yanhf AT pku.edu.cn 北京大学 2013/9/10

提纲 Infomall的数据和服务 Infomall系统与技术衍生数据服务和系统未来规划

2013年9月Infomall数据从2002年1月18日上线运行至今，已逾10年机器配置：共18台保存网页85亿，占用空间：73TB * 2 （双份备份在线），另有一份线下备份机器配置：共18台访问服务器：高性能机房 2004年购买的机器2台储存服务器：2010年购买的机器8台， 2012年购买的机器 8台即：用户给出URL，系统提供该URL的所有历史网页，供用户查询。系统采用Web方式对外提供服务（http://www.infomall.cn），每天接受数万次访问请求，包含数百个独立IP。系统还提供网页数据批量访问服务（http://data.infomall.cn）。该服务用户数量很少，只有少数内部用户使用。

2013年9月Infomall服务提供历史网页查询服务。除上述基础服务之外，应用系统有即：用户给出URL，系统提供该URL的所有历史网页，供用户查询。系统采用Web方式对外提供服务（http://www.infomall.cn）。系统还提供网页数据批量访问服务（http://data.infomall.cn）。除上述基础服务之外，应用系统有事件搜索系统（http://sewm.pku.edu.cn/eventsearch ）和历史事件追踪系统（http://hist.infomall.cn）。

阅读查询结果。 “A”表示统计栏，包括用户输入的URL和有关查询结果的统计数字； “B”表示查询结果，包括存档网页的年代，该网页网址存档时间记录。选择任何一条记录进入，就可以浏览历史网页了。之后，系统返回的都是和该版本同时保存（同一版本）的链接网页，从而实现历史回放。

天网搜集记录时间规模网页站点机器（台）起始URL数总数均大小（K）平均网页数 2001. 6 12 7 38,572,695 41,714 925.7 2001.11 1 47,707,998 46,669 1022.3 2002. 1 24,158,849 12.9 44,028 548.7 2002. 3 18 57,027,324 8.95 45,930 1241.6 表5-2中分别列出了每次搜集网页系统使用的机器数、起始URL数目，搜集到的网页总数、平均纯文本网页大小，搜集到的Web站点数目、平均每个站点拥有的网页数。其中第一次和第二次搜集过程直到没有进一步可以搜索的网页为止（由系统中的unvisited表为空来标识；严格地讲，并不保证真正没有网页可搜了，但我们有理由认为达到了充分的覆盖），搜集过程中分析网页，只存储网页分析结果。从第三次开始，搜集分析过程中，增加了记录网页的全文本信息及超链接信息。第三次搜集过程直到硬盘空间耗尽为止。第四次搜集增加了机器，根据所访问URL的变化规律，搜集到适当的时候停止。本节基于第三次搜集存储的超链接信息分析中国网页的结构性质。根据前两次搜全的结果增长的比例推断第三次，得到2002年1月中国应该有大约49,146个网站，53,432,598个网页。从而说明第三次搜集覆盖了中国89.6%的网站，45.2%的网页。尽管第三次搜集没有搜尽中国网页，但是2002年1月的数据已经具有足够的代表性。首先因为WebGather采用一种类似于宽度优先搜索的策略进行搜集，可以保证先搜集的网页更重要，更具有代表性[NW01][LW01]。其次根据覆盖率的推算结果可以说明（此处的覆盖率是指搜索引擎覆盖重要网页的程度）。根据中国互联网络网站影响力调查报告[CNNIC00]提供的有影响力站点列表，去除国外站点（例如www.intel.com，www.mirosoft.com 等）和不可访问的站点（例如www.cshop.com ），WebGather系统在2001年7月搜集到的结果的覆盖了96.6%有影响力的网站，2002年1月覆盖了93.2%有影响力的网站（尽管搜集过程只是从1个URL开始）。

2002年中国Web站点地域分布 2002年1月WebGather系统搜集网页数为24,158,849，涉及44,028个网站。北京广东上海江苏山东浙江香港四川福建数量 11986 4861 3529 2432 2037 1771 1413 1356 1236 百分比 27.76 11.26 8.17 5.63 4.72 4.10 3.27 3.14 2.86 辽宁陕西河南湖北天津黑龙江河北湖南重庆 1197 1128 1090 1013 977 904 877 756 618 2.77 2.61 2.52 2.35 2.26 2.09 2.03 1.75 1.43 安徽云南广西吉林江西甘肃贵州山西新疆 511 464 397 387 369 353 310 309 251 1.18 1.07 0.92 0.90 0.85 0.82 0.72 0.58 海南宁夏内蒙青海西藏台湾澳门 218 188 178 34 16 14 0.50 0.44 0.41 0.08 0.04 0.03 0.00 2002年1月WebGather系统搜集网页数为24,158,849，涉及44,028个网站。平均每个网站有网页548.72个。网页文字平均为12.92 KB，网站在各省之间的分布方差为24.18。其中教育网有8144个网站，网站分布方差为16.14；科技网有732个网站，网站分布方差为27.68。 2002年1月WebGather系统搜集网页数为24,158,849，涉及44,028个网站。平均每个网站有网页548.72个。

2002年中国各省市网站分布

提纲 Infomall的数据和服务 Infomall系统与技术衍生数据服务和系统未来规划网页存储和回放设计目标系统结构网页信息存储的天网格式衍生数据服务和系统未来规划

网页存储和回放设计目标网页存储设计目标回放设计目标力图实现对中国所有Web网页进行定期镜像和整理。以尽可能短的工作周期把网上的信息保存下来，主要是指所有的静态网页。回放设计目标首要功能就是历史网页回放。即用户给出一个初始URL和指定时间后可以在该时段的Web上漫游。

Infomall存储模型

Infomall体系结构

Infomall系统硬件部署

Infomall系统内部处理流程

网页信息存储的设计考虑获取网页信息保存在磁盘中，需要按照规定的格式保存，便于后续处理和提供服务。注意这种方案只是顺序保存网页信息，没有索引文件。原始网页信息的存储格式应当设计为适合长期保存并易于处理，可以作为终端产品提供给用户使用。考虑到终端产品使用的便利性，要求原始网页库的存储格式具备简单性的特点。存储介质都是有寿命的，所以应当考虑当存储介质损坏时数据的可恢复性。例如：磁盘的某个扇区损坏，导致部分数据不能读出，如果剩下的数据仍然可以使用，就能将损失降到最少。

天网存储格式定义 http://www.cwirf.org/TWFormat.pdf

天网存储格式样例

网页的抓取（1/2）增量式对Web主机进行流量控制对Web主机进行任务分配抓取状态的实时监控、展示 md5-digest网页链接和主体段落 Balloon filter保存摘要保存新增、更新网页对Web主机进行流量控制遵守Robots协议模仿人的浏览对Web主机进行任务分配自适应的抓取频率抓取状态的实时监控、展示通过多播把情况汇总到监控节点，在Web页面上展示

网页的抓取（2/2） 7个蜘蛛节点每天抓取5万个网站蜘蛛节点性能：单节点400~800个抓取进程。收获5M~20M个有效抓取。双路四核CPU（E2650），8GB MEM，10Krpm SAS硬盘6*300GB

网页的储存天网格式传输、交换服务 version 格式版本号 url Web资源对应的URL date 抓取的时间 ip 抓取的服务器地址 length 存储资源占用的空间大小 compress 存储资源使用的压缩算法 reply 按HTTP应答格式保存的Web资源传输、交换服务

提纲 Infomall的数据和服务 Infomall系统与技术衍生数据服务和系统未来规划

Infomall通用公共许可证

中国事件检索与发现系统 Event searching for query “Olympic Games” 群体行为模式分析从微观角度看，个体行为具有很大的随机性，但是通过网络结构相互作用，群体行为在宏观上会体现出确定性的行为模式。网络群体行为主要是基于信息的行为，如信息的发布、接收、传播、回复等，社交网络数据的庞大规模和短小分散等特点为网络群体行为的研究带来了挑战，也为群体智慧的利用提供了机遇。我们拟基于群体行为的微观随机性和宏观确定性模式，研究群体行为异常模式与突发事件预测，以及人类行为时空特性在网络空间的体现与影响。

中文信息检索评测

中国互联网数字资源财富库藏（CDAL） 2003年北京大学网络实验室启动了中国互联网数字资源财富库藏（CDAL）的工作。包括7.5TB的1.63万资源。这一工作的两个目的是：收藏，不仅包括热门类别网络资源，还注重用户自己创建、组织的内容。研究，关注网络资源从无序的原始状态到达有序组织过程中，有哪些环节可以用何种省力、省事的方式去完成。

CDAL提供的资源访问方式目前提供的服务主要有3种方式见图 7‑1：基于分类体系的浏览（分类树见左侧框）、基于名字关键词的检索（检索结果见中间框）、和基于专题的收藏（见右侧框）。由于每个资源有自身的内部构成，一些资源是某种作品集，可能包括关于一个事件的多个图片，一个作者的多部作品，或者一个专辑的多首歌曲，所以7.5TB的1.63万资源事实上包括了更多的单个实体。我们选出13个常见类别，其资源量和字节数分布如表 7‑1所示。

CDAL主要类别资源量类别资源数比例（%）书籍 25.9 文章 3.26 电影 18.9 电视 8.97 软件 9.70 歌曲戏剧曲艺 0.46 乐曲 3.80 图片(含照片绘画) 3.94 讲义 1.94 听力 0.72 视频资源 0.37 游戏 3.14

CDAL系统结构图

提纲 Infomall的数据和服务 Infomall系统与技术衍生数据服务和系统未来规划

未来规划技术上形象上管理上不只是考虑硬件设施，还要考虑搜集的数据类型例如不只包括网页，还要搜集博客，图片等。搜集的范围要足够宽。昌平1PB集群上搭建GFS基础平台。带宽考虑万兆联通北大。形象上反映不出来InfoMall应该有的厚重感。外延丰富起来，除了提供url检索，还有其他的。例如：2009sina pages, eventsearch, domainsearch。管理上存储更有规律性。Internet Archive是一个200人的单位。

谢谢