中国Web信息博物(Infomall) 十年来资源维护和保存

Slides:



Advertisements
Similar presentations
一、软件简介 二、功能介绍 三、产品优势 四、应用范围 五、成功客户 目录目录 软件简介 ●员工工作时间,都认真工作了? ●还是在玩游戏? ●浏览与工作无关的网站? ●收发私人邮件? ●甚至将公司的机密资料拷贝带 走?或是通过邮件或聊天工具泄 密? …… 解决之道.
Advertisements

国家税务总局关于修改企业所得税年度纳税申报表( A 类, 2014 年版) 部分申报表的公告(国家税务总局公告 2016 年第 3 号) 一、对《企业基础信息表》( A )及填报说明修改如下: (一) “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”
2014 年 12 月 企业所得税年度纳税申报表 (A 类, 2014 版 ) 辅导材料(二) A 企业基础信息 A 主表.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
當我已老 謹以此文獻給像我一樣流浪在外的子女們.
资源平台应用培训 武汉市交通学校信息化建设指导委员会.
图书馆电子资源的利用 图书馆电子资源部 电话:天河 (3897)从化 (3341)
景观水池渗漏的研究 年级专业:12级土木工程 指导教师: ××× 教 学 点: ××××教学点 新疆工程学院继续教育学院 20 年 月 日
2015年12月14日-2015年12月20日 缩略版.
专题19 自然灾害与防治.
指導老師:羅夏美 組別:第四組 組員: 車輛二甲 蔡中銘 車輛三甲 莊鵬彥 國企二甲 陳于甄 國企二甲 詹雯晴 資傳二乙 林怡芳
我的家乡 南通 ….
104年度國立宜蘭大學新進主管研討 主計業務宣導說明
数字化校园建设与思考 扬州大学信息中心 沈 洁 2017年3月3日.
教育信息技术中心 2009年工作汇报 2010年1月.
大学计算机基础 主讲:张建国 电话: 实验及交作业网址:
时间与我们的世界 Pb 段心蕊.
102年實施之高中職及五專多元入學(含免試入學)之招生機制
读者与图书馆 2009年春季版 总第 15 期 山 东 交 通 学 院 图 书 馆 2009年3月.
工程定额与计价方法 教材名称:工程建设定额原理与实务
阳光工程引导性培训 宁夏自治区盐池县农广校
《毛泽东思想和中国特色社会主义体系概论》 第一章马克思主义中国化两大理论成果
小学建筑设计 中的相关设计规范.
2010年春季开学学校食堂食品安全知识培训 徐汇区食品药品监督所
进出口食品检验监管 基础讲课内容 我国进出口食品安全管理体系介绍 法律法规 进口食品的检验检疫 出口食品的检验检疫.
中小学校舍建设管理 《地县教育局基建专干培训班》 克拉玛依 2015年11月 校舍建设管理与现存问题对策 1.
2012级暑期放假安全教育 及宿舍搬迁工作布置会 北京化工大学理学院 辅导员:曹鼎 2013年6月6日.
网络上的人际交往.
授课班级 安全技术管理0605班 第 5 次 课 授课时间 2008年3月10日 星期一 授课地点 科技楼401多媒体教室 课题内容:
汇报大纲 一、报送系统总体介绍 二、自查及检查评分报送流程 三、自查及检查方法及关键点 四、建议及注意事项.
“网络问政”给九江新闻网 带来新的发展机遇 -- 九江新闻网 高立东 --.
總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.
第三节 渐开线圆柱齿轮精度等级及应用.
第八章 网络课程的设计与开发.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
实训十四、IE浏览器的基本应用.
2014年企业所得税汇算清缴相关税收政策 新华区地方税务局 卿继红
核心竞争力 超低码流 自主研发的超低码流无损压缩算法——解决了在ADSL普通宽带条件下(仅64KB的上传带宽),远程监控低成本大规模普及的瓶颈问题。 高清画质 全国独家手机流畅观看1080P高清画质仅仅需40KB每秒的流量。与同类产品相比,神州鹰能节约80%以上手机流量。 互联互通 唯一大规模在全国架设电信、联通、铁通等服务器群组,实现全世界流畅观看,解决国内电信运营商南北互联互通的问题。
第十章 季节施工 ——冬期施工准备.
危险废物环境管理情况 河南省固体废物管理中心  韩晓晗 2007年6月6日.
食品添加剂生产许可审查通则起草说明.
俄语字母的发音体系 阅读规则.
概述 检索图书的检索工具 检索期刊的检索工具 检索特种文献的检索工具
餐饮服务从业人员 食品安全知识培训 孔莉 朔州市食品药品监督管理局.
首次数据采集填报说明 内蒙古自治区校车信息管理系统 靳 丽 内蒙古自治区教育信息中心 2013年5月
2015年云南财经大学图书馆 新生入馆教育考核试题 答题指南
社会工作概论 个案工作 课程培训 深圳电大 赖小乐.
互联网时代班主任的挑战 万玮 2014年9月20日.
大 纲 一、备案系统数据迁移方案 二、备案系统过程数据处理方案 三、备案系统内存量数据核验方案 四、新备案系统信息真实性核验方案※
五、学习方法及应考对策 (一)学习方法 1.保证复习时间,吃透教材:上课之前应该对课程相关内容进行预习,把不理解的问题记录下来,带着问题听课。考试之前务必把课本看3遍以上,第一遍一定要精读,最好能做笔记,边读边记,不要快,要记牢。第二、三遍可以查缺补漏型的看,通过做题目看书,加深课本印象。 2.加强概念、理论性内容的重复记忆:概念、理论性内容一般比较抽象,所以在理解的基础上一定要重复记忆,在接受辅导之后,再加以重点记忆,以便及时巩固所学内容,切忌走马观花似的复习,既浪费时间,效果也不好。
防空地下室审批要点 主讲人:陈玉亭.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
治超新政相关文件解读 厅执法局 江涛 二零一六年九月.
前言.
学习目标: 1)理解包和包过滤 2)理解包过滤的方法 3)设置特殊的包过滤规则
鄉村尋根-農具篇.
欢迎各位 Nice to Meet U.
貨幣需求與貨幣市場的均衡.
强强联手 共建支付安全 2008瑞星互联网安全技术大会.
Web前端开发 第23章:网站发布 阮晓龙 / 河南中医药大学管理科学与工程学科
国家体育总局自行车击剑运动管理中心备战亚运会诚征合作伙伴
校园之路.
香港傳統的農村生活.
商業行為成立的要件 動動腦 Q 請試著判斷下列何者為商業行為? 請試著判斷下列何者為商業行為?.
目次检索 打印 下载 文字摘录 更换背景 多窗口阅读.
项目1: 明沟排水 建筑工程系.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
【VA虚拟应用管理平台】专题培训 接入防火墙 陕西益和信息技术开发有限责任公司 2011年2月.
玻璃期货基础知识研究培训 张恒 2012年7月30日.
106年免試入學第一次模擬 選填重要日程表說明 1.106年1月10日中午12時~106年1月16日中午12時完成第一次模擬
Presentation transcript:

中国Web信息博物(Infomall) 十年来资源维护和保存 闫宏飞 yanhf AT pku.edu.cn 北京大学 2013/9/10

提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划

2013年9月Infomall数据 从2002年1月18日上线运行至今,已逾10年 机器配置: 共18台 保存网页85亿,占用空间:73TB * 2 (双份备份在线),另有一份线下备份 机器配置: 共18台 访问服务器:高性能机房 2004年购买的机器2台 储存服务器:2010年购买的机器8台, 2012年购买的机器 8台 即:用户给出URL,系统提供该URL的所有历史网页,供用户查询。系统采用Web方式对外提供服务(http://www.infomall.cn),每天接受数万次访问请求,包含数百个独立IP。 系统还提供网页数据批量访问服务(http://data.infomall.cn)。该服务用户数量很少,只有少数内部用户使用。

2013年9月Infomall服务 提供历史网页查询服务。 除上述基础服务之外,应用系统有 即:用户给出URL,系统提供该URL的所有历史网页,供用户查询。系统采用Web方式对外提供服务(http://www.infomall.cn)。 系统还提供网页数据批量访问服务(http://data.infomall.cn)。 除上述基础服务之外,应用系统有 事件搜索系统(http://sewm.pku.edu.cn/eventsearch ) 和历史事件追踪系统(http://hist.infomall.cn)。

阅读查询结果。 “A”表示统计栏,包括用户输入的URL和有关查询结果的统计数字; “B”表示查询结果, 包括存档网页的年代,该网页网址存档时间记录。选择任何一条记录进入,就可以浏览历史网页了。之后,系统返回的都是和该版本同时保存(同一版本)的链接网页,从而实现历史回放。

天网搜集记录 时间 规模 网页 站点 机器(台) 起始URL数 总数 均大小(K) 平均网页数 2001. 6 12 7 38,572,695 41,714 925.7 2001.11 1 47,707,998 46,669 1022.3 2002. 1 24,158,849 12.9 44,028 548.7 2002. 3 18 57,027,324 8.95 45,930 1241.6 表5-2中分别列出了每次搜集网页系统使用的机器数、起始URL数目,搜集到的网页总数、平均纯文本网页大小,搜集到的Web站点数目、平均每个站点拥有的网页数。 其中第一次和第二次搜集过程直到没有进一步可以搜索的网页为止(由系统中的unvisited表为空来标识;严格地讲,并不保证真正没有网页可搜了,但我们有理由认为达到了充分的覆盖),搜集过程中分析网页,只存储网页分析结果。从第三次开始,搜集分析过程中,增加了记录网页的全文本信息及超链接信息。第三次搜集过程直到硬盘空间耗尽为止。第四次搜集增加了机器,根据所访问URL的变化规律,搜集到适当的时候停止。本节基于第三次搜集存储的超链接信息分析中国网页的结构性质。根据前两次搜全的结果增长的比例推断第三次,得到2002年1月中国应该有大约49,146个网站,53,432,598个网页。从而说明第三次搜集覆盖了中国89.6%的网站,45.2%的网页。 尽管第三次搜集没有搜尽中国网页,但是2002年1月的数据已经具有足够的代表性。首先因为WebGather采用一种类似于宽度优先搜索的策略进行搜集,可以保证先搜集的网页更重要,更具有代表性[NW01][LW01]。其次根据覆盖率的推算结果可以说明(此处的覆盖率是指搜索引擎覆盖重要网页的程度)。根据中国互联网络网站影响力调查报告[CNNIC00]提供的有影响力站点列表,去除国外站点(例如www.intel.com,www.mirosoft.com 等)和不可访问的站点(例如www.cshop.com ),WebGather系统在2001年7月搜集到的结果的覆盖了96.6%有影响力的网站,2002年1月覆盖了93.2%有影响力的网站(尽管搜集过程只是从1个URL开始)。

2002年中国Web站点地域分布 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 北京 广东 上海 江苏 山东 浙江 香港 四川 福建 数量 11986 4861 3529 2432 2037 1771 1413 1356 1236   百分比 27.76 11.26 8.17 5.63 4.72 4.10 3.27 3.14 2.86 辽宁 陕西 河南 湖北 天津 黑龙江 河北 湖南 重庆 1197 1128 1090 1013 977 904 877 756 618 2.77 2.61 2.52 2.35 2.26 2.09 2.03 1.75 1.43 安徽 云南 广西 吉林 江西 甘肃 贵州 山西 新疆 511 464 397 387 369 353 310 309 251 1.18 1.07 0.92 0.90 0.85 0.82 0.72 0.58 海南 宁夏 内蒙 青海 西藏 台湾 澳门 218 188 178 34 16 14 0.50 0.44 0.41 0.08 0.04 0.03 0.00 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。平均每个网站有网页548.72个。网页文字平均为12.92 KB,网站在各省之间的分布方差为24.18。其中教育网有8144个网站,网站分布方差为16.14;科技网有732个网站,网站分布方差为27.68。 2002年1月WebGather系统搜集网页数为24,158,849,涉及44,028个网站。 平均每个网站有网页548.72个。

2002年中国各省市网站分布

提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划 网页存储和回放设计目标 系统结构 网页信息存储的天网格式 衍生数据服务和系统 未来规划

网页存储和回放设计目标 网页存储设计目标 回放设计目标 力图实现对中国所有Web网页进行定期镜像和整理。 以尽可能短的工作周期把网上的信息保存下来,主要是指所有的静态网页。 回放设计目标 首要功能就是历史网页回放。 即用户给出一个初始URL和指定时间后可以在该时段的Web上漫游。

Infomall存储模型

Infomall体系结构

Infomall系统硬件部署

Infomall系统内部处理流程

网页信息存储的设计考虑 获取网页信息保存在磁盘中,需要按照规定的格式保存,便于后续处理和提供服务。 注意这种方案只是顺序保存网页信息,没有索引文件。 原始网页信息的存储格式应当设计为适合长期保存并易于处理,可以作为终端产品提供给用户使用。 考虑到终端产品使用的便利性,要求原始网页库的存储格式具备简单性的特点。 存储介质都是有寿命的,所以应当考虑当存储介质损坏时数据的可恢复性。 例如:磁盘的某个扇区损坏,导致部分数据不能读出,如果剩下的数据仍然可以使用,就能将损失降到最少。

天网存储格式定义 http://www.cwirf.org/TWFormat.pdf

天网存储格式样例

网页的抓取(1/2) 增量式 对Web主机进行流量控制 对Web主机进行任务分配 抓取状态的实时监控、展示 md5-digest网页链接和主体段落 Balloon filter保存摘要 保存新增、更新网页 对Web主机进行流量控制 遵守Robots协议 模仿人的浏览 对Web主机进行任务分配 自适应的抓取频率 抓取状态的实时监控、展示 通过多播把情况汇总到监控节点,在Web页面上展示

网页的抓取(2/2) 7个蜘蛛节点 每天抓取5万个网站 蜘蛛节点性能: 单节点400~800个抓取进程。 收获5M~20M个有效抓取。 双路四核CPU(E2650),8GB MEM,10Krpm SAS硬盘6*300GB

网页的储存 天网格式 传输、交换 服务 version 格式版本号 url Web资源对应的URL date 抓取的时间 ip 抓取的服务器地址 length 存储资源占用的空间大小 compress 存储资源使用的压缩算法 reply 按HTTP应答格式保存的Web资源 传输、交换 服务

提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划

Infomall通用公共许可证

中国事件检索与发现系统 Event searching for query “Olympic Games” 群体行为模式分析 从微观角度看,个体行为具有很大的随机性,但是通过网络结构相互作用,群体行为在宏观上会体现出确定性的行为模式。网络群体行为主要是基于信息的行为,如信息的发布、接收、传播、回复等,社交网络数据的庞大规模和短小分散等特点为网络群体行为的研究带来了挑战,也为群体智慧的利用提供了机遇。我们拟基于群体行为的微观随机性和宏观确定性模式,研究群体行为异常模式与突发事件预测,以及人类行为时空特性在网络空间的体现与影响。

中文信息检索评测

中国互联网数字资源财富库藏(CDAL) 2003年北京大学网络实验室启动了中国互联网数字资源财富库藏(CDAL)的工作。 包括7.5TB的1.63万资源。 这一工作的两个目的是: 收藏,不仅包括热门类别网络资源,还注重用户自己创建、组织的内容。 研究,关注网络资源从无序的原始状态到达有序组织过程中,有哪些环节可以用何种省力、省事的方式去完成。

CDAL提供的资源访问方式 目前提供的服务主要有3种方式见图 7‑1:基于分类体系的浏览(分类树见左侧框)、基于名字关键词的检索(检索结果见中间框)、和基于专题的收藏(见右侧框)。 由于每个资源有自身的内部构成,一些资源是某种作品集,可能包括关于一个事件的多个图片,一个作者的多部作品,或者一个专辑的多首歌曲,所以7.5TB的1.63万资源事实上包括了更多的单个实体。我们选出13个常见类别,其资源量和字节数分布如表 7‑1所示。

CDAL主要类别资源量 类别 资源数比例(%) 书籍 25.9 文章 3.26 电影 18.9 电视 8.97 软件 9.70 歌曲 戏剧曲艺 0.46 乐曲 3.80 图片(含照片绘画) 3.94 讲义 1.94 听力 0.72 视频资源 0.37 游戏 3.14

CDAL系统结构图

提纲 Infomall的数据和服务 Infomall系统与技术 衍生数据服务和系统 未来规划

未来规划 技术上 形象上 管理上 不只是考虑硬件设施,还要考虑搜集的数据类型 例如不只包括网页,还要搜集博客,图片等。搜集的范围要足够宽。 昌平1PB集群上搭建GFS基础平台。带宽考虑万兆联通北大。 形象上 反映不出来InfoMall应该有的厚重感。外延丰富起来,除了提供url检索,还有其他的。 例如:2009sina pages, eventsearch, domainsearch。 管理上 存储更有规律性。Internet Archive是一个200人的单位。

谢谢