WebGather Design and Implementation

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

深度解析 --- 云安全 申鹤 产品技术顾问 电话: (010) 手机:
国内外著名搜索引擎. 目录  国内搜索引擎 国内搜索引擎  中文导航站点及搜索引擎指南 中文导航站点及搜索引擎指南  国外搜索引擎 国外搜索引擎.
台北市立南港高工 建築科 Architecture 建築科之精神:活力、責任、效率 建築科之展望:共築美麗人生 綜合高中 土木建築學程簡介  綜高土建升學進路  未來出路展望  專業證照考試  未來展望圖例  綜高土建學程課程架構  土建群統一入學測驗考科  升學人數統計.
§2 计算机系统结构、组成与实现 计算机系统结构、组成与实现的定义和内涵 计算机系统结构、组成和实现的相互关系.
紙雕教學影片及圖片來源: 三采文化紙雕設計書籍
唐宋词选讲 人人尽说江南好,游人只合江南老。春水碧于天,画船听雨眠。 炉边人似月,皓腕凝霜雪。未老莫还乡,还乡须断肠。
第10章 信息搜索 本 章 内 容 简 介 10.1 通过浏览器搜索信息 10.2 专用搜索引擎 10.3 专用搜索引擎的使用
第12章 网络营销实施与控制.
职业教育网络学习空间建设的实践与思考 江苏省南京工程高等职业学校.
The Design and Implementation of a Wireless Healthcare Application for WSN- enabled IMS Environments Author: El Barachi, M.; Alfandi, O. Source: IEEE Consumer.
超链接.
淡水泉投资:安全稳健低回撤 长期业绩卓著 产品基本信息 基金经理简介 产品全称 银河证券-盘晟淡水泉成长1号 基金经理 赵军 受托人
实验性研究.
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
解决互联网上大量且无序信息的最佳途径是利用搜索引擎(search engine)
侵权责任法 辽宁大学法学院 杜甲华.
人工智能 Artificial Intelligence 第十一章
<<Oracle DBA工厂-Oracle从入门到精通>>全套视频教程(一)之 安装部署 讲师:黄利强 QQ:
计算机网络 暨南大学计算机科学系 学年 第一学期.
DCE Market Data Business
第8章 系統架構.
簡報大綱 一、前言 二、對區域經濟發展的一些預測與看法 三、幾個中國的突出進展 四、中國中長期科技發展策略 五、轉變中的現況與可能的發展方向
台灣各個Portal Sites之比較 分散式系統 指導老師 莊裕澤 教授 資管三 朱一定 王邦杰 Goals
大数据在医疗行业的应用.
An Ultra-Wearable, Wireless, Low Power ECG Monitoring System
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
Introduction to incoPat 4.0
Web of Science ——Science Citation Index(SCI)网络版
P2P文件共享系统概览.
Alibaba 数据库高可用架构 Alibaba
數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
Journal Citation Reports® 期刊引文分析報告的使用和檢索
中国的环境空气质量监测Ambient air quality monitoring in P.R.China
Chap 3 資料庫模型與處理架構.
彰化縣政府補助辦理網頁設計資料庫應用班 資料庫簡介 建國技術學院資管系 饒瑞佶.
Cloud Computing(雲端運算) 技術的現況與應用
The Company The leading provider of vehicle identification and pricing information in Australia, New Zealand, Thailand, China, Hong Kong, Malaysia, Singapore,
一個靜宜資管畢業生應有的職場技能 Forever Y. H. Tsai 2006/03/07.
Isilon中国区技术经理 杨峰 虚拟天文台年会 存储技术交流 Isilon中国区技术经理 杨峰 Isilon Proprietary and Confidential.
Decision Support System (靜宜資管楊子青)
China Standardization activities of ITS
电子商务 (10) 1.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
管理學作業-CH 連聰銘 黃謙研.
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
信息产业导论期末汇报 汇报人:刁梦鸽 学号: 时间:2012年5月31日.
走进中国科技网 中国科技网 李辉.
Decision Support System (靜宜資管楊子青)
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
量化研究與統計分析 ─ 文獻導讀報告 組員:葉思岑、陳馥蓉、徐瑜君
P ANNUAL REPORT DESIGN BY PENELOPE ENTER THE TIME
勝過內心的巨人:情慾 加5:19-21、帖前4:3-4.
Chinese IAB (IA +IB) 11 Weather and Internet Module (L21-L22)
海報評比 班級:系統四甲 學號: 姓名:蔡飛宏 授課老師:唐蔚.
如何使用QUOSA?.
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
Google Local Search API Research and Implementation
A Data Mining Algorithm for Generalized Web Prefetching
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
WEB321 使用ASP.NET2.0快速开发电子商务网站
数数据的基本操作 电子工业出版社.
期刊使用因子 (Journal Usage Factor) -电子期刊定量评价新指标
利用衛星定位與智慧號誌控制技術針對救險車輛之大眾避讓系統設計
第 1 章 認識資料庫系統.
WiFi is a powerful sensing medium
欲把西湖比西子,淡妆浓抹总相宜 Comparing West Lake to the west, as woman's light and heavy make-up.
Section 1 Basic concepts of web page
Presentation transcript:

WebGather Design and Implementation Hongfei Yan Network Group,CST,PKU,Dec. 15, 2000 Email: yhf@net.cs.pku.edu.cn http://net.cs.pku.edu.cn/~yhf

Outline Introduction of searchengine WebGather Conclusion

Introduction: http://www.yahoo.com/

Introduction: http://sohu.com/

Introduction: http://sina.com.cn/

Introduction: http://www.google.com/

Introduction: http://e.pku.edu.cn/

Introduction: Search Engine Sizes --searchenginewatch in Nov 8, 2000 GG=Google WT=WebTop.com AV=AltaVista, FAST=FAST NL=Northern Light   EX=Excite INK=Inktomi, Go=Go (Infoseek)

Introduction: a new study Introduction: a new study -- Inktomi and the NEC Research Institute, Inc. In Feb. 2000 Number of indexable pages on the web : over 1 billion   Number of servers discovered: 6,409,521 Number of mirrors in servers discovered: 1,457,946 Number of sites (total servers minus mirrors): 4,951,247 Number of good sites (reachable over 10 day period): 4,217,324 Number of bad sites (unreachable): 733,923 Web pages on a site: 1000,000,000/4,217,324 = 237.1

Introduction: Inktomi Search Engine cluster In the picture 9*8*2=144

WebGather: Introduction     由北大计算机系网络与分布式系统研究室研制开发的“天网”中英文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供web信息导航服务。在“天网”系统对外提供服务期间,广泛采纳用户的意见和建议,不断地改进其服务质量,到目前为止访问量已突破800万人次。2000年初新成立的“天网”搜索引擎课题组在国家973重点基础研究发展规划项目基金资助下,秉承老的开发队伍的优良传统,将致力于探索和研究中英文搜索引擎系统的关键技术,以便向广大用户提供更为快速、准确、全面、时新的海量web信息导航服务。欢迎广大用户给我们提出更好的意见和建议。 http://e.pku.edu.cn/ 身无彩凤双飞翼,心有灵犀一点通

WebGather: in Dec. 1, 2000 2.5 million scale Index 2.5 million web pages More than 200,000 web pages everyday Ten day to update all data three PCs

collect all the web pages in China WebGather: Design goals for a distributed web-crawling system for WebGather collect all the web pages in China keep pace with the rapid growth of Chinese web information 238 X 40,000 = 9,520,000

WebGather 2.0: architecture Client log database User behavior Gather Database Indexer Retrieve Database Client Retriever Gatherer WWW

WebGather 1.2: architecture of gather subsystem 1/4 … GatherN Gather1 Main Control

WebGather 2.0: architecture of gather subsystem 1/4

WebGather : technologies in gather subsystem 1/4 Distributed system architecture High availability …… Load balance Low bandwidth Scalability Re-configurability Cut words Position relativity Anchor text, Link popularity

WebGather : architecture of indexer subsystem 2/4 webpage1 feature1 feature1 webpage1 webpage2 feature2 feature2 webpage2 … … webpageK feature1 featureK webpage1 … feature2 … webpage2 webpageN feature3 featureN webpage3 A B

WebGather : technologies in retriever subsystem 3/4 Traditional IR (VSM ) Query cache, hot click Cut words Anchor text, Link popularity

WebGather : technologies in user behavior subsystem 4/4 Link popularity Replica popularity User popularity

Conclusion : Searchengine is More and more important. Web is a good experimental object, we can do a lot R&D on it.