Download presentation
Presentation is loading. Please wait.
Published by嚣 廖 Modified 7年之前
1
海南省琼州学院:胡爱民 联系QQ:56949141 E_mail:sandbord@126.com
搜索引擎概述 海南省琼州学院:胡爱民 联系QQ:
2
内容大纲 一、概况与前言 二、搜索引擎发展史 三、搜索引擎基本工作原理 四、搜索引擎分类 五、商务模式 六、著名搜索引擎网址 七、各大搜索引擎的比较研究 八、下节课预告
3
引言 互联网的出现改变了人们的生活,而搜索引擎的出现改变了互联网。二十世纪九十年代以前,世界上没有搜索引擎。但伴随着互联网的迅猛发展,面对着成几何级数般增长的信息,网络用户想找到自己所需要的资料如同大海捞针,于是为满足用户信息查询需求的专业搜索引擎便应运而生。
4
搜索引擎的概念 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。 从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
5
主流中文搜索引擎 百度:www.baidu.com 谷歌:www.google.cn 雅虎:cn.yahoo.com
其他:搜狗, Live Seach,新浪,腾讯搜搜, 中国搜索,有道搜索……
6
搜索引擎的发展史 搜索引擎的起源 现代搜索引擎的鼻祖:Archie(Archie FAQ)
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 注:Archie是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的。
7
搜索引擎的发展史 Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
8
搜索引擎的发展史 发 展(1):世界上第一个Spider程序
世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL) 。 搜索引擎一般由以下三部分组成: 爬行器(机器人、蜘蛛) 索引生成器 查询检索器
9
搜索引擎的发展史 小知识:机器人 机器人”一词在编程者中十分流行。
小知识:机器人 机器人”一词在编程者中十分流行。 电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
10
搜索引擎的发展史 发 展(2):Excite Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。 注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎 Dogpile
11
搜索引擎的发展史
12
搜索引擎的发展史 搜索引擎的精英学校:斯坦福大学
change lives, change organizations, change the world
13
搜索引擎的发展史 最早现代意义上的搜索引擎:lycos
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的蜘蛛程序(spider)程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
14
搜索引擎的发展史 发 展(3):yahoo Yahoo!--20世纪90年代的因特网的代名词。
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。 注:yahoo成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。 Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务
15
搜索引擎的发展史
16
搜索引擎的发展史 雅虎的创始人:jerry_yang_and_david_filo
17
搜索引擎的发展史 雅虎的创始人兼CEO:杨致远
18
搜索引擎的发展史 杨致远和马云
19
搜索引擎的发展史 发 展(4):元搜索引擎(Meta Search Engine)
第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
20
搜索引擎的发展史 发 展(5):智能检索 智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。 例: (1)查询“计算机”,与“电脑”相关的信息也能检索出来; (2)可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴; (3)还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。
21
搜索引擎的发展史 1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。 sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。 1996年,sohu诞生
22
搜索引擎的发展史 Sohu创始人、CEO:张朝阳
23
搜索引擎的发展史 Sogou搜索引擎
24
搜索引擎的发展史 1998年,google诞生于斯坦福大学
25
搜索引擎的发展史 Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。 Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。 2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
26
搜索引擎的发展史 谷歌的创始人:larry page
27
搜索引擎的发展史 谷歌公司全球副总裁/前中国区总裁 :李开复
28
搜索引擎的发展史 2000年,李彦宏与徐勇等创建百度
29
搜索引擎的发展史 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。 2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。 Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。 2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
30
搜索引擎的发展史 百度创始人兼CEO:李彦宏
31
搜索引擎的发展史 百度创始人之一:徐勇
32
搜索引擎的发展史 发 展(6):个性化检索 个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo(
33
搜索引擎的发展史 中国搜索 2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。
34
搜索引擎的发展史 新浪爱问 2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。
35
搜索引擎的发展史 网易搜索 2007年7月1日 全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索首创根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。
36
搜索引擎的发展史 发 展(7):网格技术(great global grid)
美国全球信息网格(Global Information Grid)
37
搜索引擎工作原理 1、抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 3、提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
38
搜索引擎分类 ■ 全文搜索引擎 ■ 目录索引 ■ 元搜索引擎 (META Search Engine)
39
搜索引擎分类 ■ 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
40
搜索引擎分类 ■目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
41
搜索引擎分类 ■元搜索引擎 (META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
42
搜索引擎分类 ■其他非主流搜索引擎 1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
43
商务模式 1、早期:作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。 2、2001年(网络泡沫破灭)后:竞价排名
44
商务模式 ■竞价排名 现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。 起源:这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。
45
商务模式
46
商务模式
47
六、著名搜索引擎网址 【著名搜索引擎网址】 1、百度 http://www.baidu.com/
【著名搜索引擎网址】 1、百度 2、络龙医疗健康搜索引擎 3、雅虎 4、Google 5、普加网 6、网易有道 7、北京大学天网中英文搜索引擎 8、搜狐搜索引擎 9、新浪网 10、TOM搜索引擎 11、21CN.COM 12、飞客BT搜索引擎 13、Souyo 14、雅虎易搜 15、麦布搜索引擎 16、中华搜索 sou.china.com 17、酷亿 18、搜搜 19、易搜查 20、北京搜索 21.比比猫 22.搜一下
48
六、著名搜索引擎网址 【国外著名英文搜索引擎大全及分类】 1、Google http://www.google.com
2、Yahoo 3、Live 4、SearchMash 5、ASK 6、Search 7、Ask Jeeves 8、AllTheWeb.com 9、AOL Search (internal) (external) 10、HotBot 11、MSN Search 12、Teoma 13、AltaVista 14、Gigablast 15、LookSmart 16、Lycos 17、Open Directory 18、Netscape Search
49
七、各大搜索引擎的比较研究 ☆ :Google是互联网上最流行的搜索引擎,目前Google每天处理的搜索请求已达2亿次,而且这一数字还在不断增长。Google数据库存有42.8亿个Web文件,属于全文(Full Text)搜索引擎,是一个用来在互联网上搜索信息的简单快捷的工具。 ☆ :Live Seach是微软投入巨资开发的一款功能强大的新一代智能搜索引擎,比以往的MSN 搜索更为先进,可帮助您通过计算机或移动设备快速、准确、全面的查找所需内容。 ☆ :百度支持搜索1.3亿中文网页,是世界上最大的中文搜索引擎。并且百度每天都在增加几十万新网页,对重要的中文网页每天进行更新,用户通过百度搜索引擎可以搜到世界上最新、最全的中文信息。 ☆ :雅虎搜索是全球第一家提供互联网导航服务的网站,不论在浏览量、网上广告、家庭或商业用户接触面上,Yahoo.com都居于领导地位,在全球消费者品牌排名中位居第38位。 ☆ :搜狗搜索是搜狐推出的完全立足于自主技术开发的全球首个第三代互动式中文搜索引擎,同时它还是一个具有独立域名的专业搜索网站。 ☆ :新浪搜索引擎爱问采用了目前领先的智慧型互动搜索技术,它以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的先天不足。 ☆ :有道搜索是网易结束与谷歌的合作后,自行研发的搜索引擎,是网易的核心业务板块之一,与网易的各项优势产品紧密融合。 ☆ :腾讯搜搜目前主要包括问问、网页搜索、综合搜索、图片搜索、音乐搜索以及搜吧等16项产品,通过网页、音乐、图片等搜索功能寻找海量的内容信息,为广大用户提供实用和便利的搜索服务,并结合腾讯特色优势来满足互联网用户多样化搜索服务需求。 ☆ :中国搜索(原慧聪搜索)是国内领先的搜索引擎公司。自2002年正式进入中文搜索引擎市场以来,在一年多的时间里,发展成为全球领先的中文搜索引擎公司,先后为新浪、搜狐、网易、TOM等知名门户网站提供搜索引擎技术。
Similar presentations