第10章 信息搜索 本 章 内 容 简 介 10.1 通过浏览器搜索信息 10.2 专用搜索引擎 10.3 专用搜索引擎的使用 第10章 信息搜索 本 章 内 容 简 介 10.1 通过浏览器搜索信息 10.2 专用搜索引擎 10.3 专用搜索引擎的使用 10.4 著名中文搜索引擎的使用 10.5 著名英文搜索引擎简 10.6 网页侦探Web Ferret
概 述 随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,在网上搜索信息是人们获取信息和知识的最快捷手段。工作、学习和科学研究离不开信息搜索,近几年来搜索引擎的研制蓬勃发展,已成为一个新的热点。各种新的搜索引擎不断产生。人们需要从网络上获取各种信息。下面介绍获取的办法。
10.1 通过浏览器搜索信息 Internet Explorer5浏览器内部捆绑有自动搜索工具,可提供多种搜索 10.1 通过浏览器搜索信息 Internet Explorer5浏览器内部捆绑有自动搜索工具,可提供多种搜索 方法,帮助用户查找各种信息,如网页、电子邮件、公司、大学等。 10.1.1 直接查找信息的方法 在Internet上利用浏览器查找信息的方法很多,如: · 在地址栏中,先输入go、find或 ?,再输入要搜索的单词或短语,按回车键后,浏览器将使用预置的搜索工具进行搜索。 · 在内带的Yahoo搜索引擎的文本输入框输入要搜索的关键单词或短语,按回车键后,浏览器将使用预置的Yahoo搜索引擎(search.yahoo.com)进行搜索。 · 单击工具栏上的“搜索”按钮,可访问多个搜索提供商。选定搜索引擎后,在搜索框中输入关键单词或短语,再单击“搜索”按钮,浏览器中的搜索引擎即可搜索。 · 打开网页后,单击“编辑”菜单,然后单击“查找”(在当前页),可以在当前打开的网页中搜索指定文本。
10.1.2 地址栏的最匹配搜索功能 从地址栏中搜索时,浏览器可以自动显示与你要搜索的内容最匹配的网页,同时还列出其他相似的站点。只需在地址栏中输入一些普通的名称或单词,然后单击“转到”按钮即可。 如美国白宫地址为http://www.whitehouse.gov,当你输入white house再单击“转到”按钮后,浏览器就开始搜索与之最匹配的站点,并列出其他相似的站点。显示的搜索结果框图中会有N个含有white house的条目,这对于你访问一些记不大清楚的站点很有用。 通过修改高级属性,可以实现按不同方式查看搜索结果: · 要在搜索栏中查看相似站点的列表,并在主窗口中显示最喜欢的网页,可选中“显示结果,然后转到最喜欢的站点”。 · 要在主窗口中查看相似站点的列表以便你可以选择要显示的网页,可选中“显示主窗口中的结果。” · 如果只查看喜欢的网页,可选中“转到最喜欢的网页”。 · 要从地址栏关闭搜索功能,可选中“不从地址栏中搜索。” 无论选择哪个选项,你仍然可单击工具栏上的“搜索”按钮,通过搜索引擎来搜索站点。
10.1.3 选择信息类别以提高搜索效率 在Internet上你可以搜索各种信息:网页、电子邮件、公司、产品、研究论文等等,只需从中选择信息类别,你就会得到提示以输入该类型所需的信息。 在工具栏上,单击“搜索”按钮,浏览器的左边将出现搜索栏。 选择所需的搜索类型如“查找网页”,再输入要搜索的信息如“太空人”,然后单击“搜索”按钮,经过短暂的等待,浏览器就把搜索到的网页地址显示出来。如搜索到10个网页地址,你可以单击感兴趣的超级链接,浏览器将打开所链接的网页。 一般而言,输入的信息越多,则搜索的时间越长,但准确性越好。
输入要搜索的 “太空人” 后的结果
10.1.4 自定义搜索方式 进行网上搜索时,你可以自定义搜索方式,选择使用特定的搜索类别,以及特定的搜索引擎,使之更加符合你的需要。要自定义搜索方式,可单击工具栏上的“搜索”按钮打开搜索栏,然后单击搜索栏上的“自定义”按钮,将打开自定义搜索对话框。
10.2 专用搜索引擎 搜索引擎的含义 搜索引擎(Search Engine)是一类运行特种程序的、专用于帮助用户查询Internet上的WWW服务器信息的Web站点,有的搜索引擎还可以查询新闻服务器的信息。如果说Internet上的信息浩如烟海,那么搜索引擎就是海洋中的导航台。但搜索引擎找出的不是用户最终所需要的信息,而只是“到哪些网页去查找所需要的信息”,即相关的网页的链接。用户通过搜索引擎的查询结果,知道了信息所处的站点,再通过链接,就可以从该网站获得详细资料。
搜索引擎的服务方式 搜索引擎向用户提供的信息搜索方式一般有两种:按目录搜索和按关键字搜索。所谓“目录搜索”是将各种各样的信息按大类、子类、子类的子类、……直到相关信息的网址,即按树形结构组成供用户搜索的类目和子类目直至找到感兴趣的内容,类似于在图书馆按分类目录查找你所需要的书。而从大类直到最终相关信息网址也是依靠树形链接组成的,用户上网极为方便。例如,用户可以选择“艺术和娱乐”类,再进入“电影”子类,再进入“中国电影”子类等等。这种方式适用于按普通主题查找。 “关键字搜索”是搜索引擎向用户提供一个可输入待查询的关键词、词组、句子的查询框界面,用户按一定规则输入关键字后,按紧靠查询框的“搜索”按钮提交关键字,搜索引擎即开始在其索引数据库中查找相关的信息,然后将结果返回用户。 多数搜索引擎都融合了这两种功能,但又有所侧重,如最著名的搜索引擎Yahoo!侧重按内容编排的类目索引,而另一个著名的搜索引擎Alta Vista则主要是按关键字检索搜索引擎。
搜索引擎的组成原理 目前Internet上有多种文字的至少数以百计的搜索引擎,它们基本上都是由信息提取系统、信息管理系统和信息检索系统三部分组成的。 1.信息提取系统 信息提取系统用于自动访问WWW站点,并提取被访问站点的信息(如标题、关键词等)。当发现被访问站点中的链接时,这些程序还会自动转到这些链接,继续进行信息提取。有些信息提取程序会定期自动访问所有的站点,一旦发现新的信息(比如某站点的信息已经更新时)即重新提取,更新以前提取的信息;另一些则要靠人工定期运行。
2.审计和分类索引 要对所提取的信息进行分类整理。有的系统搜索每一页的所有文本内容;有的系统分析数据库中的地址,判别哪些站点最受欢迎,然后再用软件记录这些站点的信息。 这些信息还可能会存在某些问题。可能不大符合或没有完全概括那个网页的内容,或内容不健康或违背国家政策法规的网页,或由于网页HTML文本编辑时所用语言字符不同而可能出现乱码等等。所有必须对其信息库进行认真的审计。有些性能不够完善的信息提取系统难以实现对所提取信息的自动分类,必须由专业人员进行归类。
3.信息检索系统 搜索引擎的信息检索系统主要用于将用户输入的检索词与系统信息进行匹配,多数情况下还需根据内容相关度对检索结果进行排序。不同的搜索引擎采用的排序方法有所不同,但大多要考虑关键词在网页中出现的位置(如标题)和频次。不同的搜索引擎所收集网页的内容和数量的不同,以及所使用的排序方法的不同,是造成它们对同一关键词进行检索时得出不同结果的主要原因。
搜索引擎的分类 搜索引擎按其工作方式可分为三种,分别是 全文搜索引擎 目录索引类搜索引擎 元搜索引擎。
全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
目录索引类搜索引擎 目录索引类搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
元搜索引擎 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外,还有以下 几种非主流形式 1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。 由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。
2005年的中国搜索引擎市场 中国搜索市场目前是两强多极竞争格局,百度和Google市场份额大大高于其他公司,二者合计在北京和上海占有超过80%的市场份额,在广州合计占有率也接近达到75%,百度在北京的市场份额为52%,Google为33%,搜狐、新浪和雅虎系市场份额分别是4.6%、4%和3.7%,其他公司占3.3%。在前半年中,百度的市场占有率上升很快,在北京、上海和广州都上升超过10个百分点,Google的用户数基本保持不变,但市场份额在下降。搜狐的新用户获得率排名第二,为34.7%,仅次于百度的34.8%。
搜索内容与主体 在搜索内容上,百度用户搜索音乐(Mp3)等娱乐内容的使用率相对较高;Google用户搜索网页、企业产品、商情、交通旅游等内容的使用率相对较高。 学生在中国搜索引擎市场扮演着一个重要角色。在北京、广州和上海,学生用户占全部用户数的比例分别达到40%、37%和30%。百度最大的用户群是学生,学生用户占了百度各地用户数的40~50%。
中国排行网TOP 1.百度Baidu.comwww.baidu.com 2.新浪新闻中心www.sina.com.cn 3.搜狐www.sohu.com 4.网易www.163.com 5.腾讯网(http://www.qq.com) 6.雅虎新闻www.yahoo.com.cn 7.淘宝网www.taobao.com 8.3721网络实名www.3721.com 9.TOM.COM www.tom.com 10. 猫扑网www.mop.com 11. ChinaRenwww.chinaren.com 12. 搜狗SOGOU.com)www.sogou.com 13. 万网先锋音乐网(Http://www.233100.com)14. 中华网www.china.com 15. Ebay易趣www.ebay.com.cn 16. 中国搜索www.zhongsou.com 17. Hao123 www.hao123.com 18. 全球中文论坛网www.chinabbs.com 19. 新华网www.xinhuanet.com 20. 太平洋电脑网www.pconline.com.cn
10.3 专用搜索引擎的使用10.3.1 搜索引擎的语法规则 使用搜索引擎搜索信息的最简单方法是通过关键词搜索,但返回的结果并不都令人满意。如果想要最佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件——关键词。 搜索引擎中常用的逻辑关系语法是:AND,OR,NOT。 在填写搜索关键词时,AND(与)用“&”来表示;OR(或)用“┆”来表示:NOT(非)用“!”来表示。例如想要查找广州或北京的房地产情况但不要期楼资料,可在查找关键词处用“(广州┆北京)&房地产!期楼”作为查询关键词(引号不用写)。 多词汇查询方法:使用分隔号(,)可分隔多个条件,例如想查找有关广州、北京、上海的相关内容,可在查询处输入“广州,北京,上海”(引号不写)。如果想要的资料应含有“广州”,但是不要“北京”,而“上海”则可有可无,这时,你可用“+广州,-北京,上海”作为查询关键词。 以上搜索语法对各种搜索引擎都适用,但各个搜索引擎本身又有各自的特点。在使用搜索引擎时,充分利用它们各自的特点,可得到最佳及最快捷的查询结果。
10.3.2 搜索关键词的提炼 学会从复杂搜索意图中提炼出最具代表性和指示性的关键词对提高搜索效率至关重要,这方面的技巧或者说经验是所有其他搜索技巧的基础。 选择搜索关键词的原则是,首先确定所要达到的目标,即确定要找的到底是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位要找的东西,而且多数时候根本不需要用到其他更复杂的搜索技巧。
10.3.3 搜索条件的细化 搜索时给出的搜索条件越具体,搜索引擎返回的结果也会越精确。有时甚至可以问搜索引擎一个问题。 10.3.3 搜索条件的细化 搜索时给出的搜索条件越具体,搜索引擎返回的结果也会越精确。有时甚至可以问搜索引擎一个问题。 由于中英文在词语排列上的差异(英文词与词之间有空格隔开,而中文则没有),使得中文切词成为搜索引擎的一大挑战。虽然目前支持中文搜索的引擎在切词方面已做得相当出色,但求其完美无缺也不太现实。因此在搜索关键词较多的情况下,建议主动将中文字词之间用空格隔开,以避免过多的无效搜索。比如查中文电脑冒险游戏的资料,输入“电脑游戏 冒险”,而不是“电脑冒险游戏”。 此外,一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。
10.3.4 精确匹配搜索 除利用前面提到的逻辑命令来缩小查询范围外,还可使用””引号(注意为英文字符)来进行精确匹配查询(也称短语搜索)。如: “computer adventure games” 它与 +computer +adventure +games 的区别是:虽然后者限定网页中要同时包含三个关键字,但其顺序和相邻位置允许是任意的。而前者不仅要求网页中必须同时包含三个关键字,关键字的顺序也要求完全相同,并且它们必须还是挨在一起的,所以带“”号的查询范围更小。 此外使用“”号进行精确匹配查询,还可用来达到特殊的搜索目的。比如一般情况下“who”、“i”作为停用词被搜索引擎忽略,但有时在搜索特别类型的信息时又必须包含这些停用词(如搜索影片名称“Who Am I”),这时我们就可以将全部关键词用“”号引起来,就可以强制搜索引擎将停用词作为短语的一部分进行搜索。 通过对上面这些逻辑符号的组合,能组成复杂的搜索条件,如"computer game" -adventure +new等等,使查询结果更加准确。
10.3.5 特殊搜索命令的使用 1.针对网页标题搜索命令“title:”,在Yahoo中是“t:” 10.3.5 特殊搜索命令的使用 1.针对网页标题搜索命令“title:”,在Yahoo中是“t:” 例子:· title(或t):computer adventure games 2.网站搜索命令 “site:”(Google)、“host:”(AltaVista)、url: (Infoseek)或 “domain:”(HotBot)。 如·site(或 host/url/domain):www.AAA.com 还可以在其中加入其他命令组成复杂的搜索条件,如: site:www.AAA.com +title:"computer games" –adventure 意思是查找AAA公司网站中所有标题里含有computer games的 网 页,但排除关于冒险游戏的网页。 3.链接搜索命令 “link:”命令查找某网站的外部导入链接(inbound links)。 如:link:www.AAA.com 还有命令,如“filetype:”(限定搜索的文档类别)、“daterange:” (限定搜索的时间范围)、“phonebook:”(查询电话)等。
10.3.6 附加搜索功能 1.单词衍生形态查询 当输入“thought”时,如果选择了此功能,搜索引擎除以“thought”为条件搜索外,还会以“think”、“thinking”等同词根的词进行查询。 2.网页快照(snap shot)网页预览 直接从引擎数据库缓存Cache中调出该网页的存档文件,方便用户在预览网页内容后决定是否访问该网站,或是在对应网页发生变动时查看原始页面。通常缓存中保存的是网页的文字部分,图像等多媒体元素还是要实时从对应的网站上下载。与其他附加功能相比,“网页快照”还是相当实用的。 3.网站内部查询 当找到某个网页,搜索引擎提供查询该网站其他页面的功能。类似“site:”、“host:”等命令。 4.横向相关查询 当用户找到某个感兴趣的网页,搜索引擎提供查询内容近似的其他网页的功能(不限于同一网站)。一般是在信息条目后面给出“Similar Pages”或“More results like this”链接。 5.概念延伸查询 以某个关键词查询时,搜索引擎列出相关领域的其他搜索条件供选择。 比如输入“furniture”,它会列出“outdoor furniture”、“patio furniture”、“office furniture”等相关的信息类别供查询。
10.4 著名中文搜索引擎的使用 近几年,英文信息在网上一统天下的局面已被打破。随着祖国大陆、中国香港特别行政区、台湾地区等中文站点纷纷上网,越来越多的中文信息出现在Internet上。 中文信息在编码上分为两类,一类是简体中文,使用GB2312汉字编码;一类是繁体中文,使用BIG5汉字编码。祖国大陆和新加坡站点一般使用简体中文,中国香港特别行政区、台湾地区的站点主要使用繁体中文,海外站点(主要是北美地区)则二者兼有。随着汉字编码统一趋势的发展,这种情况将会有大的改观。 随着中文站点越来越多的出现,中文搜索引擎也如雨后春笋般地发展起来。为了便于查看中国香港特别行政区、台湾地区和海外中文站点的内容,建议你下载和安装繁体中文支持组件。
10.4.1 百度搜索引擎 百度每天响应来自138个国家超过数亿次的搜索请求。百度拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。百度还拥有超过3万个搜索联盟会员,通过各种方式将百度搜索结合到自己的网站,使用户在上网的任何时候都能进行百度搜索。百度还提供WAP与PDA搜索服务,即使身边没有PC机,用户也可以通过手机或掌上电脑等无线平台进行百度搜索。 除网页搜索外,还提供MP3、文档、地图、传情、影视等多样化的搜索服务,率先创造了以贴吧、知道为代表的搜索社区,将无数网民头脑中的智慧融入了搜索。“百度一下”已经成为了人们进行搜索的新动词。 百度还为各类企业提供软件、竞价排名以及关联广告服务。每个月,有超过5千家的企业通过百度获得商机,5万家企业使用百度竞价排名服务,超过300家大型企业使用百度搜索广告服务。 百度搜索引擎具有强大的网页搜索特色功能: 百度快照,相关搜索,拼音提示,错别字提示,英汉互译词典,计算器和度量衡转换,专业文档搜索,股票、列车时刻表和飞机航班查询,高级搜索语法,高级搜索、地区搜索和个性设置,天气查询。
10.4.2 网易搜索引擎 网易搜索引擎主要面对中国大陆地区,是一个较有名气的简体中文搜索站点,使用起来比较简单。网易可接受用户输入的查询内容,也提供了较为详细的分类主题,此外,还有一些热点新闻的超级链接。 网易还提供了国内Internet的一些统计信息,例如在网易排行榜中,按访问人数的多少排列出国内站点的名次,其中网易新首页长期居高不下。 (http://www.netease.com)
10.4.3 搜狐搜索引擎 “搜狐”搜索引擎是针对目前Internet上中文信息日渐丰富而信息查找却愈加困难的实际情况,根据中国人的文化传统专门为中国用户设计的分类目录式查找引擎,“搜狐”引擎从中国文化的角度进行了非常精细的分类,而不单纯是机器搜索。查询结果包括满足条件的目录及站点,信息量大,分类清晰,被评为1998年十大优秀中文网站之一,不愧为“网站神探”。此外,“搜狐”也提供关键字检索服务。分类搜索与关键字检索并重,是“搜狐”区别于其他中文搜索引擎的重要地方。
搜狐提供的特色服务 搜狐目录 作为搜狐引擎,目录检索也是信息检索,它是搜狐提供的最重要服务项目。它的层次目录是专门为中国用户设计的高质量的分类分层目录系统。它把超过5万个精选的中文站点归为:娱乐休闲、工商经济、计算机与互联网、新闻与媒体、科学与文化、哲学与宗教、政治与法律共18大类。在每个大目下,都建立有目录树系统,能方便迅速地把你带到目的地。 关键词搜索 搜狐也提供了关键词搜索功能。目前,目录搜索没有统一的目录分类方法,给查找特定内容造成一定困难。这就要求救于关键词搜索了。 一般说来,用关键词搜索所得到的返回结果比分类目录式搜索引擎多得多,但准确性却较差。 搜狐频道 搜狐不仅仅是一个搜索引擎,在搜狐主页顶部,你可以看到9个称为“搜狐频道”的栏目,它们是:新闻、工商财经、体育、IT、时尚、求知、网络、免费邮箱和相约在搜狐,为你提供精彩网络新闻的站点链接。
10.4.4 Ucloo搜人搜索引擎 Ucloo是目前被公认为全球最大的中文搜人的搜索引擎,是最优秀的中文搜人信息检索与传递技术供应商,拥有超过九千万完整的个人数据资料,这些资料并不断在加大充实中。Ucloo搜索引擎使用了高科技自动程序系统在互联网中搜索信息,精准的算法使得搜索器能在极短的时间内收集到最大数量的信息并分析归类。Ucloo在中国各地、北美和西欧均设有服务器,搜索范围涵盖了世界各地的华人。在访问Ucloo主页时,您可以根据不同的需要和层面(如:姓名,出生地,年龄,毕业学校和工作经验等)搜索个人信息,用户可以瞬时返回相关的搜索结果。使用Ucloo工具栏可以从网上任何一个位置进行Ucloo搜索。即使身边没有 PC 机,也将很快通过WAP和i-mode 手机等无线平台使用Ucloo。
10.5 著名英文搜索引擎简介 Internet上英文网站的数量至少在目前比中文的要多得多,英文水平较高的用户常常需要直接从网上获取英文信息,Yahoo!和Altavista是最常用的两个英文搜索引擎,其他著名的搜索引擎还有WebCrawler、Lycos、Infoseek、Open Text、Excite和HotBot等。 Yahoo!搜索引擎 Yahoo搜索引擎是Internet上最早的搜索工具,它搜集的信息资源主要是大量的站点地址,其信息组织方式已被人们普遍接受。网址经过精心分类,组织成基于列表的主题索引系统,每个主题又分为多个子主题,以便挑选出自己感兴趣的站点。 Yahoo还接受用户的随机查询,在搜索栏里输入要查找的单词或短语,然后单击“Search”按钮,搜索结果将出现在浏览区。 Yahoo采用一些特殊图标对站点进行评价,例如,某个站点地址如果附有一个眼镜图标,表示这是一个热门站点,访问的人较多;如果附有“NEW!”图标,表示该站点地址是最近一周添加进去的。 Yahoo有不同语言的版本,如果选择中文版本,可以搜索中文站点地址。
Google简介 Google原名Googol,意思是10的100次方,是个巨大的数字。Google的胃口如同它的名字,大得出奇。编入其索引的有80多亿页面,4亿幅图片和8亿个新闻公告。 2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用4,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。 有人认为:Google是第二代搜索引擎中的先驱/代表。
Google 的特色 Google检索网页数量达80亿; 支持多达140种语言,包括简体中文和繁体中文; 网站风格简洁,没有花里胡哨的累赘; 速度极快,年初时据说有15000多台服务器,200多条T3级宽带; 的专利网页分级技术Page Rank能够提供准确率极高的搜索结果; 智能化的“手气不错”功能,提供可能最符合要求的网站; “网页快照”功能,能从Google服务器里直接取出缓存的网页。 具有独到的图片搜索功能; 具有强大的新闻组搜索功能; 还有很多尚在开发阶段令人吃惊的设想和功能。
微软MSN推出新版搜索引擎 微软旗下在线服务站点MSN于2004年7月13日推出了新版搜索引擎MSN ,并提供了独立搜索入口(search.msn.com)。该搜索引擎仍建立在Yahoo搜索技术之上,但根据微软的声明,其下一代搜索引擎将完全使用自己开发的搜索技术,并将在不久之后推出。 新版搜索引擎的检索结果的网站链接均来自Yahoo搜索数据库,但经过了MSN自身排名规则的调整,与Yahoo搜索结果稍有不同。据MSN搜索引擎部门称,新版搜索引擎将检索相关度提高了45%。此外,搜索结果页面上的收费广告仍来自Overture。
众多的搜索引擎 既生瑜、何生亮?
10.6 网页侦探 WebFerret 搜索引擎WebFerret,它可以代你同时调用若干个搜索引擎为你搜索网页。WebFerret的工作方式只有关键词搜索一种,不具有分类搜索功能。和搜索引擎类似,也可以通过它的搜索结果打开相应网页,但打开的方式又不同于搜索引擎。此外,还可以方便地保存结果备用。 英文单词ferrer的意思是“搜索者”、“侦探”的意思,WebFerret是Web Page Ferret(网页侦探)的软件名,是美国Ferretsoft软件公司产品之一。它可以同时调用几个大型的Web搜索引擎快速而有效地找到你希望在万维网上寻找的任何信息,号称是查找网页最快的工具。并自动丢弃相同的结果,所得结果可以立即链接。 WebFerret是一种免费软件,可以从http://www.ferretsoft.com下载,下载所得是一个735KB名为wferet的压缩文件,用WinZip解压后生成844KB的名为zdfree的自解压安装文件,执行此文件按照提示操作即可自行安装,最后在 C:\Program\FerretSoft\WebFerret\下生成包含可执行文件和帮助文件在内的四个文件,共1.42MB。可以在桌面上创建一个快捷图标,便于直接从桌面启动。
网页侦探Web Ferret的工作窗口
总 结 10.1 掌握通过浏览器搜索信息的方法,并了解如何提 高搜索效率,如何自定义搜索方式 总 结 10.1 掌握通过浏览器搜索信息的方法,并了解如何提 高搜索效率,如何自定义搜索方式 10.2 了解专用搜索引擎的含义和服务方式,搜索引擎 的组成和工作原理 10.3 了解网易、搜狐等几个著名中文搜索引擎的使用 10.4 了解著名英文搜索引擎的使用 10.5 掌握优秀搜索软件网页侦探Web Ferret的使用 10.6 掌握搜索引擎的语法规则
本 章 习 题 1.什么是搜索引擎? 2.分类目录检索和关键词搜索的工作方式有什么区别? 各有什么优缺点? 3.你常用的中文搜索引擎有哪些?它们有些什么特点? 4.搜狐给出的返回结果中包含哪些信息? 5.采用关键词搜索时,应如何选择关键词? 6.你常用英文搜索引擎有哪些?它们有些什么特点? 7.网页侦探Web Ferret是什么?它是如何搜索网页的? 8.网页侦探Web Ferret的搜索结果不含超链,应如何根据某个结果打开相应的网页? 9.搜索引擎使用的语法规则有哪些?试举例使用。
上机搜索作业 成龙的原名叫什么? 世界上最长的河流是? 找几张九寨沟的风光图片 哪儿有计算机网络实例图下载? 查查世界上的搜索引擎的排行榜