Presentation is loading. Please wait.

Presentation is loading. Please wait.

网络信息检索与利用系列讲座之四.

Similar presentations


Presentation on theme: "网络信息检索与利用系列讲座之四."— Presentation transcript:

1 网络信息检索与利用系列讲座之四

2  Google 等几种常用的搜索引擎介绍  沈丽萍  文献检索课教研室 2005年11月16日          1.google( 2.百度( 3.yahoo( 4.特种搜索引擎 

3 1 Google (www.Google.com)
Google是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月在美国硅谷创建的高科技公司,他们所设计的Google搜索引擎,旨在提供全球最优秀的搜索引擎服务,通过其强大、迅速而方便的搜索引擎,在网上为用户提供准确、详实、符合他们需要的信息。Google自2000年正式开始商业运营以来,目前在全球范围内已拥有了一个正在快速增长的忠实用户群,其中一半以上是国际用户。Google公司不但拥有自身的独立搜索引擎网站,现今的日访问量高达7000万次,还将其搜索引擎技术售卖给世界上许多公司,目前就有包括雅虎、美国在线、网景和中国的网易等知名网站在内的全球150多家公司采用了Google搜索引擎技术。Google非常注重技术创新,98年至今,已经获得30多项业界大奖,如美国《时代》杂志评选的“1999年度十大网络技术”,《个人电脑》杂志授予的“最佳技术奖”,The Net授予的“最佳搜索引擎奖”等等。Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。

4 李开复 Google和中国 --追随我心的选择 2005.7

5

6 令我震撼的是Google的“新一代技术”和那种对创新的热情

7 Google支持中文搜索 其中文搜索引擎是收集亚洲网站最多的搜索引擎之一,并成为它藉此拓展全球信息市场的重要基础。虽然Google非中国本土公司,但在国内,使用它的独立搜索引擎的人数正迅猛增长,其搜索引擎技术还受到了中文雅虎、网易等知名门户网站的亲睐,采用了其中文互联网服务。 下图是Google(

8

9 (1) Google的搜索功能 Google提供如下一些搜索功能
查询简洁方便仅需输入查询内容并敲回车键 (Enter),或单击“Google 搜索”按钮即可得到相关资料。 自动使用“and”进行查询 ·Google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。 忽略词 Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”, “.com”和“的”等字符以及数字和单字,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。 使用英文双引号可将这些忽略词强加于搜索项,例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中

10

11 ·简繁转换 Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。 这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本,便您阅读。 ·不支持“通配”检索 为提供最准确的资料,Google 不使用“词干法”,也不支持“通配符”(*) 搜索。也就是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。 ·不区分英文字母大小写 Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。

12 ·短语搜索 在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“like this”和“伊拉克战争爆发”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“...”等标点符号识别为短语连接符。

13

14

15

16

17 ·指定网域有一些词后面加上冒号对 Google 有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:xxxxx.com”。例如,要在 Google 站点上查找新闻,可以输入: 新闻 site:

18 ·高级搜索 在范围较广的查询中添加词语就可以缩小搜索范围。不过对于某些特定要求的搜索,还可以使用Google的高级搜索功能。点击Google主页中的“高级搜索”链接,即可进入“高级搜索”页面。 利用Google的“高级搜索”,可以做到: ·   将搜索范围限制在某个特定的网站中 ·   排除某个特定网站的网页 ·   将搜索限制于某种指定的语言 ·   查找链接到某个指定网页的所有网页 ·   查找与指定网页相关的网页

19

20 按类别搜索 利用 Google 目录可以根据主题来缩小搜索范围。例如,在 Google 目录的 Science > Astronomy 类别中搜索“Saturn”,可以找到只与 Saturn(土星)有关的信息。而不会找到“Saturn”牌汽车、“Saturn”游戏系统,或“Saturn”的其它含义。又如:要搜索某一期刊,不直接输入期刊关键词,而先搜索“期刊”在某个类别的网页中搜索可以快速找到所需的网页,google是查找期刊文献的最好的网络搜索引擎。

21

22

23

24 (2) Google 的特殊功能 ·查找 PDF 文件 除一般网页外,Google 现在还可以查找 Adobe 的可移植文档格式 (PDF) 文件。虽然 PDF 文件不象 HTML 文件那样多,但这些文件通常会包含一些别处没有的重要资料。 如果某个搜索结果是 PDF 文件而不是网页,只需在搜索关键词后加上 filetype:pdf 就可以,它的标题前面会出现以蓝色字体标明的 [PDF]。这样,用户就知道需要启动 Acrobat Reader 程序才能浏览该文件。单击 [PDF] 右侧的标题链接就可以访问这个 PDF 文档。(如果您的计算机上没有 Adobe Acrobat,Google 将带您进入一个可以免费下载该程序的网页。) 对于 PDF 文件,常见的“网页快照”将被“文本文件”所替代。文本文件是 PDF 文档中的纯文本内容,不带任何格式。 如果您只想查找一般网页,而不要 PDF 文件,只需在搜索关键词后加上 -filetype:pdf 就可以了。

25 ·网页快照 Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到 Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。 在显示网页快照时,其顶部有一个标题,用来提醒您这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于您快速查找所需的相关资料。 尚未编入索引的网站没有“网页快照”,另外,如果网站的所有者要求 Google 删除其快照,这些网站也没有“网页快照”。

26 ·类似网页 单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。 Google 侦察兵可以“一兵多用”。如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站;如果您在寻找产品信息,Google 侦察兵会为您提供相关信息,供您比较,使您尽可货比三家;如果您在某一领域做学问,Google 侦察兵会成为您的助手,帮您快速找到大量资料。 Google 侦察兵已为成千上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。例如,您独树一帜的个人主页就很难有类似网页。此外,如果公司有多个网址(如 google.com 和 侦察兵为各个网址找到的类似网页可能会有所不同。但这种情况实属罕见,Google 侦察兵将是您出色的助手。

27 · ·图像搜索 Google 的“图像搜索”是网络上现今最好用的图像搜索工具,收录有超过3
按链接搜索 有一些词后面加上冒号对 Google 具有特殊的含义。其中的一个词是“link:”。查询 link: 显示所有指向该网址的网页。例如,“link: Google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。 · 手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。 例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入 Stanford 大学的官方主页

28 点我!

29

30 (3) 搜索结果显示 Google搜索结果的排序由多个因素共同决定,并特别取决于网页级别。Google利用Internet本身的链接结构查找网站,网页被链接的多寡、其他网站的评价都是网页级别的影响因素。如下图是Google搜索结果页面。

31 检索框 搜索按钮 统计行 网页标题 标题下文本 缩进显示的查询结果 网址 文本大小

32

33 项目说明: A. 检索框 在这里,用户仅需输入查询内容并敲一下回车键enter,即可得到相关资料。用户还可以用双引号进行专用语搜索。B
项目说明: A.检索框 在这里,用户仅需输入查询内容并敲一下回车键enter,即可得到相关资料。用户还可以用双引号进行专用语搜索。B.Google 搜索按钮 用户只要点击此按钮,或敲 'enter'(回车键),Google便开始查询。C.手气不错 "手气不错™" 按钮自动将用户带到Google推荐的网页。用户无须查看其他结果,省时方便。例如,要查找北京大学,只需在检索框A中输入:北京大学,再点击"手气不错"按钮,Google 就直接带用户到" 北京大学的正式主页。D.结果数量设定菜单 用户可以自定义每页显示的结果数量,用户的选择为10, 30, 或 100。Google默认值为10。E.网页标题 第一行是已查询到网页的标题,有时会显示为网址。这表明Google还未将此页编入索引,或此页作者还没给它定标题。F.Google 和 RealNames 在查询结果中有时会出现RN(RealNames)标志,它反映了RealNames公司与Google的合作关系。Realnames使Google搜索更加准确。 RealNames是一家网络关键词管理公司。网络关键词是指可以连接到网站的商标、产品、服务或者公司名称,其作用就是网络中的注册商标。例如:Jeep Grand CherokeeRN 连到Jeep公司正式网站中有关 Grand Cherokee汽车的网页。只有当关键词与Google的推荐网站匹配时,关键词和RN标记才会出现在标题末尾

34 标题下文本 通常是网页摘要(不一定是网页的头一段)。其中用户的原始查询字词,都用粗体字高亮显示,以便阅读。H
标题下文本 通常是网页摘要(不一定是网页的头一段)。其中用户的原始查询字词,都用粗体字高亮显示,以便阅读。H.统计行 这里是有关查询结果及搜索时间的统计数字。I.缩进显示的查询结果 当 Google 在同一网站找到大量的资料时,首先显示最合适的结果,其他的就以缩进的形式排在下方。J.网址 这是该网页的网址。K.网页快照 单击“网页快照”可见Google保存的该网页的快照内容。Google为用户贮存大量的应急网页。对于随时更新的网站(如:新闻网站)来说,快照内容不可能跟得上其更新速度。然而对于其他类型网站来说,保存快照的好处却是不容置疑的:不仅下载速度极快,而且经Google处理后,搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。L.文本大小 这个数字是这一网页文本部份的大小。未被Google编入索引的网站不会有此项资料。M.相似网页 点击"相似网页" 连接时, Google侦察兵便开始寻找与这一网页性质类似的网页,一般都是同一级别的网页。例如:若这页是某大学的首页,那么Google侦察兵就会寻找其他大学的首页。但如果这页是某大学计算机科学系,Google侦察兵就去找其他大学的计算机科学系,而不是其他大学的首页。

35 中英文字典 Google给中英文互译带来了极大的方便,只需输入一个“翻译”或“FY”和要查的中英文单词,Google会直接显示您要查的中文或英文单词的翻译。

36

37

38

39

40 GOOGLE结语: 搜索为什么这样红? 陈琼 互联网周刊  

41 2 “百度” (http://www.baidu.com/)
2 “百度” ( “百度”搜索引擎使用了高性能的“网络蜘蛛”程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,“百度”搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒。 百度”是全球最优秀的中文信息检索与传递技术供应商,公司号称“全球最大的中文搜索技术提供商”。中国所有提供搜索引擎的门户网站中,超过90%以上都由“百度”提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren)、Tom(163.net)、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线、吉林信息港、大庆信息港、东方热线、湖南信息港、南阳信息港、顺德信息网。

42 “百度”公司(Baidu.com,Inc)于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利唯一持有人――百度总裁李彦宏,及其好友――在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。

43

44 李彦宏,1991年毕业于北京大学信息管理专业,随后赴美国布法罗纽约州立大学完成计算机科学硕士学位。在美国的8年间,李彦宏先生先后担任了道·琼斯公司高级顾问,《华尔街日报》网络版实时金融信息系统设计者,以及在国际知名互联网企业-INFOSEEK资深工程师,是新一代互联网技术领域的权威专家。他为道·琼斯公司设计的实时金融系统,迄今仍被广泛地应用于华尔街各大公司的网站,其中包括《华尔街日报》的网络版。   李彦宏最先创建了ESP技术,并将它成功的应用于INFOSEEK/GO.COM的搜索引擎中。GO.COM的图像搜索引擎是他另一项具有应用价值的技术创新。   1996年,他首先解决了如何将基于网页质量的排序与基于相关性排序完美结合的问题,并因此获得了美国专利;   1998年,李彦宏先生根据在硅谷工作以及生活的经验,在大陆出版了《硅谷商战》一书,获得了各界的好评;   1999年底,携风险投资回国与好友徐勇先生共同创建百度;   2001年被评选为“中国十大创业新锐”之一;   2002年荣获首届“IT十大风云人物”称号;   2003年再次荣获“IT十大风云人物”称号;   2004年1月15日,当选第二届“京城十三新锐”;   2004年4月,百度总裁李彦宏当选第二届“中国软件十大杰出青年”。

45 (1)百度搜索引擎的特点 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
• 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。 • 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而 最大限度保证了检索结果相关性。 • 检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。 • 百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。 • 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。

46 • 运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)
• 可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。 • 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。 • 分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。 • 高可配置性使得搜索服务能够满足不同用户的需求。 • 先进的网页动态摘要显示技术。 • 独有百度快照。 • 支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。

47 (2)“百度”搜索说明 基本搜索 百度搜索引擎简单方便。仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。或者输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。 输入的查询内容可以是一个词语、多个词语、一句话。例如:可以输入[李白]、[mp3 下载]、[蓦然回首,那人却在,灯火阑珊处。] 百度搜索引擎严谨认真,要求“一字不差”。例如:分别搜索 [舒淇] 和 [舒琪] ,会得到不同的结果。 输入多个词语搜索 输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。 例如:想了解北京暂住证相关信息,在搜索框中输入:[北京 暂住证],获得的搜索效果会比输入 [北京暂住证] 得到的结果更好。 在百度查询时不需要使用符号"AND"或"+",百度会在多个以空格隔开的词语之间自动添加"+"。 百度提供符合您全部查询条件的资料,并把最相关的网页排在前列。

48 减除无关资料 有时候,排除含有某些词语的资料有利于缩小查询范围。百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:[武侠小说 –古龙]。 并行搜索 使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。例如:要查询“图片”或“写真”相关资料,无须分两次查询,只要输入 [图片|写真] 搜索即可。 百度会提供跟“|”前后任何字词相关的资料,并把最相关的网页排在前列。

49 相关检索 如果无法确定输入什么词语才能找到满意的资料,可以试用百度相关检索。用户可以先输入一个简单词语搜索,然后,百度搜索引擎会提供“其它用户搜索过的相关搜索词语”作参考,点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果。 百度快照 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。百度快照不仅下载速度极快,而且您搜索用的词语均已用不同颜色在网页中标明。原网页随时可能更新,跟百度快照内容不同,请注意查看新版。百度和网页作者无关,不对网页的内容负责。

50 在指定网站内搜索在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。例如, [出国访问 site:www
在指定网站内搜索在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。例如, [出国访问 site: 表示在 注意:搜索关键词在前,site:及网址在后;关键词与site:之间须留一空格隔开;site后的冒号“:”可以是半角“:”也可以是全角“:”,百度搜索引擎会自动辨认。“site:”后不能有“ 在标题中搜索在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页。 例如, [intitle:南瓜饼] 表示搜索标题中含有关键词“南瓜饼”的网页; [intitle:百度 互联网] 表示搜索标题中含有关键词“百度”和“互联网”的网页。 在url中搜索在"inurl: "后加url中的文字,可以限制只搜索url中含有这些文字的网页。 例如, [inurl:mp3] 表示搜索url中含有"mp3"的网页; [inurl:网页] 表示搜索url中含有"网页"的网页; [inurl:china news] 表示搜索url中含有"china"和"news"的网页。

51 (3)“百度”搜索结果显示 A.搜索框 在这里,用户仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。或者,用户输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。 B.百度搜索按钮 用户只要点击此按钮,或敲“Enter”(回车键),百度搜索引擎便开始搜索。C.在结果中查询 选中该项后,重新输入查询内容,可在当前搜索结果中进行精确搜索。

52 D. 搜索结果统计 这是有关搜索结果数量、用户输入的词语、以及搜索时间的统计。E
D.搜索结果统计 这是有关搜索结果数量、用户输入的词语、以及搜索时间的统计。E.相关检索 百度搜索引擎会为用户提供“其它用户搜索过的相关搜索词语”作参考。用户点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果。F.竞价排名服务链接 这是介绍百度搜索引擎竞价排名服务的链接。G.网页标题 这是搜索结果中该网页的标题。点击该网页标题可直达该网页。H.网页网址(url) 这是搜索结果中该网页的网址(url)。I.网页大小 这个数字是这一网页文本部份的大小。J.网页时间 这是该网页生成的时间。K.网页语言 说明该网页主要文字是哪一种。L.网页简介 通常是网页开始部分的摘要。其中用户输入搜索的词语,都已高亮显示,以便阅读。M.百度快照 点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。百度快照不仅下载速度极快,而且用户搜索用的词语均已用不同颜色在网页中标明。N.网站类聚更多结果 为了便于用户阅读更多网站的内容,百度搜索引擎已经自动为用户作类聚,每个网站(或频道)只显示一个最相关网页的信息。点击此链接,可查看该网站(或频道)内更多的相关网页。

53

54

55

56 百度新闻搜索功能 进入百度新闻搜索首面,在搜索框中输入您想查找的新闻的关键词。

57 随心所欲

58

59 百度产品 百度帖吧

60

61

62

63 音乐在线听或下载

64

65

66

67

68

69

70

71

72

73

74

75 百度产品 图片搜索

76

77

78

79 分类目录 网站

80

81 What’s this?

82 我想知道

83

84 李彦宏:搜索改变我的生活

85 搜狗 搜狐战略微调赶潮流 张朝阳放言搜索超百度 “狐狸与狗”

86 搜狐的那只长尾巴狐狸及脚印曾在互联网的第一波浪潮中吸引过无数眼球。今天,张朝阳又给用户牵出来一只“狗”,那就是搜狐于2004年8月推出的第三代互动式搜索引擎“搜狗”。一年之后,搜狗已经成为带动搜狐业务前进的重要动力。   一狐一狗,成为张朝阳“逐鹿”互联网天下的重要工具。而搜狗,则是张朝阳打开新局面的胜负手。   他不止一次地推荐使用搜狗工具条:“希望你们先下载一个toolbar(工具条)体验一下我们的产品。”搜狗同时提供新闻搜索、音乐搜索、购物搜索、地图搜索等专项搜索服务。今年4月25日, 搜狗已正式开始商业化运营。   搜狐起家于搜索引擎,不过,那时候用的是分类查询技术,已然落后,搜狐希望在第三代互动式搜索引擎上翻盘。

87 研发实力成了张朝阳此次的主打牌。“搜狐一直给人的印象是营销型的公司,但实际上它的创新能力和技术也很不错。比如我们自主研发的搜狗、流媒体 RSS阅读 ”

88 Yahoo!( Yahoo!源于1994年4月美国斯坦福大学电机工程系的博士生大卫·费罗(David Filo)和美籍华裔杨致远(Jerry Yang)编制的Internet站点目录,1995年成立了Yahoo!公司。如今,Yahoo!不仅是一个以分类目录、网站检索为主,附带网页全文检索的搜索引擎,还推出了许多其他的网上服务项目,如聊天、拍卖、购物、股市行情、网上商店,个人免费电子信箱、游戏等。 Yahoo!主页主要包括搜索输入框、分类目录以及网上商店(Shop)、查询(Find)、沟通(联系Connect)、工具(Organize)、休闲(Fun)、资讯(Info)6个频道34个栏目的网络服务链接等。 目前,雅虎在世界各地相继建立了24个国际站点,除了英文、中文以外,还有日、韩、法、德、意、西班牙、丹麦等10余种语言版本,但各版本的内容互不相同,可以说,每个版本都是一个不同的、相对独立的搜索引擎。如英文版主要收录英文网站,日文版主要收录日本及日文网站等,雅虎英文版除主站外,又有多个地区分站,如亚洲站Yahoo in Asia、加拿大站Yahoo! Canada 等,这些分站以收录这一地区的英文网站为主,也可视为独立的搜索引擎。雅虎中文版共开设了四个网站,雅虎中文:gb.chinese.yahoo.com(简体);chinese.yahoo.com(繁体);雅虎中国:cn.yahoo.com(简体);雅虎台湾:tw.yahoo.com(繁体)

89

90 (1)Yahoo. 分类目录查询 Yahoo是Internet上最常用的一个信息查询工具,尽管大多数人称其为搜索引擎,可本质上,Yahoo
(1)Yahoo! 分类目录查询 Yahoo是Internet上最常用的一个信息查询工具,尽管大多数人称其为搜索引擎,可本质上,Yahoo!是一个分类目录。虽然它也提供检索功能,但它反馈给用户的并非直接的目标页面地址(链接点),而是一步步引导用户抵达所需主题目录。Yahoo!拥有第一流的Web目录和最佳的新闻链接以及许多附加服务。Yahoo!主页中给出的目录称为主目录,每一主目录又下设众多子目录,子目录下再子子目录等等,目录总达25,000个之多。 ReferenceEntertainmentSociety & CultureRecreation & SportsEducationSocial ScienceNews & MediaComputers & InternetScienceHealthBusiness & EconomyRegionalGovernmentArts & Humanities 的其它相关类目。

91

92

93

94 (2)Yahoo! 检索方法 Yahoo!提供简单检索和高级检索两种搜索方式。简单检索就是Yahoo!的主页。在任一个返回的查询结果页的顶部和底部,都有一个检索输入框。可以在输入框内输入想要找的检索词或检索式,单击右侧的“Search”按钮后,返回的是一页与检索词匹配的记录列表,最前面的是Yahoo!目录链(Category),其后分别是以链接形式出现的Yahoo!网站标题(Title)、简介(Description)和URL。如果在Yahoo!目录和网站中都没有相匹配的内容,Yahoo!则自动利用其内置的查询机制进行整个WEB范围的文档查找。 Yahoo!高级检索可构造更精确的检索要求,得到更具体的检索结果。单击Yahoo!主页上“Search”按钮右侧的“Advanced Search”链接,进入高级查询选项设置页面(Search Options)

95 在高级检索界面,输入关键词后在右侧的选择框中选择检索的范围――Yahoo
在高级检索界面,输入关键词后在右侧的选择框中选择检索的范围――Yahoo!索引库(基本检索中默认的检索范围)、新闻(News)、新闻组(Usenet)、拍卖(Auction)或黄页(Yellow Pages)等,如果用户选择了在Yahoo!索引库中进行检索,那么可以在“Select a search method:”标题下方指定搜索模式,在“Select a search area”下方指定搜索区域范围。另外,还可以在“Find only new listings added during the past”处指定对返回结果的时效限制,在“After the first result page ,display matches per page”处确定每页返回多少个匹配的网站或分类。

96

97

98 在该检索界面,输入关键词后在右侧的选择框中选择检索的范围――Yahoo
在该检索界面,输入关键词后在右侧的选择框中选择检索的范围――Yahoo!索引库(基本检索中默认的检索范围)、新闻(News)、新闻组(Usenet)、拍卖(Auction)或黄页(Yellow Pages)等,如果用户选择了在Yahoo!索引库中进行检索,那么可以在“Select a search method:”标题下方指定搜索模式,在“Select a search area”下方指定搜索区域范围。另外,还可以在“Find only new listings added during the past”处指定对返回结果的时效限制,在“After the first result page ,display matches per page”处确定每页返回多少个匹配的网站或分类。如果查询结果仍然不能令人满意,就需要使用Yahoo!的高级查询语法(Advanced Search Syntax),利用逻辑算符和一些特殊操作符构建检索式,进行精确检索。Yahoo!所支持的高级查询语法有:·包含或排除检索(加减检索) 检索式中设定所检信息中包含某词或不含某词,所用符号分别为“+”和“–”。如+Information + Library – management。·字段(域)限定检索 Yahoo!中的字段限定检索只有两种形式:“t:”,限定检索条目仅在题名中,如t: Internet; “u:”限定检索URL地址,如u: edu.cn。·词组检索 限定所输入的两个或两个以上单词为词组时,Yahoo!要求用引号(“ ”)标示,如“Computer aided design”;若不使用引号,系统则将所输入多个单词按逻辑“或”的关系检索,即页面中只要出现任一输入单词就表示命中。·截词技术 截词符为“*”,接于词干后表示“后截断”,Yahoo!不支持“前截断”和“中截断”。

99 马云破釜沉舟押宝搜索 雅虎中国复制Google

100

101

102

103

104

105

106 雅虎就是搜索, 搜索就是雅虎 雅虎搜索将来要做“中国搜索市场上的第一”。

107 特种搜索引擎 互联网是个庞大的信息海洋,各种各样的信息资源应有尽有,利用上文介绍的综合型搜索引擎对于查找一般的信息资源基本上够用了,但是如果你想查找电话、人名、电子邮件、地址等资料,就必须要使用特种搜索引擎。特种搜索引擎专门收集某一类的信息资源,内容丰富,数据量大,能帮助你迅速找到一些专门的信息,下面为一些常用特种搜索引擎。 (1)查找电子邮件、电话号码、人物 555-1212( People Search( Pages( ( (

108

109

110 ?

111

112

113

114 (2)查询地图信息Mapblast(http://www. mapblast
城市交通旅游电子地图 ( 可快速缩放,漫游等。

115

116

117

118

119 (3)查询图像信息HotBot图像检索(http://www. hotbot
(3)查询图像信息HotBot图像检索( Surfer( ( (

120 谢谢


Download ppt "网络信息检索与利用系列讲座之四."

Similar presentations


Ads by Google