Download presentation
Presentation is loading. Please wait.
1
Network information resource retrieval
第四章 网络信息资源检索 Network information resource retrieval 深圳大学图书馆 2015年6月
2
第一节 搜索引擎的工作原理 第二节 搜索引擎类型和检索功能 第三节 常用中英文搜索引擎 第四节 免费网络学术资源检索
3
第一节 搜索引擎的工作原理 4.1 搜索引擎(Search Engine)
第一节 搜索引擎的工作原理 搜索引擎(Search Engine) 是一种接受因特网(Internet)用户查询指令,并向用户提供符合其查询要求的相关网站或网页的信息资源系统。与普通网站不同的是,搜索引擎是一个在Internet中主动搜索WWW信息并能进行自动索引、提供查询服务的网站,它通过网站登录、信息采集器或搜索机器人等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询指令在短时间内作出响应。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内获取大量的科技信息成为可能。
4
搜索引擎实际上是一个专用的WWW检索服务器,它收集Internet上成千上万甚至上亿个WWW网页信息,组成庞大的索引数据库。搜索引擎一般由信息采集器(Spider或Crawler)、索引数据库(Index或Catalogdatabase)和用于检索索引数据库的检索软件(SearchEnginesoftware)三部分组成。
5
信息采集器是一种网络自动搜索软件,通常称为蜘蛛(Spiders)、爬虫(Crawlers)或机器人(Robots)等。它们运行在WWW信息空间,能够沿着网站的链接从一个页面跨越到另一个页面,自动追寻和发掘网上的各种信息资源,采集新出现信息,确认网页之间的链接是否有效,剔除死链的一种软件。 索引器的主要工作是建立一个包含关键信息的索引库以备查询,不同的索引器标引网页的内容是不同的,有的对网页进行全文标引,有的只标引网页的地址、题名、以及特定的词或段落等,所以索引器的策略很大程度上影响了搜索引擎的效率与准确性。 检索软件通常是一个Web应用程序,其主要工作是接收、解释用户的搜索请求、查询索引库、计算网页与搜索请求的关联度、提供排序后的搜索结果返回。
6
搜索引擎产生和发展的历史不长,但它的检索功能却非常强大,大多数搜索引擎都提供以下检索功能:布尔逻辑检索、词组检索、截词检索、限制检索、位置检索、字段检索、语句检索等。一些搜索引擎还有以下特殊的检索功能:自然语言检索、多语种检索、区分大小写检索等。对搜索结果及结果显示有影响的一些功能:检索提问的修改与限制、按相关度排列结果、检索与浏览功能、检索结果翻译等。
7
第二节 搜索引擎类型和检索功能 4.2.1 搜索引擎的类型 按照信息内容的组织方式,可将搜索引擎分为目录搜索引擎和机器人搜索引擎。
第二节 搜索引擎类型和检索功能 4.2.1 搜索引擎的类型 按照信息内容的组织方式,可将搜索引擎分为目录搜索引擎和机器人搜索引擎。 目录搜索引擎采用人工或机器搜索WWW信息,是依靠专业人员对信息进行甄别和分类而建立的以分类导航或分类摘要查询为主的一类搜索引擎,又称“主题指南”。优点是信息标引质量高,检准率高,适合于族性检索。缺点是信息量较小,维护需要耗费大量的人力物力。比较有代表性的是Yahoo、搜狐等。
8
机器人搜索引擎,是指由网上搜索软件自动收集网页建库,而检索又以全文检索为主的搜索引擎。它读取一个或多个HTML文件,然后分析置标标记内的字以及所有链接的HTML文件,核查每一个字的删除和简化,存储最终生成的 HTML 文件的字列表。当分析完所有链接的 HTML 文件时,将创建 HTML Applet 搜索页的Applet标记和字数据库。基于机器人的搜索引擎从一组已知的文档出发,通过这些文档的超文本链接确定新的检索点,从而快速定期地收集分布于世界各地网站的信息,及时更新自身索引数据库。比较有代表性的是Google、AltaVista、Excite、HotBot等。
9
按照检索特性的不同可将搜索引擎划分独立搜索引擎、元搜索引擎。独立搜索引擎就是最常见的Web信息检索系统,它拥有自己的索引数据库,特点是仅在搜索引擎本身的数据库中查询。如Yahoo、Google、AltaVista等都属于独立搜索引擎类型。
10
元搜索引擎是可以同时查询多个搜索引擎的WWW站点,特点是能从多个独立搜索引擎查询得到的结果中进行不同程度的处理,然后将结果返回给用户。而其本身可以有也可以没有自己的数据库。比较有代表性的元搜索引擎是WebCrawler、Dogpile等。 从用户的角度来看,利用多元搜索引擎的优点在于可以同时获得多个独立搜索引擎(源搜索引擎)的结果,但由于元搜索引擎在信息来源和技术方面都存在一定的限制,因此搜索结果实际上并不理想。目前,尽管有数以百计的元搜索引擎,但还没有一个能像Google等独立搜索引擎那样受到用户的广泛认可。
11
按检索内容的不同可将搜索引擎划分为通用搜索引擎和专用搜索引擎。
通用搜索引擎指为用户提供多类型、多主题的综合信息搜索,如Yahoo、Goole、百度等都是这种类型,可向用户提供生活娱乐、科技教育、各类新闻等主题的网络信息。 专用搜索引擎指指仅提供某一主题领域的信息搜索的网络搜索工具。如专门搜索法律信息的LawCrawler, 专门搜索心理学信息的PsychCrawler等。
12
4.2.2 搜索引擎的检索功能 搜索引擎产生和发展的历史不长,但它的检索功能却非常强大,大多数搜索引擎都提供以下检索功能:布尔逻辑检索、词组检索、截词检索、限制检索、位置检索、字段检索、语句检索等。 一些搜索引擎还有以下特殊的检索功能:自然语言检索、多语种检索、区分大小写检索等。对搜索结果及结果显示有影响的一些功能:检索提问的修改与限制、按相关度排列结果、检索与浏览功能、检索结果翻译等。
13
第三节 常用中英文搜索引擎 4.3.1 Google 概述
第三节 常用中英文搜索引擎 4.3.1 Google 概述 Google是目前最优秀的支持多语种的搜索引擎之一,约搜索50亿张网页。提供网站、图像、新闻组等多种资源的查询,包括中文简体、繁体、英语等35个国家和地区的语言的资源。
14
Google是由美国斯坦福大学的两位博士生拉里·佩吉和谢尔盖·布林于1998年创建的
其优势在于掌握的信息量以及检索模型和检索速度。它可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒 Google采用全文标引方式,提供每日更新。现在,Google可以查询的网页达40多亿个,每天需要提供 2 亿次查询服务
15
Google 的查询界面 设置搜索偏好,包括每个网页上默认的搜索结果数量、界面语言,以及查询语言 直接进入最符合搜索条件的网页
16
Google的其它版本
17
Google 的技术特点如下: Google收录了因特网上亿张的网页,提供HTML格式外的13种文件类型检索,是目前世界上最大的网页数据库。Google采用新一代的先进技术,根据互联网本身的链接结构对相关网站用自动方法进行分类,依据网络自身结构,清理混沌信息,缜密组织资源。目前有众多网站都采用了Google搜索引擎技术。 英文Google搜索提供的关键词查询,查询范围有5种常用选择,即Images、Groups News、Froogle、Maps。中文Google搜索也提供的关键词查询,查询范围有4种常用选择,即所有网站、图像、网上论坛和网页目录。
18
Google特点 支持多达132种语言 提供40多亿个搜索网页,涵盖内容齐全 搜索速度快 结果命中率高
搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介 智能化的“手气不错”功能,提供可能最符合要求的网页 “网页快照”功能,能从Google服务器里直接取出缓存的网页
19
Google(中文) 网址: 检索功能 使用时应主意的问题
21
基本检索:(布尔检索功能) 逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接
逻辑“非”:用“—”(减号)表示,同时要求在减号前保留一个空格 逻辑“或”:用“OR”表示 双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词 指定网域:利用site:xxxx.com可以在某个特定的网站或域中进行搜索 指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf, filetype:ppt等
22
逻辑与功能
23
逻辑非功能
24
逻辑或功能
25
“ ”、“-”、“\”、“+”、“=”、“,”“'”
专用语查询功能
26
指定网域
27
指定文件类型
28
Google基本检索 其它检索语法 搜索的关键词包含在URL链接中:inurl: 搜索的关键词包含在网页标题中:intitle:
搜索的关键词包含在网页的“锚”中:inanchor: 或allinanchor: 搜索所有链接到某个URL的网页:link:
29
高级检索功能 可以排除某个特定站点的网页(限定网域) 可以对检索结果页面的语言类型进行限制(限定语种)
可以限定检索结果的时间范围(更新日期) 可以限定关键词出现的位置(字词位置) 可以检索链向某一个网页的所有页面(键连功能) 可以检索与某一个网页相关的所有网页(相似网页检索)
30
高级检索界面
31
高级检索示例 输入检索条件
32
高级检索示例 检索结果
33
图像检索 Google 分析页面上图像附近的文字、图像标题以及许多其它元素来确定图像的内容。Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像 目前可以搜索超过10亿张图像 可以搜索特定类型的图像 图像搜索时可以使用布尔逻辑算符和google的其它检索命令
34
图像搜索 点击进入
36
网页快照 如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快
如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面 如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中Google用黄色表明关键字位置
37
集成化的工具条 为了方便搜索者,Google提供了工具条,集成于浏览器中,用户无需打开Google主页就可以在工具条内输入关键字进行搜索
工具条还提供了许多其它功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。 安装Google的工具条,可以访问“
38
点击下载
40
使用时应注意的问题 Google不区分英文字母的大小写,所有字母均作小写对待。例如:输入“george washington”(乔治·华盛顿),或是“George Washington”, 再或是“gEoRgE wAsHiNgToN”,结果都是一样的 通配符问题。Google对通配符的支持有限,只能用“*”代替单个字符,而且必须将检索词用引号引起来,如“以*治国”
41
使用时应注意的问题 搜索引擎忽略的字符与强制检索。Google对一些 出现频率极高的英文单词,如“i”、“com”、“www”
等,以及一些符号如“*”、“.”等,作忽略处理。如果 检索词中包含这些字符,必须进行强制检索,在这些 字符前后用“+”,如“+www+的历史”,或用英文的引 号。
42
强制搜索
44
学术搜索引擎
46
4.3.1百度 网址: 概述 检索技巧
47
百度概述 1999年底,百度由李彦宏先生和徐勇先生于美国硅 谷创建。2000年百度回国发展。百度在中国各地和 美国均设有服务器,搜索范围涵盖了中国大陆、香 港、台湾、澳门、新加坡等华语地区以及北美、欧 洲的部分地点。百度搜索引擎拥有目前世界上最大 的中文信息库,总量达到3亿页以上,并且还在以 每天几十万页的速度快速增长,百度搜索引擎具有 高准确性、高查全率、更新快以及服务稳定的特 点,因此深受网民的喜爱。
50
百度快照 每个被收录的网页,在百度上都存有一个纯文本的备 份,称为“百度快照”。百度只保留文本内容,所以,那些
图片、音乐等非文本信息,快照页面还是直接从原网页调 用。如果您无法连接原网页,那么快照上的图片等非文本 内容,会无法显示。
51
例:“金庸”中国文艺——金庸特辑 花2元拿下金庸力作?李亚鹏将演“傻郭靖”(图) ◇ 金庸小传:金庸一生大事记 ◇ 金庸传 奇:详细介绍金...金庸剧场:收集根据金庸作品改编的电视剧的剧照、主题曲及相关评论 精 彩推荐 金庸和夏梦的精神恋 金庸剧 K 百度快照
52
相关搜索 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。
53
下面是“小说”的相关搜索。点击这些词,可以直接获得他们的搜索结果。
武侠小说 玄幻小说 网络小说 小说阅读网 网游小说 小说下载 小说网 小说频道 小说天下 >>更多相关搜索...
54
拼音提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。 如,输入“zhurongji”,提示如下:您要找的是不是: 朱鎔基
55
错别字提示 由于汉字输入法的局限性,我们在搜索时 经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。
错别字提示显示在搜索结果上方。 如,输入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
56
英汉互译词典 随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提示。如,搜索“apple”,点击结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语! 您也可以通过 百度词典搜索 界面( ,直接使用英汉互译功能。
57
计算器和度量衡转换 1、计算四则运算 35*82-(32+11) 2、公式计算 log((sin(5))^2)-3+pi 换算数量换算前单位=?换算后单位 3、单位换算 1海里=?公里
58
专业文档搜索 很多有价值的资料,在互联网上并非是普通的网页,而 是以Word、PowerPoint、PDF等格式存在。百度支持对 Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行的全文搜索。要搜索这类文档, 很简单,在普通的查询词后面,加一个“filetype:”文档类 型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、 PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文 件类型。例如,查找张五常关于交易费用方面的经济学论 文。“交易费用 张五常 filetype:doc”,点击结果标题,直 接下载该文档,也可以点击标题后的“HTML版”快速查看该 文档的网页格式内容。 也可以通过 百度文档搜索 界( ,直接使用专业文档搜索功能。
59
股票、列车时刻表和飞机航班查询 在百度搜索框中输入股票代码、列车车次或者飞机航班 号,您就能直接获得相关信息。例如,输入深发展的股票 代码“000001”,搜索结果上方,显示深发展的股票实时行 情。 也可以在百度常用搜索( 中,进行上述查询。
60
高级搜索语法 把搜索范围限定在网页标题中——intitle 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。 例如,找赵薇的写真,就可以这样查询:写真 intitle:赵薇 注意,intitle:和后面的关键词之间,不要有空格。
61
把搜索范围限定在特定站点中——site 有时候,您如果知道某个站点中有自己 需要找的东西,就可以把搜索范围限定 在这个站点中,提高查询效率。使用的 方式,是在查询内容的后面,加上“site:站点域名”。 例如,天空网下载软件不错,就可以 这样查询:msn site:skycn.com 注意,“site:”后面跟的站点域名,不要带“
62
高级搜索语法 把搜索范围限定在url链接中——inurl 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。 例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。
63
高级搜索语法 精确匹配——双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。 例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。 书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。
64
高级搜索语法 要求搜索结果中不含特定查询词“-” 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。 例如,搜 神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣 -电视剧 注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。
65
高级搜索、地区搜索和个性设置 如果对百度各种查询语法不熟悉,可以使用百度集成的高级搜索界面,可以方便的做各种搜索查询。 百度还支持对某个地区的网页进行搜索。进入高级搜索,进入地区搜索,选中希望查询的地区,就可以在该地区搜索了。 您还可以根据自己的习惯,改变百度默认的搜索设定,如每页搜索结果数量,搜索结果的页面打开方式等。先进入高级搜索,然后点击下方的"点击此处进入个性设置",就可以进行设定了。
66
天气查询 使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。 在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。例如,搜索“深圳天气”,就可以在搜索结果上面看到深圳今天的天气情况。 百度支持全国多达400多个城市和近百个国外著名城市的天气查询。
67
使用“A | B”来搜索“或者包含关键词A,或者包含关键词B”的网页。
并行搜索功能 使用“A | B”来搜索“或者包含关键词A,或者包含关键词B”的网页。 二次检索 又称进阶检索或精炼检索,可在上次检索结果中 继续检索,逐步缩小查找范围,直至达到最小、最 准确的结果集。利于用户更加方便地在海量信息中 找到自己真正感兴趣的内容。
69
在上一次检索的基础上,加入新的检索词,点击“结果中找”,进行二次检索。
70
在上一次检索的基础上,点击“高级检索”,进行高级检索界面。
72
使用搜索引擎应注意的其它问题 本章只介绍了Google和百度两个搜索引擎,实际检索时
如果效果不理想,可以考虑元搜索引擎WebCrawler、Dogpile等。 此外,Metacrawler、Excite、AltaVista、爱问、搜狗、 新浪等均是常用的搜索引擎,它们在功能上各有特点,可选择 使用。 搜索引擎大大方便了用户搜索网上的信息,但其本身所固 有的差别有时会使用户难以获得满意的检索效果,为提高检 索效率,在使用搜索引擎时应注意以下几个问题: 1.阅读搜索引擎的帮助信息 搜索引擎在帮助信息中提供了自身的操作、运算符、和使 用规则说明,这些信息是进行有效查询所必须的知识,阅读 帮助信息将会有所收益。
73
2.选择合适的搜索引擎 由于不同的搜索引擎有各自不同的特点,所以只有选择合 适的搜索引擎才能得到所希望的结果。一般来说,如果查找 非常具体或特殊的问题,用机器人搜索引擎比较合适;如果 希望浏览某方面的信息,专题或查找某个网站,则目录式搜 索引擎可能更合适。如果使用某一个搜索引擎返回的条目太 少或没有,可以用不同的搜索引擎进行尝试,可能会达到不 同的查询结果。另外,也可考虑使用多种途径,多个搜索引 擎来查找,以便提高查全率。
74
3.选择恰当的关键词 搜索所用的关键词要求做到“精”、“准”、“有代表性”,才能保证搜索的信息有用。在使用关键词查找时,应注意以下几点: (1)不要输入错别字进行检索。如果搜索引擎允许错别字检索,也要注意提示信息。 (2)注意输入词语的拼写形式,如一般形式、过去式、单复数、大小写、空格、半角全角等,适当时可多用通配符“?”或“*”等,以提高查全率。 (3)不要使用过于频繁、过于简单或过于通俗的词,以避免得到许多无用的信息。
Similar presentations