网络信息检索工具 ——搜索引擎 主讲人:刘进军
你的搜商够高吗? 成功=智商+情商+搜商 ?
主要内容 第一节 搜索引擎概述 第二节 常用搜索引擎技巧分析
第一节 搜索引擎概述
一、搜索引擎的产生 盲目 信息用户 网络信息资源 搜索引擎 更快、更准确
它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。 二、搜索引擎的概念 搜索引擎是一种网络信息资源检索工具,是以各种网络信息资源为检索对象的查询系统。 它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面。
三、搜索引擎的工作原理 挖掘 用户界面
从互联网上采集信息 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
四、搜索引擎的分类 根据信息覆盖范围及适用用户群分类 (1)综合性搜索引擎 如:Baidu、Google、Yahoo、AltaViasta、Infoseek (2)专用性搜索引擎 如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。
五、搜索引擎的作用 1.生活 查新闻 例子:2009 诺贝尔奖 2.学习 如:查字 例子:炅(日字下面一个火怎么读) 如:查论文 3.娱乐 下载歌曲、电影 ……
第二节 常用搜索引擎技巧分析 想一想:你用过哪些搜索引擎?
第二节 常用搜索引擎技巧分析
PK
一、百度(http://www.baidu.com) (一)概况 百度,全球最大的中文搜索引擎、最大的中文网站。2000年1月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。
(二)检索方法与技巧 1、Baidu 的常用搜索技巧 (1)以空格表示逻辑“与” 在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“云南 旱灾 图片” (2)以“-”表示逻辑“非” 百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。 例如:图书馆 -公共图书馆
(3)以“|”表示逻辑“或” 使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。 如:毛泽东|毛主席
在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页。
利用intitle查找论文 直接找特定论文 除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中, “关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。 例:关键词 摘要 intitle:信息系统
小说 intitle:bookmarks 查找小说的精彩站点 IE浏览器的收藏夹导出后,网页的标题(title)是bookmarks。百度的intitle语法可以把搜索范围限定在网页标题内。所以,用intitle语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。 实例: 小说 intitle:bookmarks 查找小说的精彩站点
url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。 (5) Inurl url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。 格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。 这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。
例1:找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。
输入检索词
问情 inurl:mp3 搜索《戏说乾隆》的主题曲 inurl:liyuchun 查找李宇春的信息 第一章 inurl:lianchengjue 查询小说《连城诀》
(6)site的用法 注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。 注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。
在著名的软件下载站找软件 由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。 例: 网际快车 site:skycn.com
cnkikw site:edu.cn 在教育网内搜索cnkikw 摄影 site:hao123.com 在hao123中找摄影的网站
(6) “开始连接”、“正在连接”搜索免费电影 网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是flashget和迅雷。 Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。 检索式形式如:“电影名 开始连接”、电影名 正在连接”、“电影名 (开始连接 | 正在连接)” 举几个例子: 哈利波特4 开始连接 阿育王 (正在连接 | 开始连接)
(7) 『』查找论坛版块 检索式形式如: 『论坛版块名称』 实例: 『知网免费帐号』
2.Baidu的特色搜索 (1)百度快照 百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“甲型h1n1流感”为例。
(2)专业文档搜索(http://file.baidu.com) 百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,在普通的查询词后面,加一个“filetype:” 。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。
如: 查找关于网络技术的课件 格式: 网络技术 filetype:ppt 如:查找关于互联网的调查报告 互联网 调查报告 filetype:doc
(3) 精确匹配——双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。 例如,搜索京师范大学研究生院,加上双引号后,输入“北京师范大学研究生院”,获得的结果就全是符合要求的了。
书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能: 一是书名号会出现在搜索结果中; 二是被书名号扩起来的内容,不会被拆分。 例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。 查找图书的时候推荐使用,如《说服力:让你的PPT会说话》
百度国学是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。 (4)百度国学(http://guoxue.baidu.com) 百度国学是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。 提供上起先秦,下至清末历代文化典籍的检索和阅读;包括经、史、子、 集、蒙学及其他。
(5)手写输入
百度更多功能 贴吧搜索 MP3搜索 百度知道 百度百科 视频搜索 图片搜索 百度文库 ……
二、Google(http://www.google.com.hk/) (一)概况 特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好;并且具有一定的大写、名词识别能力的快速搜索引擎。 口号:确解用户之意,切返用户之需
(二)GOOGLE一般搜索技术 1.默认模糊搜索、默认拆分语句和过长的短语 2.如何精确搜索(短语搜索) 3.通配符*用法 4.点号匹配任意字符:. 5.布尔逻辑 与:空格、AND 或:OR、| 非:-(减号) 6.约束条件:+ 7.同义词:~ 8.数字范围:.. 9.括号:()
需要注意的是,所有的搜索语法和搜索符号必须是半角状态(即英文输入模式)。很多搜索语法也可以通过谷歌网页搜索之高级搜索来实现,在谷歌首页点击“高级” 即可进入高级搜索界面。
实例:【市场研究报告】,自动拆分为市场研究、市场、研究等。 1.默认模糊搜索、默认拆分语句和过长的短语 实例:【市场研究报告】,自动拆分为市场研究、市场、研究等。
2.如何精确搜索(短语搜索“”) "市场研究报告"
3.通配符*用法 通配符是星号“*”,必须在精确搜索符双引号内部使用。用通配符代替关键词或短语中无法确定的字词。
搜索市场调查研究报告、市场年度研究报告等内容时:"市场*研究报告"
搜索歌词:"I be * waiting for you"
搜索诗句:"解落*秋叶"
搜索英文的多种形态,如comput、computing等:"comput*"
4.点号匹配任意字符(也可不用引号) 与通配符星号“*”不一样的是,点号“.”匹配的是字符,不是字、短语等内容。保留的字符有[、(、-等
搜索有关中国的各种大全:“大全.中国”,或者不要精确搜索的双引号。百度支持不明显。
5.布尔逻辑 布尔逻辑是许多检索系统的基本检索技术,在搜索引擎中也一样适用,在谷歌网页搜索中需要注意的是:谷歌和许多搜索引擎一样,多个词见的逻辑关系默认的是逻辑与(空格)。当用逻辑算符的时候,词与逻辑算符之间用需要空格分隔,包括后面讲的各种语法,均要有空格。逻辑非是特例,即减号必须与对应的词连在一起。对于复杂的逻辑关系,可用括号分组。 逻辑与:用空格或AND 逻辑或:|或OR 逻辑非:-
搜索电子行业的研究报告:电子行业 AND 研究报告
搜索电子行业的人才或风险方面的研究报告:电子行业 AND 研究报告 AND(人才|风险)
搜索电子行业的人才或风险方面的研究报告,但不要2007年的: 电子行业 AND 研究报告 AND(人才|风险) -2007
6.加号“+”用于强制搜索,即必须包含加号后的内容。一般与精确搜索符一起应用 研究报告 +"学术信息资源开放目录"
7. 同义词(仅限于英文搜索。一般来说,加~符号会比不加搜索出来的多一些。) ~PC
8.数字范围(..) 一般应用于日期、货币、尺寸、重量、高度等范围的搜索。用作范围时最好给一定的含义。百度不支持。 奥运会 1980..2004
格力空调 ..2800
9.括号分组:逻辑组配时分组,避免逻辑混乱。括号“()”是分组符号 (格力空调|海尔空调)元 2800..
(三)高级搜索语法 高级搜索语法之一 1.intitle、allintitle:搜索范围限制在网页的标题 2.intext,allintext:搜索范围限制在网页中的正文中搜索 3.inurl、allinurl:搜索范围限制在URL 4.inanchor、allinanchor :搜索范围限制在页面的链接锚点描述文本进行搜索。 5. insubject :主题搜索
1. intitle:搜索范围限制在网页的标题
2.intext:搜索范围限制在网页中的正文
3.网址中搜索:inurl inurl是In-系指令中最强大的一个,换句话说,这个高级指令能够直接从网站的URL入手挖掘信息,只要略微了解普通网站的URL格式,就可以极具针对性地找到你所需要的资源--甚至隐藏内容。网站构建者通常将某一类信息集中在一个网站的目录中,所以搜索URL中的词本身就是对某一方面内容的一个限定。如果在加上一定的词进行组配,搜索结果将更贴近需求。
搜索音乐-inurl:mp3 毕业生,在所有网络地址中包含“mp3”的页面中搜索“毕业生”。这个时候返回的“毕业生”肯定是音乐,而不是关于“毕业生”的其它话题。Google中搜索音乐的另一有效方式是MP3可以替换为wma/rm等。
搜索电子论文-搜索有关Information Retrieval的电子论文(通常这类搜索结果能直接下载全文)。 inurl:eprint "Information Retrieval"
搜索软件-inurl:download qq,直接查找QQ软件的下载页面。
高级搜索语法之二 info:进入某URL更多信息的引导页面 通过这个语法能将网页的快照信息、网页链接情况、被链接情况和类似网页的信息供选择浏览。查看样例:【info:lib.nit.net.cn】,info语法是其它几个语法的集合: cache:搜索谷歌缓存的页面 related:相关网页 link:搜索所有链接到某个特定 URL上的页面列表 site:搜索范围限制在某网站或域名中。
info:lib.nit.net.cn cache related link site "lib.nit.net.cn"
搜索我国教育科研网中关于“医药”的信息,比如医药院校或专业的信息等。这样能排除很多医药领域的公司信息。 医药 site:edu.cn
高级搜索语法之三 filetype:根据文件后缀搜索特定文件类型(Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、 Shockwave Flash (swf)、PostScript (ps)和其它类型文档。) define:搜索定义
filetype:根据文件后缀搜索特定文件类型
define:搜索定义
高级搜索语法之四:混合使用搜索技术 混合使用情况: 缩小搜索范围最好的选择:混合使用intitle、site 如:intitle:自动化 site:edu.cn 限定搜索特定类别的信息:inurl限定 如:等爱的玫瑰 inurl:mp3 搜索网站内的文档(一网打尽!):filetype与site 如:电子图书 filetype:ppt site:lib.nit.net.cn ……
什么情况下不混合使用 不混合使用有抵消的搜索 【知识管理 site:edu.cn -inurl:edu】 不要重复使用同一语法结构 【知识管理 site:cn site:com】,但是这样可以【知识管理 (site:cn | site:com)】 在混合使用语法时,不要用别名 如allinurl、allintitle 不要使用过多的语法将搜索结果限制得特别狭窄,采取逐步增加限制的方法,一般不要一步到位做很多限制。
(四)有趣或有用的搜索功能 1.假日图标 谷歌每逢节假日、纪念日或重大事件,会更改首页图标以示纪念。谷歌假日图标从1999至今的链接:http://www.google.com/holidaylogos.html 2.10个单词的限制 包括关键词和语法结构加在一起,超过这个限制的部分会被忽略。
3.手气不错 在GOOGLE首页,有“手气不错”这个按钮,当你输入搜索词后,若按“手气不错”会直接得到GOOGLE认为最相关的网站,试一试【www】【web】,或者你的名字、感兴趣的字词看看,都链接到什么网站上去了。如“湘潭大学”
4.计算数字 直接在GOOGLE网页搜索输入框中输入算式进行计算,除法是“/” ,乘法是“*”。用惯了网络的人,会觉得比掏出手机来按按钮要爽。 如:(4*6+6)/2
如“information management and information system” 5.翻译功能 你懂英文,但是你不见得就懂德文、法文、拉丁文。Google提供了网页翻译功能。 如果你安装了“google工具条” ,翻译功能的使用更好。可以屏幕取词翻译。 如“information management and information system”
GOOGLE工具条 屏幕取词划译
翻译网页
6.学术搜索 定位:专门面向学术资源的免费搜索工具 搜索结果:论文、图书、预印本、摘要、技术报告等。 信息来源:合作伙伴(ACM、IEEE、Nature、 OCLC等);互联网
2006年1月11日,Google公司宣布将(Google Scholar)扩展至中文学术文献领域,推出面向中文的Google学术搜索服务。 搜索结果:论文、图书、预印本、摘要、技术报告等。 信息来源:合作伙伴(万方、维普等); 互联网
利用学术搜索查询免费学术论文 格式:关键词filetype: pdf 例如:查找关于机械制造方面的论文 机械制造 filetype: pdf
检索结果太多,调整检索策略
7.利用google搜密码 password=welcome+(X) password+journal x 可以为任何一个文献数据库的名称
password=welcome+ProQuest
密码=welcome+CNKI 2010
其他搜索功能 图片搜索 新闻搜索 论坛搜索 网页目录搜索 地图搜索 购物搜索 视频搜索 …..
我们掌握了Google网页搜索一般技术、高级语法的具体应用 知识如何根据需要混合使用搜索语法。 小结 了解了Google和百度的基本情况 是选择什么样的搜索引擎,一般根据个人喜好,不过,如果搜索学术信息和外文信息,你还是选择Google吧(尽管它的web搜索业务撤出了大陆,但学术搜索等服务还在) 我们掌握了Google网页搜索一般技术、高级语法的具体应用 知识如何根据需要混合使用搜索语法。 Google高级搜索语法也可以通过“高级搜索”页面来实现部分功能,不过,直接用高级搜索语法能更方便、更灵活、更高效。
当利用信息检索的基本思想(扩检、缩检、主题概念分析)和技术(逻辑组配、限定检索)后,网络搜索将能解决复杂的问题,搜索已经不是search,而是retrieve。 我们也了解了谷歌的一些有趣的内容,希望你也能去探索 我们也展示了Google的很多应用,这些应用并不是谷歌的全部,即使谷歌的全部应用也只是网络信息环境中的很小一部分。沧海一粟的感觉真的让个人感觉很渺小。你现在是否理解了“网上冲浪”?
TEL:58292141 E-MAIL:liujinjun79@126.com QQ群:104729997(图书馆之家(二)) 联系方式: 刘进军 TEL:58292141 E-MAIL:liujinjun79@126.com QQ群:104729997(图书馆之家(二))