实践四 典型搜索引擎训练
信息工具与资源 实践内容 实践3.1:搜索引擎高阶利用(实践1学时) 信息工具与资源 实践内容 实践3.1:搜索引擎高阶利用(实践1学时) (1)通过上机实践掌握Google、Baidu的初高级检索功能和一些特色功能; (2)通过上机实践掌握学术搜索的途径和方法; 实践内容 (第1讲) 2 2
一 知识点回顾 搜索引擎, Search Engine 一 知识点回顾 搜索引擎, Search Engine 是指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息的一种工具。 由搜索模块,索引模块,检索模块和用户接口四个部分组成, 从检索系统来看它实质是对 WWW 站点资源和其它网络资源进行标引和检索的一类检索系统机制。 参见教材13.2.1
从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 一 知识点回顾 搜索引擎的原理,可以看做三步: 从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 搜索引擎并非直接搜索互联网,也是搜索它的索引数据库。 索引数据库的更新速度直接影响搜索引擎是否可以搜索到最新的资料。 参见教材13.2.1
常用搜索引擎的搜索技巧比较 搜索技巧??? ---实践重点 baidu google 雅虎 搜狗
百度的高级检索 逻辑与 双引号 逻辑或 逻辑非 逻辑与:空格或+, 如“计算机 防火墙”。 逻辑或:| ,如“计算机 | 电脑” 。 逻辑非:-, 例如,要搜寻“武侠小说”,但不含“古龙”的资料,则可输入“武侠小说 - 古龙”。 百度不支持 “通配符”,要求所输入的关键词完整、准确,一字不差,才能得到最准确的资料。
Google的高级检索 双引号 逻辑与 46种语言 逻辑或 逻辑非 246国家、地区 参见教材13.2.2(P280-281)
Google的高级检索 双引号 逻辑与 逻辑或 逻辑非 Google支持逻辑运算:在词前加上一个减号(“-”, 英文字符),在减号之前留一空格表示排除搜索某个词语;在关键词中间留空格,Google会在关键词之间自动添加“AND”; Google 不使用“词干法”、不支持“通配符”(*) 搜索;不区分英文字母大小写,所有的字母均当做小写处理;给词语加上双引号可进行短语精确搜索。Google将连字号、斜线、句点、等号和省略号当作短语连接符。 Google允许用户直接在键盘上输入汉语拼音来检索相关事物 例如:输入sichuanfengjingmingsheng,检索结果提示:您是不是要找:四川风景名胜。用户在输入拼音时,字母中间不能留有空 ,否则Google会误认为是英文。 双引号 逻辑与 逻辑或 逻辑非 参见教材13.2.2(P280-281)
百度(baidu)高级搜索语法 把搜索范围限定在特定站点中——site 把搜索范围限定在url链接中——inurl 专业文档搜索——“filetype:”(DOC、XLS、PPT、PDF、RTF、ALL) 把搜索范围限定在网页标题中——intitle 把搜索范围限定在特定站点中——site 把搜索范围限定在url链接中——inurl 精确匹配——双引号和书名号(加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分) 要求搜索结果中不含特定查询词——减号语法
Google高级检索技术 具有特殊功能的查询字包括 filetype、define、site、cache 、info 、link,inurl,allinurl,intitle,allintitle。 Filetype用于查找特定的文档, 输入格式为:“关键词 filetype:**”,**为文档类型,Google可以支持13种非HTML文件的搜索,包括PDF文档、icrosoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档; 如输入“冒险岛 filetype:swf”即搜索有关冒险岛的Flash文档。 Define用于查看字词或词组的定义, 输入格式为:“define 词 ”中间有一个空格,该操作符与您需要其定义的字词之间不留空格, 如“define 知识经济”即获得有关知识经济定义的列表。 参见教材13.2.2(P281-282)
Google高级检索技术 Site用于表示在某个特定的域或站点中进行搜索, 输入格式为:“关键词site:域或站点”, site后的冒号为英文字符,而且,冒号后不能有空格, 如输入“留学 site:edu.cn”表示搜索中文教育科研网站(edu.cn)上有关留学的的页面。 Cache在原始网页暂时不可用(比如该网页的服务器发生故障)时,用于检索该网页的cache版本。 输入格式为“cache: 网页URL”,中间不能有空格,如“cache:www.google.com” 显示Google主页的cache页面。 参见教材13.2.2(P281-282)
Google高级检索技术 Info表示返回所有可供该特定URL使用的信息 link表示将显示所有指向该网址的网页 如“info:www.google.com” 将显示与Google主页相关的信息。 link表示将显示所有指向该网址的网页 格式为“link: URL地址”。 “link:”后面无空格; 如“link:www.google.cn”表示搜索Google中文 参见教材13.2.2(P281-282)
Google高级检索技术 具有特殊功能的查询字包括 filetype、define、site、cache 、info 、link,inurl,allinurl,intitle,allintitle。 Filetype用于查找特定的文档, 输入格式为:“关键词 filetype:**”,**为文档类型,Google可以支持13种非HTML文件的搜索,包括PDF文档、icrosoft Office (doc, ppt, xls, rtf)、Shockwave Flash (swf)、PostScript (ps)和其它类型文档; 如输入“冒险岛 filetype:swf”即搜索有关冒险岛的Flash文档。 Define用于查看字词或词组的定义, 输入格式为:“define 词 ”中间有一个空格,该操作符与您需要其定义的字词之间不留空格, 如“define 知识经济”即获得有关知识经济定义的列表。 inurl表示搜索结果将被限定于那些在URL中包含该字的文件 格式为“inurl:关键词”,“inurl:”后面不能有空格。 如“inurl: 发现号”表示返回的网页链接中包含发现号的资料; 如“inurl: photo Shuttle Discovery site: ntrs.nasa.gov”表示在美国航空航天宇航局网站上搜索有关发现号航天飞机的照片; “inurl: photo发现号”表示在网页上搜索有关发现号的照片;第一个关键词多采用资源名称如mp3、gallary、album、news、photo、image等,用第二个关键词确定具体专题。 allinurl: 表示搜索结果将被限定于那些在URL中包含所有查询字的文件。 如, “allinurl: 布达拉宫 西藏”表示搜索结果为在URL中同时具有“布达拉宫”和“西藏”的文件。 在您的查询中的每个字之前放置“inurl:” 等同于在您所有查询字之前加 “allinurl:”。 Info表示返回所有可供该特定URL使用的信息 输入格式为“info: 网页URL”,中间不能有空格, 如“info:www.google.com” 将显示与Google主页相关的信息。 link表示将显示所有指向该网址的网页 格式为“link: URL地址”。 “link:”后面无空格; 如“link:www.google.cn”表示搜索Google中文 参见教材13.2.2(P281-282)
Google高级检索技术 intitle将搜索结果限定于那些在HTML标题中包含该字的文件。 输入格式为:“intitle: 关键字 关键字”,第二个词也可不输入,“intitle:”和字之间不能有空格。 如“intitle:布达拉宫 西藏” 表示搜索结果为在HTML标题中提及布达拉宫,而在文件中的任何地方(既可以是标题也可以是文件的任何其他位置)提及西藏的文件。 allintitle 表示搜索结果限定在那些其HTML标题中包含所有查询字的文件中, 如“ allintitle:布达拉宫 西藏”表示搜索结果为在HTML标题中同时包含“布达拉宫”和“西藏”的文件。 在您的查询中的每个字之前放置 “intitle:” 等同于在您所有查询字之前加 “allintitle:”。 参见教材13.2.2(P281-282)
雅虎(yahoo)的搜索技巧 如何使搜索结果中的查询词不被拆开? 如何查找更精确的搜索结果? 如何限定搜索结果的语言? 在查询词前后加上双引号(中文双引号、英文双引号都可以) 如何查找更精确的搜索结果? 使用多个查询词搜索、使用减号、使用双引号: 如何限定搜索结果的语言? 雅虎搜索支持多达38种世界各地的语言 英语不好也可以轻松浏览英文网页么? 当搜索结果的标题右侧出现“英译汉”链接时,点击便可查看翻译成中文的网页。
雅虎(yahoo)的搜索技巧
搜狗(sogou)的搜索技巧 搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名为www.sogou.com。 搜狗的产品线包括了网页应用和桌面应用两大部分。 网页应用以网页搜索为核心,在音乐、图片、新闻、地图领域提供垂直搜索服务,通过说吧建立用户间的搜索型社区; 桌面应用则旨在提升用户的使用体验:搜狗工具条帮助用户快速启动搜索,拼音输入法帮助用户更快速地输入,PXP加速引擎帮助用户更流畅地享受在线音视频直播、点播服务。