第二讲 搜索引擎及网络信息检索
主要内容 主要 内容 1 2.1 基本知识 2 2.2 典型的搜索引擎 3 2.3 搜索引擎的检索技巧 4 2.4 Internet免费学术资源检索与利用 5 2.5 免费科技信息检索示例
2.1.1 基 本 概 念 ※搜索引擎 搜索引擎是Internet上的一种网站,它的任务是在Internet上主动搜索Web服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。 ※域名 域名是Internet上某个区域的名字,是个人或机构在Internet上的注册地址。 为了区别各个站点,必须为每个站点分配一个唯一的地址,这个地址即称为“IP地址”,IP地址也称为URL(Unique Resource Location,中文意义为“统一资源定位符”),IP地址由四个从0到255之间的数字组成,如202.116.0.54,但这些数字比较难记,所以有人发明了一种新方法来代替这种数字,即“域名”地址,域名由几个英文单词组成
搜索引擎的组成 搜索器 索引器 检索器 用户接口 其功能是在 因特网漫游 其功能是 理解搜索器 和搜集信息 所搜索的信息, 从中抽出索引项 用于表示文档以及 生成文档库 的索引表 进行文档与查询的相关度评价, 对将要输出的结果进行排序, 并实现某种用户相关性反馈机制 输入用户查询内容、 显示查询结果 并提供用户 相关性反馈机制
域名的组成 第一段 第二段 第三段 左 右 如华立学院域名的表示:http://www1.hualixy.com (主机名) (次高域名段) (最高域名段) 注意: 各种不同表示 各自代表的 不同的机构 如华立学院域名的表示:http://www1.hualixy.com
2.1.2 搜索相擎的优点和缺点 优点及缺点 优点: 缺点: 1)信息分类加工不是很规范 搜索速度快, 涉及面无所不包 2.1.2 搜索相擎的优点和缺点 优点及缺点 优点: 搜索速度快, 涉及面无所不包 缺点: 1)信息分类加工不是很规范 2)对专业性强的信息的查全率低 3)重复和无效信息多 4)排序结果不是很理想
2.1.3 搜索引擎的类型 类型 主题型搜索引擎 依据检索内容 综合型 分类型搜索引擎 专题型 混合型检索工具 特殊型 依据其数据来源 2.1.3 搜索引擎的类型 类型 搜索引擎的数据检索机制 主题型搜索引擎 依据检索内容 综合型 分类型搜索引擎 专题型 混合型检索工具 特殊型 依据其数据来源 请注意: 各自有代表性的类型 的搜索引擎的名称 单独型 集中型
各类型搜索引擎的代表 1)主题型搜索引擎 代表:Google,Baidu 2) 分类型搜索引擎 代表:Yahoo(www.yahoo.com)、搜狐(dir.sohu.com)、新浪(dir.sina.com.cn) 3)综合型 Google、新浪、搜狐、网易 4)特殊型 如:用MapBlast(www.mapblast.com)查询地图信息,用 webseek(www.webseek.com)来查询图像信息 单独型:如搜狐 5)集中型 如“3721”
各类型搜索引擎的代表(主题型)
各类型搜索引擎的代表(分类型)
各类型搜索引擎的代表 (特殊型:MapBlast(www.mapblast.com))
2.1.4 主题搜索引擎的关键词语法规则 用此方法 进行查询 的有Google、 百度、 雅虎(cn.yahoo.com)、 2.1.4 主题搜索引擎的关键词语法规则 用此方法 进行查询 的有Google、 百度、 雅虎(cn.yahoo.com)、 3721(www.3721.com ) 用此方法进行查询的有新浪、搜狐、网易、找到啦、 中华网和常青藤等 按关键词进行精确查询 自动将关键词拆分进行模糊查询 检索式的运算符号 1)使用逻辑运算算符: AND、OR、NOT、“+”、“-”、“&”、“^”; 用百度搜索时OR可用“|”代替 2)使用位置算符 如用AltaVista 查询Baijing NEAR/3 Olympic查询时,这两个词之间的单词数不超过3个 3)使用字段限定 Intitle表示只包含要查询的关键词。如 “intitle广东工业大学华立学院”则不用查到除了学院主页的其他网页的信息 Site限定在某个网站搜索、 filetype限定文件类型、 inurl限定域名搜索
2.2 典型的搜索引擎 常用的搜索引擎 一些英文搜索引擎 一些特殊的搜索引擎 Google 百度 搜狐 新浪 像支持Blog 的搜索引擎 2.2 典型的搜索引擎 常用的搜索引擎 一些英文搜索引擎 一些特殊的搜索引擎 Google 百度 搜狐 新浪 Yahoo (www.yahoo.com) HotBot (www.hotbot.com) Altavista (www.altavista.com) Excite(www.excite.com) Infoseek(www.go.com) Lycos(www.lycos.com) 像支持Blog 的搜索引擎
2.3.1 常规的检索技巧 分类查询 其他搜索技巧 1 6 检索 技巧 关键词查询 查询最新信息 2 5 多次查找 按地域查找 3 4
2.3.2 Google和百度的高级检索技巧 Google高级检索技巧 用中英文混合搜索可以把汉语翻译成英语 2) 字段限定检索 用普通搜索引擎查找论坛中的帖子 用inurl:bbs查BBS、用inurl:forum 、 inurl:club、查找论坛中的各种帖子 Google高级检索技巧 用中英文混合搜索可以把汉语翻译成英语 2) 字段限定检索 Site(限定网站)、link(指向链接)、 inurl(限定网页)、intitle(限定标题)、 related (查找相似网页)、 cache(查找IP地址被封网页)pwd inurl(搜索密码文件) 百度的高级搜索技巧 inurl、 intitle、 site 等和Google的功能 是一样的
2.3.2 Google和百度的高级检索技巧(intitle)
2.3.2 Google和百度的高级检索技巧(filetype) 知识产权filetype:pdf(搜索文件格式为PDF格式的网页,也适用于百度) [PDF]知识产权在中国
2.3.2 Google和百度的高级检索技巧(site) 也适用于百度 食品质量监督site: sina.com.cn(功能:限定网页) news.sina.com.cn/c/2008-03-11/152715124657.shtml - 73k - 网页快照 - 类似网页
用scholar.google.com搜索免费学术资源 2.4 Internet免费学术资源检索与利用 用scholar.google.com搜索免费学术资源 用 books.google.com搜索图书 利用 搜索引擎 搜索 中国科技论文在线(www.paper.edu.cn) 奇迹文库(www.qiji.cn) 中国预印本服务系统(prep.istic.ac.cn/eprint) 香港科技大学科研成果全文仓储(repository.ust.hk/dspace) 开放阅读期刊联盟(www.oajs.org) 中国科学信息 开放存取链接点 国外科学信息 开放存取链接 DOAJ开放存取期刊列表(www.doaj.org) Blackwell电子期刊 (www.blackwell-synergy.com) Open J-Gate电子期刊 (www.openj-gate.com) 利用Open Access (开放存取)资源 科学专业搜索引擎Scirus(www.scirus.com) 其优势是提供 免费索引服务, 商业目的在于 提供网上订购ScienceDiret期刊
2.4 Internet免费学术资源检索与利用 http://scholar.google.cn/