广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹 第四讲 网络信息检索工具 广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹
本讲主要内容 一 网络信息检索概述 二 综合型搜索引擎实例 Google(重点掌握) Baidu、Yahoo!、Sohu(一般了解) 三 专业型搜索引擎实例(一般了解) 四 小结
一 网络信息检索概述 1 网络信息检索的对象及其特点 一 网络信息检索概述 1 网络信息检索的对象及其特点 网络信息资源(Network Information Resource)是以数字化形式记录,以文字、图像、声音、动画等多媒体形式表达,存储在网络计算机磁介质、光介质以及各类通讯介质上,并通过计算机网络通讯方式进行传递的信息内容的集合。
网络信息资源的特点 数量巨大,增长迅速 内容丰富,形式多样 时效性强,变化迅速 共享性和交互性 结构复杂,分布广泛 动态性强,缺乏管理 良莠不齐
2 网络检索工具 网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,实质是一种网页或网址检索系统。主要面向互联网信息检索,并通过Internet来提供服务,通常又称搜索引擎。当用户输入关键词查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网址的链接。
2.1 网络检索工具的原理 主要有五个部分: 数据采集(robot/spider) 数据分析与标引(indexer) 数据组织 数据检索 负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库 2.1 网络检索工具的原理 负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容——网页关键词、网页的分类类别等,并对关键词进行权值计算 主要有五个部分: 数据采集(robot/spider) 数据分析与标引(indexer) 数据组织 数据检索 信息挖掘 负责形成规范的索引数据库或便于浏览的层次型分类目录结构 负责帮助用户用一定的方式检索索引数据库,获取符合用户需要WWW信息 负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用
2.2 搜索引擎的分类 收录信息范围不同 检索原理不同
(1) 收录范围划分 综合型搜索引擎 又称通用搜索引擎,是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度) 专业型搜索引擎 是专业信息机构根据专业需求,将Internet上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。 如:医学引擎:Medical Matrix、HealthWeb;地图引擎;音乐引擎
综合型搜索引擎 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度) 收录的信息涉及多个主题及多种信息类型,因此,利用它可以查找到几乎任何方面的信息。它往往基于检索词去匹配相关的内容,所以信息量大,时常也会因检出内容太泛而无法一一过目,有时会影响查准率。 如:Google(谷歌)、Yahoo!(雅虎)、Baidu(百度)
专业型搜索引擎 专门收集某种类型或某一主题网络信息,因此它的针对性较强,查准率较高,在提供专业信息资源方面要远远优于综合型搜索引擎,可以满足用户个性化需求的需要。 医药卫生学专业方面如: Medical Matrix、HealthWeb、BIOME等
(2) 工作原理划分 目录/主题指南(Directory/Subject Guides) (2) 工作原理划分 独立检索工具 目录/主题指南(Directory/Subject Guides) 由人工采集网站并进行分类,由专业人员进行加工并建成树状等级目录。保证了查准率,但查全率降低。如:Yahoo!(雅虎) 搜索引擎/网页搜索 通过网络机器人软件(Robot/crawler/spider)自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,数据更新快,查全率较高。如:Google(谷歌)等
元搜索引擎(Meta Search Engine) 又称集成搜索引擎,自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。搜索面广,信息量大,用时较短。 例如:Vivisimo、Ixquick、MetaCrawler、搜星、万纬搜索等。
二 综合型搜索引擎实例
“整合天下信息,让人人能获取,使人人都受益” 且慢,先让我 一下 “整合天下信息,让人人能获取,使人人都受益” ——Google的使命
1 的起源与发展 1994年Google 创始人、在读研究生Larry Page 和 Sergey Brin 在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,然后迅速传播给全球的信息搜索者 1998年Google公司宣告正式成立 The Google name was chosen to represent the gigantic amount of material available on the Web. “google”一词源于单词“googol”, 即10的100次幂,写出的形式为数字1后跟100个零,表示数量极大。 2006年4月12日Google将原中文名“科高”改为“谷歌”,意为“丰收之歌”
Google是目前全球最大的搜索引擎,因此有人说“Google是网络上寻找答案的终极杀手” 2 的特色 检索响应速度极快,0.5秒内应答 PageRank网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果 智能化的“手气不错”功能,直接连接到可能最符合要求的网页,节约时间 “网页快照”从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。最好用的图像搜索工具 Google Print计划和Google Scholar计划使互联网用户方便获取图书馆书目信息及学术机构的学术信息成为可能 提供中文繁简体转换、英文单词解释和网页翻译功能 Google是目前全球最大的搜索引擎,因此有人说“Google是网络上寻找答案的终极杀手”
查询过程简图
中文Google主页 http://www.google.cn
3 检索功能 (1) 网页的基本检索 进入Google主页后就自动进入基本检索界面,只有一个简单的提问框,比较直观、简单。在检索框内输入提问词后就可以直接获取检索结果。
的基本检索规则(1) 逻辑与:无需用and,空格表示,不超过10个检索词 白血病 骨髓移植; 肝肿瘤 护理; 逻辑或:OR必须大写 白血病 骨髓移植; 肝肿瘤 护理; 逻辑或:OR必须大写 非小细胞肺癌 OR 肺结核 逻辑非:用-表示,但减号之前必须留一空格。 肝炎 –动物 对大小写不敏感
的基本检索规则(2) 词组/短语检索:几乎所有检索引擎都支持词组/短语检索,而且其表达语法也都是用半角的双引号(“ ”),即如果用半角的双引号将一个词组或短语括起,系统将检索出与其完全精确匹配的检索结果。这是提高检索结果精确度的首选方法。 如“生物医学工程设备 ”
例:查找生物芯片的原理 自动出现的智能匹配下拉菜单
的检索结果格式 构建好检索提问式后回车,就进入检索结果界面,检索结果按相关程度输出,最相关的放在最前面。
中文搜索结果、显示格式以及搜索使用时间的统计 单击“类似网页”时,Google 便开始寻找与这一网页相关的网页 网页标题:第一行是查询到的网页的标题,有时会显示为网址 中文搜索结果、显示格式以及搜索使用时间的统计 标题下文本:该文本是网页摘要,搜索关键词以粗体显示。 文本大小 网址 单击“类似网页”时,Google 便开始寻找与这一网页相关的网页 网页快照: “网页快照” 解决了无效链接问题,以备在找不到原来的网页时使用
搜索结果中的不同文件类型 搜索结果1:word文档(doc格式) 搜索结果2:网页版式(html格式) 相似关键词的链接 当前页码
结果1:Word文档格式
结果2:html网页格式
(2)网页的高级检索 高级检索模式通常用填表的方式,列出众多的可限制条件,供用户构建较复杂的检索表达式,能更精确地表达用户的情报需求,返回结果的相关程度更高。
高级搜索入口
高级检索页面 相当于AND检索 相当于短语检索 相当于OR检索 相当于NOT检索 将检索结果限定在某一网站或某一域的范围,如com,gov,edu等
限定搜索的文件类型 Office文档,如.Xls(Excel文档),ppt(power point文档),doc(word文档),rtf, pdf文档等。
限定检索时间 时间的限定
限定检索词的搜索位置 结果显示格式 检索词出现在文件中的位置
例:搜索近1年来我国政府机构在SARS疫苗临床研究方面的进展情况
高级检索结果 一年内,在 gov.cn 中搜索 SARS疫苗 “临床研究” 获得大约 655 条查询结果
来自政府网站的报道
按下“手气不错”按钮将自动进入 Google 查询到的第一个网页,直接将用户指引到可能最符合要求的网页,用户将完全看不到其它的搜索结果。 (3)网页的定位检索 按下“手气不错”按钮将自动进入 Google 查询到的第一个网页,直接将用户指引到可能最符合要求的网页,用户将完全看不到其它的搜索结果。
例:通过“手气不错”按钮可以直接定位到“中山大学”的主页 Google搜索: 显示所有相关网页的网址 直接定位并显示专指网站的主页
“Google搜索”的结果 Google搜索: 显示所有相关网页的网址
“手气不错”:自动进入专指网站的主页,将完全看其它的搜索结果
(4)学术信息的检索 学术搜索—Google Scholar
通过互联网方便获取学术信息的渠道之一 信息来源:学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要等 按相关度排序,考虑全文、作者、出版物及被引情况,采取自动分析与抽取引文的方法 外文学术资源:与PubMed等数据库合作 中文学术资源:我国万方和维普两家公司已与Google合作,期刊全文数据库的信息资源可以检索
学术搜索界面的进入 点击“更多”
点击进入学术搜索
学术搜索的基本检索界面 学术搜索的基本检索界面 学术高级检索入口 搜索猪流感的血清学调查方法
检索结果 网页或文章标题 仅显示近期发表的文章 该文献多个原文链接网址 作者及文献出处 被引用次数 相关网页检索
“图书馆搜索”结果
点击可浏览全文或下载保存
“在线阅读”界面 PDF格式原文下载
学术搜索的高级检索界面
例1:查2000-2009年发表在《中华儿科杂志》上有关“手足口病”的学术论文
学术高级搜索结果
(5)图书搜索 来源: 1 与全世界知名的图书馆合作 以将其收藏的图书包括在图书搜索中 仍受版权保护的图书——只显示目录信息 不受版权保护的图书——整本阅读和下载 2 与 20,000 多个出版者和作者成为合作伙伴 指向合作图书馆和书店的链接——借阅或购买图书
图书搜索界面的进入 点击“更多”
点击进入图书搜索
图书高级搜索入口
(6)图像检索 Google共收录互联网上的图像超过几十亿张,据称是“互联网上最好用的图片搜索工具”。
图片搜索界面 迪拜 七星级酒店
阿联酋迪拜 帆船酒店
(7)Google新增功能
音 乐 搜 索 2009年3月31日正式推出 来源:华纳、索尼、百代、环球等上百家唱片公司 “这是一种新的音乐服务运作模式的实验,用户无需为正版音乐付费。在线音乐广告分成的模式让各方都找到了一个提升用户体验、尊重歌手创作、尊重版权之间的平衡。”
购 物 搜 索 2009年6月10日正式推出 Google 购物搜索不卖商品,因而不能直接从 Google 购物搜索买东西,只提供相关网页的链接指向 Google搜集商品信息的两条途径 商家通过网络主动提交的商品信息 Google 特有的爬虫程序在互联网上自动识别的购物网页
输入商品信息,结果会按照产品型号进行分类,且能看到商家价格、网络评论、产品参数等信息 首页列出了用户最近查询较多的商品,目前以手机、数码相机等消费电子产品为主
(二)其他搜索引擎 中国人自己的搜索引擎,中文搜索之王 http://www.baidu.com Internet 上最早的,也是最成功的分类目录 http://www.yahoo.cn 最主要的大型中文分类搜索引擎,也提供关键词的检索 http://www.sohu.com
(1)百度(http://www.baidu.com) 于2000年初成立,是最大的中文搜索引擎 MP3特色搜索:百度在天天更新的1亿2千万中文网页中提取MP3下载链接,建立庞大的MP3下载链接库,可用于下载英语听力资料及歌曲
百度主页(http://www.baidu.com)
(2)雅虎(中文版http://www.yahoo.cn) 它具有链接速度快、数据容量大、全部免费的特点。但是结果不按相关性高低排序。 1994年由美国斯坦福大学研制,拥有50万个网点,分成2.5万个目录。是Internet 上最早的,也是最成功的分类目录。分类检索分成14个大类,也具备关键词检索功能。 它具有链接速度快、数据容量大、全部免费的特点。但是结果不按相关性高低排序。
雅虎中文( http://www.yahoo.cn)
(3)搜狐(http://www.sohu.com) 由爱特信公司1998年2月推出的大型中文分类搜索引擎,它采用先进的人工分类技术,分18个部类,其查询方式最主要是分类查询,也提供关键词的检索;可在当前目录中查询,也可在整个站点中进行查询。结果按相关度排序。
搜狐(http://www.sohu.com)
三 专业型搜索引擎
(1)Medscape (http://www.medscape.com/) (一) 医学搜索引擎 (1)Medscape (http://www.medscape.com/) 临床医学资源网,又简称为“医景” 面向临床医师和其他医疗卫生专业人员,免费提供Medline搜索服务,可检索图像、声频、视频资料 同时拥有自己的医学出版物和数据库,包括临床管理系列、杂志全文、会议摘要和时间表、专家提问和讨论、医学词典、药物数据库等栏目
其它医学专业搜索引擎 Medical Matrix (http://www.medmatrix.org/index.asp) BIOME (http://www.intute.ac.uk) 37℃医学网—医搜 (http://www.37c.com.cn)
(二) 出行/地图查找 与百度合作 与Google合作 与图行天下合作 图吧 (http://main.mapbar.com) Mapabc (二) 出行/地图查找 与百度合作 图吧 (http://main.mapbar.com) Mapabc (http:// web.mapabc.com) 搜狗地图 (http:// map.sogou.com) 与Google合作 与图行天下合作
从广医到南校区(晓港中马路)的公交路线
四 网络信息检索小结
选用原则 1、查找中文学术信息,应首选专业的数据库(如各大中文学术期刊全文库),“Google学术搜索”检索途径比专业库少,检索功能不尽完善。 2、网络检索工具更适用于生活、出行、娱乐、新闻、自由交流等信息。 3、注意选用政府、教育机构、学术机构等权威网站的信息。
课后小论文: Google 与百度的综合对比分析 关于数字图书馆或数字出版的版权保护问题 Google print\google scholar\google数字图书馆计划的起源,内在利益机制分析 Google数字图书馆的困境与出路 如何发展国内的数字图书馆 传统出版业如何生存 著作者如何维护自身的著作权益