计算机检索的原理与 步骤 主讲人:董宁
介绍内容: 计算机检索概念和发展历程 计算机检索的基本概念 计算机检索的基本技术 计算机检索步骤 计算机检索的发展趋势
1.0 计算机检索概念和发展历程 1.1 计算机检索概念 计算机检索:是通过计算机(单机、网络)可以查找、利用各种信息资源。 1.0 计算机检索概念和发展历程 1.1 计算机检索概念 计算机检索:是通过计算机(单机、网络)可以查找、利用各种信息资源。 包括图书馆的公共书目(OPAC--Online Public Access Catalogue)、各种联机数据库、Internet上的信息资源等。
1.2 计算机检索的发展历程 脱机检索 联机检索 国际联机检索 单机光盘检索 光盘网络检索 Web信息资源检索
1.脱机检索(50年代末~60年代中期 ) 这时是计算机检索的原始时期。 只能进行简单的检索。 为满足专业检索人员定期批量处理用户的情报要求。 用户不能立刻获得检索结果。
2.联机检索(60年代末~70年代初) 1963年-1964年间,美国洛克希德导弹与宇航公司的情报实验室建立了”人-机“对话的联机情报检索系统(DIALOG的前身),此后在60年代末到70年代初联机检索系统得以快速发展。国际著名的DIALOG系统、ORBIT系统、MEDLINE系统都是从这个时期发展起来的。 用户可随时浏览检索结果 由于这个阶段的计算机网络主要是通过电话线联接,因而联机检索受到地区的限制
3.国际联机检索(70年代中期-) 卫星通讯技术的出现,使得联机检索系统打破了地域限制。而数据库生产的迅速发展及微机大量的涌现,更使得国际联机检索蓬勃发展。 联机检索系统进入发展的黄金时期。实现了人类情报资源的共享。
4.单机光盘检索(80年代--) CD-ROM技术促使计算机检索成本迅速下降 (一张光盘可存贮600〔MB〕兆字节机读数据、成本价格便宜,而一张DVD光盘的容量最少可达4.7G) 5.光盘网络检索(90年代-) 光盘网络是一种计算机网络,如图书馆局域网 实现多用户光盘资源共享
6. Web信息资源检索(90年代末-) 进入90年代后,随着网络技术的发展,尤其是互联网的迅猛发展,使计算机检索进入一个崭新的时期。 检索方法更简单,检索结果更全面
2.0 计算机检索的基本概念 2.1 信息检索 广义:信息检索是将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.0 计算机检索的基本概念 2.1 信息检索 广义:信息检索是将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 狭义:仅是指从信息集合中找出所需信息的过程。相当于人们所说的信息查询。 分类:根据检索手段的不同,信息检索可分为手工检索、光盘检索、联机检索和网络检索。
2.2 检索方法 检索方法(检索策略)是指根据现有的检索工具,能够省时、省力获取最佳检索效果而采用的检索顺序和途径。 包括:直接法、追溯法、综合法
2.2.1 直接法(常用法) 直接法是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。 顺查法 顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。 例,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。
倒查法 倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。 2.2.2 追溯法(引文法) 追溯法是指利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大信息来源的方法。 像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。
2.2.3 综合法 综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。 综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。
2.3检索数据库 2.3.1 概念 数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源。
2.3.2 分类 根据载体的不同,数据库可分为:联机数据库、光盘数据库、网络数据库 根据数据库的内容与功能不同,数据可划分为: ⑴全文数据库(full text database) 是存储文献全文或其中的主要部分的数据库。 ⑵书目数据库(bibliographic database) 是以文档的形式组织起来的、提供书目信息的数据库,包括各种目录、文摘与索引数据库。
(3)图像数据库(image database) 提供人们存储和检索图像及其文字说明资料的一种源数据库。 (4)交易(执行)数据库(transactional database) 是指各种用于交易的数据库,如股票、房地产交易数据库、中国科技成果交易数据库。 (5)专利、标准、会议录数据库
3.0 计算机检索的基本技术 3.1 布尔逻辑检索(boolean logic) 3.0 计算机检索的基本技术 3.1 布尔逻辑检索(boolean logic) 是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。 逻辑运算符有三种:与(AND)、或(OR)、非(NOT) 逻辑运算符的优先顺序为NOT、AND、OR 如果要改变运算顺序需要用“()” A AND (B OR C)
3.2 邻近检索 又称位置运算检索。适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。 常用位置运算符有(w)、(n)、(s)、(f) (W)算符中的W含义为“With”。 •词序不许颠倒 •两词之间不许插词,只允许出现空格或连字符号 例: solar ( w) energy 检出 solar energy
(N)算符中的N含义为“Near” •词序可以颠倒 •两词之间不许插词,只允许出现空格或连字符号 例:cross (N) section 可检出 cross section 和 section cross (S)算符中的S含义为“Sentence” •两词必须出现在同一句子(子字段)中
(F)算符中的F含义为“Field” •两词必须出现在同一字段中 •词序不限 例如: pollution (F) control 可检出control and management of industrial pollution 等等。
3.3 截词检索 截词检索就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化。 截词有前方一致、后方一致和中间截词几种形式。 例: 前方一致:cat?,可检索出cat,cats,catalog,category… 后方一致: ?ther,可检索出mother,father 中间截词,只替代一个字符,允许检索词中间有若干变化。例如wom?n,检索到woman、women
3.4 字段限制检索 (field limiting) 字段限定也是调整检索策略的一种重要手段。 字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索的查准率。
常有的字段: 篇(题)名字段 TI=Title 文摘字段 AB=Abstract 叙词字段 DE=Descriptor 自由词字段 ID=Identified 著者字段 AU=Author 著者机构字段 CS=Corporate Source 刊名字段 JN=Journal 出版年字段 PY=publication Year 文献类型字段 DT=Document Type 语种字段 LA=Language 分类号字段 CC=Classification
用于改变运算的先后次序,括号内的运算优先进行。 例: 3.5 括号检索 (phrase search) 用于改变运算的先后次序,括号内的运算优先进行。 例: A AND (B OR C)
4.0 计算机检索步骤 确定检索目标 选择数据库 制定检索策略 上机检索 整理检索结果并对检索效率进行评价
确定检索目标 1.明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。 2.课题分析 对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确概念之间相互的逻辑关系。
选择数据库 根据检索目标分析所确定的检索目的、涉及的学科范围和信息类型,选择合适的数据库。 具体选择过程中还应考虑数据库的类型(参考、全文还是电子期刊)、内容(专利、标准、会议)、收录的数据学科范围、数据库的更新周期,收录文献的语种等因素。 例如,要看全文就要选用全文数据库或电子期刊;要查标准或专利就要选择标准库或专利库
制定检索策略 考虑运用顺查法,倒查法,追溯法,还是综合法 上机检索 (1)输出篇数过多时 此时多数是由误检造成的,原因主要有以下几点: 1)没有对检索词进行限制。包括字段限制,时间限制,分类限制等。 2)主题概念不够具体或具有多义性导致误检。例如,仅使用mathematics进行检索结果很多,将概念具体化。
如:mathematics and economic 再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织) 3) 对所选的检索词截词截得过短。例如, 使用math? 将有太多的检索结果。
(2)输出篇数过少时 此时多数是由漏检造成的,原因可能有以下几点: 1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词。 例如,没有使用学名“马铃薯”而使用了俗名“土豆” 又如,没有使用“表面活性济”而使用了商品名称“迪恩普”,都会造成漏检。 2)同义词没有充分考虑。 例如,“检索物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。
5.0 计算机检索的发展趋势 可视化 相对于纯文本,图像的表达方式生动、形象,从多角度揭示主题。 简单化 多样化 (1)提供多媒体检索功能 5.0 计算机检索的发展趋势 可视化 相对于纯文本,图像的表达方式生动、形象,从多角度揭示主题。 简单化 多样化 (1)提供多媒体检索功能 (2)多语种检索 (3)服务多元化
个性化 例:Google在”My Preference”中根据用户个人偏好对检索用语种、网站语种进行设置,还可将检索范围限制在商业网站、教育网站、政府网站等域名中。 商业化 网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务。网络检索系统已成为新的投资热点。