Presentation is loading. Please wait.

Presentation is loading. Please wait.

计算机检索基本方法 贾芳华 fhwaj@163.com fhwaj@qtech.edu.cn QQ:149552480 青岛理工大学图书馆信息部 elibrary@qtech.edu.cn 0532-85071729 青岛理工大学图书馆 2017/2/25.

Similar presentations


Presentation on theme: "计算机检索基本方法 贾芳华 fhwaj@163.com fhwaj@qtech.edu.cn QQ:149552480 青岛理工大学图书馆信息部 elibrary@qtech.edu.cn 0532-85071729 青岛理工大学图书馆 2017/2/25."— Presentation transcript:

1 计算机检索基本方法 贾芳华 fhwaj@163.com fhwaj@qtech.edu.cn QQ:149552480
青岛理工大学图书馆信息部 青岛理工大学图书馆 2017/2/25

2 第一节 计算机检索的基本概念和技术 一、计算机检索的概念:
计算机检索:就是在人和计算机的共同作用下完成的文献信息的存取操作。它是指信息用户借助于特定的计算机系统,通过科学合理的手段和途径,从其存储的大量数据信息中获取自己所需特定信息的过程。可分单机检索、联机检索和网络检索三大类。 青岛理工大学图书馆 2017/2/25

3 青岛理工大学图书馆 2017/2/25

4 单机检索——指一人一机交互作用完成的检索。
联机检索——指用户利用检索终端,通过通信网络接通中心检索系统,由中心检索系统根据用户构造的检索策略查出用户所需特定信息的过程。 网络检索——借助于开放式的网络系统完成的信息查询操作。 青岛理工大学图书馆 2017/2/25

5 网络检索本身包含了两重含义: 利用网络通道完成联机检索,是利用网络这一通道检索上网的专业性数据库和联机检索服务系统,必须遵守传统的计算机联机检索的基本规则,其实质仍属于联机检索的范畴; 网络搜索。主要指基于搜索引擎的网络信息检索。搜索引擎在网上所起的作用就像我们平常查阅科技文献时所用到的EI和SCI。 青岛理工大学图书馆 2017/2/25

6 二、计算机检索技术 常见文本检索技术包括: 布尔逻辑检索 字段检索 位置算符检索 加权检索 截词检索 短语检索等 青岛理工大学图书馆
2017/2/25

7 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。
布尔逻辑检索 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 常见的布尔逻辑算符主要有三种: 逻辑与——AND(*) 逻辑或——OR(+) 逻辑非——NOT(-) 青岛理工大学图书馆 2017/2/25

8 检出的结果中只需满足检索项中的任何一个或同时满足即可 并列关系 组配相同概念的检索词,如同义词、近义词等。扩大检索范围,提高查全率
逻辑算符 含义 表示关系 作用及表达 “与”(AND 或*) 检索出的记录必须同时含有所有的检索词 概念交叉和限定 缩小检索范围,提高查准率 A and B或A*B “或”(OR或+) 检出的结果中只需满足检索项中的任何一个或同时满足即可 并列关系 组配相同概念的检索词,如同义词、近义词等。扩大检索范围,提高查全率 A or B或A+B “非”(NOT或-) 检出的记录中只能含有NOT算符前的检索词,不能同时含有其后的检索词 概念删除关系 缩小检索范围,提高检索的专指度 A not B或A–B 青岛理工大学图书馆 2017/2/25

9 逻辑算符举例 查找关于“动物保护”的文献:
“动物”和“保护” 可以用“逻辑与”组配,表示为“动物 AND 保护”,检出记录中既涉及动物又涉及保护的相关文献。 查找有关冬虫夏草的文献: 冬虫夏草又称冬虫草、虫草 ,“冬虫夏草”、“冬虫草”、“虫草 ”三者要用逻辑或组配,表示为“冬虫夏草 or 冬虫草 or 虫草”,检索出文献中包含三者任意一种即被检出。 查找关于国外建筑特色的文章: 国外即不包括中国 ,建筑和中国之间为逻辑非的关系,表示为“建筑 not 中国”,检索结果排除了中国建筑的相关文献。 检索西红柿种植技术的相关文章: 西红柿” 又称“番茄”,表示为“西红柿+番茄”;“种植”的同义词有“栽培”、“培育”,表示为“种植+栽培+培育”;检索表达式为:(西红柿+番茄)*(种植+栽培+培育) 青岛理工大学图书馆 2017/2/25

10 项目名称:耐高温粘接剂研究 维普: (题名=高温*粘接剂) 9篇
维普: (题名=高温*粘接剂) 篇 维普: (题名=高温*(粘接剂+胶粘剂+粘合剂+粘结剂+黏合剂+胶黏剂+粘固剂+胶结剂)) 篇 青岛理工大学图书馆 2017/2/25

11 运算优先级顺序为NOT、AND、OR,可以用括号“( )”改变它们的运算顺序。
如A and (B or C),检索顺序为先B或C,然后再与A 在某数据库中,用A检索得到100条结果,用B检索得到70条结果,那么: 1.【A AND B】最多有_⑴_条结果,最少有_⑵_条结果; 2.【A OR B】最多有_⑶_条结果,最少有_⑷_条结果; 3.【A NOT B】最多有_⑸_条结果,最少有_⑹_条结果。 青岛理工大学图书馆 2017/2/25

12 是限定检索词在资源记录中出现的字段范围的一种检索方法, 例如VIP中 T=限定检索词出现在题名中 K= 限定检索词出现在关键词字段中
字段检索 是限定检索词在资源记录中出现的字段范围的一种检索方法, 例如VIP中 T=限定检索词出现在题名中 K= 限定检索词出现在关键词字段中 青岛理工大学图书馆 2017/2/25

13 字段限制检索使用方法:先键入字段代码,然后输入检索式,如“TI information W2 management”。
EBSCO中主要字段代码: 作者-AU 文章题名-TI 全文—TX 文摘-AB 关键词(作者给出)—KW 主题-SU 刊名—SO 国际统一刊号-IS 图像-FM 字段限制检索使用方法:先键入字段代码,然后输入检索式,如“TI information W2 management”。 作者的输入方式特别规定为“姓,名”格式,如“AU Wiley, Ralph”。 青岛理工大学图书馆 2017/2/25

14 位置算符检索 位置检索是通过对各个检索词在检索结果中出现的相对位置进行限定的一种检索方法。按照对各检索词之间应该满足的位置关系要求的不同,可以有多种不同类型的位置检索,例如邻近检索、同句检索、同字段检索等。 例如(CNKI中) 1、检索在摘要的一句中顺序包含“遗传学”、“农业”,并且间隔小于2个词的期刊文章。 检索式:摘要=‘遗传学 /PREV 2 农业’ 2、查找王维的一首诗,诗中包含“晚来秋、清泉石上流”,要求查找全诗及诗名。 检索式:全文='晚来秋 /SEN 2 清泉石上流' (同段,在两句之内按词序出现) 青岛理工大学图书馆 2017/2/25

15 加权检索 该法是从量的角度对检索词加以限制和表述,其侧重点不在于判定检索词或字符串与别的检索词或字符串是什么关系,而在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。它强调的是检索词之与命中文献(或课题)的相关程度和重要程度。 例如CNKI中 =‘str $ N’ 设定检索词出现的次数 青岛理工大学图书馆 2017/2/25

16 截词检索 又称部分一致检索,是在检索词的适当位置进行截断,然后使用截词符代替,利用截断的词的一部分进行检索。它利用某些检索词的词干或不完整词形加上截词符,以表达概念的完整意义进行检索。其实质是利用计算机特有的指定位对比判断功能进行检索词与索引词之间的对比匹配。可有效处理具有同一词干的检索词,名词的单复数、动词不同形式,英美不同拼写等,有助于提高查全率 青岛理工大学图书馆 2017/2/25

17 有限后截断 acid?? 可将acid, acids, acidic纳入检索范围
例如 无限后截断 physic* 可将physic, physical, physician, physicist, physicists纳入检索范围 有限后截断 acid?? 可将acid, acids, acidic纳入检索范围 前截词  *computer 将检索出 computer、 minicomputer 、 microcomputer等单词的文献。 中截断(屏蔽检索) colo?r 可将colour, color纳入检索范围 propell?nt? 可将propellant,propellants,propellent,propellents纳入检索范围 青岛理工大学图书馆 2017/2/25

18 短语检索 短语检索是使用专门的运算符号把多个检索词汇组织成特定的短语,完成检索任务。是一种固定词组检索。一般使用“”(英文半角)。例如使用“联想电脑”作为入口词,其检索效果就比使用“联想产品*电脑”好,更比使用“联想*电脑”的字面组配形式好的多。 很多通信类专业术语的缩略语中间都带有“-”符号(如B-ISDN,MPEG-2,MPEG-4,MPEG-7等),使用这些缩略语检索的时候有两种处理方法:一是用逻辑“与”(*);二是要用上下引号(“”)把词语引起来作为一个整体(短语)检索。否则检索结果就会有很大的出入。 青岛理工大学图书馆 2017/2/25

19 除以上几种主要的检索技术与方法外,文本信息还有一些辅助性的检索技术与方法: 检索结果的排序输出。 导航与浏览 检索结果的可视化
检索结果的翻译 区分大小写检索 繁简体汉字转换 中英文混合检索 青岛理工大学图书馆 2017/2/25

20 ASCE检索规则 布尔逻辑算符&位置算富 通配符 青岛理工大学图书馆 2017/2/25
scitation平台支持的布尔逻辑算符有“ AND( 与 ) ”、“ OR( 或 ) ”、“ NOT( 非 ) ” “ ACCRUE (表示前后俩个词任有一个存在,但都出现在非常重要的位置)” 。NEAR :表示两词紧挨着出现,前后位置任意; NEAR/n :表示两个词之间必须隔开 n 个词。 ORDER NEAR :表示两词以给定顺序紧挨着出现。这些布尔词不一定要用大写表示,小写也可以达到同样的效果。另外,还可使用通配符代表检索词中可变化的部分。?:单字符通配符,代表一个字符。* :多字符通配符,代表零个或若干个字符。 通配符 青岛理工大学图书馆 2017/2/25

21 Full Bibliographic Record Abstract/Title/Keywords
字段解释 字段名称 字段代码 字段含义 Full Bibliographic Record 全题录字段 Abstract/Title/Keywords 文摘 / 文献题名 / 关键词 Author au 作者 Affiliation af 作者单位 Abstract ab 文摘 Title ti 文献题名 Keywords 关键词 Section Head 章节名(包括主标题和副标题) Journal or CODEN jo 刊名或丛刊代码 PACS Code or Text PACS 代码或分类类目名 Cited Author 被引作者 Collaboration 在属于某个研究机构的作者群体中查询 此表格是对简单检索中出现的所有字段的解释。另外,Scitation 平台还支持词根检索,如果输入的检索词不带引号, Scitation 平台将检索 以输入词的词根为基础的各种派生词。如需得到完全匹配的检索结果 ,可用双引号将检索词或词组括起来实现 。 支持词根检索。 例:输入 manage ,将同时检索 manage 、 manages 、 managed 和 managing 青岛理工大学图书馆 2017/2/25

22 第二节 检索途径与检索语言 检索系统的组织方式不同,其提供的检索途径也不同。检索途径根据其入口词(或索引类型)的不同,一般可分为以下几种途径:分类途径、主题途径、著者途径(个人著者和团体著者)、引文途径、代码途径。 青岛理工大学图书馆 2017/2/25

23 常用五类检索途径 分类途径:以分类号作为检索入口词。 主题途径:以主题词作为检索入口词。 著者途径:以著者名称作为检索入口词。
引文途径:以已有的相关文献后所附参考文献(引文)为线索。 代码途径:以某些特殊的代码和符号作为检索入口词。 在上述五种检索途径中,分类途径和主题途径是检索实践中所使用的主要途径。而分类途径和主题途径是建立在相应的检索语言(分类语言和主题语言)基础上的。 青岛理工大学图书馆 2017/2/25

24 检索语言类型 检索 语言 描述文献 外表特征 篇名(书名、刊名等) 著者(个人、团体著者) 号码(标准号、专利号文献索取号)
文献类型(论文、书评) 内容特征 分类语言 主题语言 标题词 单元词 叙词 关键词 检索语言类型 青岛理工大学图书馆 2017/2/25

25 检索语言——建立和使用信息检索系统时,用来表征文献特征或课题概念的一种专门的人工语言。一般都有相应的检索语言词表。
检索语言就好比是检索用户与检索系统之间的双语种词典,是沟通二者之间的桥梁。 青岛理工大学图书馆 2017/2/25

26 检索语言类型 分类语言:等级体系分类语言(体系分类法)和综合分析分类语言(组配分类法)。
主题语言(描述语言):标题词语言、关键词语言、叙词语言和单元词语言。 代码语言:如分子式、专利号、ISBN号等。 青岛理工大学图书馆 2017/2/25

27 分类检索途径——分类语言 检索工具或检索系统是通过按某种特定的分类法组织文献信息提供分类检索途径的。按某种分类法组织的正文或分类索引提供了相应的分类检索途径。使用分类检索途径进行检索,首先必须根据待检课题内容,依据所用检索工具或检索系统所使用的分类词表进行标引,确定本课题在该分类表中的类目和类号,然后使用引得的类号(标引后的类号)通过分类索引或直接从按分类组织的正文进行检索,查出有关文献信息。 青岛理工大学图书馆 2017/2/25

28 分类法的基本原理 分类法是按一定分类原则将文献信息划分为多重层次类别,并借助于一定的参照系统反映类目之间关系的一种检索语言。它将表征文献内容特征的概念按其内在逻辑关系进行分类,对分出的类目分别赋予特定的标识(即分类号),并将这些类目系统地组织排列起来(按类号排列),从而形成一套系统、有序、完整的分类表。 青岛理工大学图书馆 2017/2/25

29 常见分类表 国内:1、中图法 1975 2、资料法 1975 3、科图法 1958 4、人大法 1953 国外:
国内:1、中图法 1975 2、资料法 1975 3、科图法 1958 4、人大法 1953 国外: 1、美国国会图书馆分类法(Library of Congress Classification—LCC) 2、国际十进分类法(Universal Decimal Classification—UDC) 3、国际专利分类法(International Patent Classification—IPC) 4、冒号分类法(印度 阮冈纳赞) 5、杜威十进分类法(美国 杜威)等等。 青岛理工大学图书馆 2017/2/25

30 《中图法》简介 1、类目结构 按科学知识本身的门类结构进行划分。分为五大类,二十二个基本大类。(见下页) 2、标记符号(分类号)
采用拼音字母与阿拉伯数字相结合的混合编码制除T大类外的其它二十一个基本大类均以一个字母(第一大类)加多位数字(二级以后类目)的形式,T大类下的二级类目 为双字母,三级以后类目在两位字母后加数字。 青岛理工大学图书馆 2017/2/25

31 《中图法》基本大类 五大部类,二十二基本大类: 马克思主义、列宁主义、毛泽东思想、邓小平理论 A马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教 ·························B 哲学、宗教 社会科学····························C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K历史、地理 自然科学····························N自然科学总论 O数理科学和化学 P天文学、地球科学 Q生物科学 R医药、卫生 S农业科学 T工业技术 U交通运输 V航空航天 X环境科学、安全科学 综合性图书··························Z综合性图书 青岛理工大学图书馆 2017/2/25

32 T 工 业 技 术 TB 一般工业技术 TD 矿业工程 TE 石油、天然气工业 TF 冶金工业 TG 金属学与金属工艺 TH 机械、仪表工业
TJ 武器工业 TK 能源与动力工程 TL 原子能技术 TM 电工技术 TN 无线电电子学、电信技术 TP 自动化技术、计算机技术 TQ 化学工业 TS 轻工业、手工业 TU 建筑科学 TV 水利工程 青岛理工大学图书馆 2017/2/25

33 中图法标记示例 例如: TU832.17 太阳能采暖系统 参见TK51 TU8(三级类目) 房屋建筑设备
青岛理工大学图书馆 2017/2/25

34 中图法标记示例 311语音 312文字 313语义、词汇、词义 .1 基本词汇 .2 同义词、多义词、反义词 .3 成语、俗语、俚语、格言
.1 基本词汇 .2 同义词、多义词、反义词 .3 成语、俗语、俚语、格言 .5 外来语 .6 略语 .9 词源 314语法 315写作、修辞 316词典 317方言 语文教学 青岛理工大学图书馆 2017/2/25

35 《中图法》组织的分类索引示例 (1)建筑物工程预算与重置成本的比较 F293.35,TU723.3
建筑物 工程预算 重置成本 房地产估价 工程决算 (2)谈国内工程预算与国际承包工程报价之异同 TU723.3,F752.68 工程预算 国际工程 报价 (3)环境工程预算审查中常见的问题及其对策 X5,F284 环境工程 预算 工程预算 审查 (4)人工智能技术在建筑工程预算中的应用 TU723.3,TP18 建筑工程预算 人工智能 框架 工程造价 (5)野生植物资源信息检索数据库的建立和使用 Q94-37,G252.7 野生植物 数据库 计算机检索 使用说明 (6)网上搜索引擎的几个理论问题 TP393,G354.4 搜索引擎 理论研究 因特网 计算机检索 (7)美国法律的电子化检索——WESTLAW简介 G354.4,G257.33 计算机检索 美国 法律文献信息 数据库 (8)建设工程预算报价技巧及经验 TU2 建设工程 工程预算 报价技巧 招投标 青岛理工大学图书馆 2017/2/25

36 国际专利分类法(IPC—International Patent Classification)
分类原则 IPC采用以功能分类与应用分类相结合,以功能分类优先的原则。 功能分类是根据发明创造成果的内在性质或功能进行分类,并在分类表中设置了相应的分类位置,称其为功能分类位置; 应用分类原则是根据发明创造成果的特殊用途或应用范围进行分类,并在分类表中设置了相应的分类位置,称其为应用分类位置。 适用于两个以上技术领域的发明创造,应优先分在功能分类的位置。 青岛理工大学图书馆 2017/2/25

37 例4:F16K 阀;龙头;旋塞;致动浮子;通风或充气装置
例1:录音机、录像机、电唱机、光盘机和磁盘机等,其共同的特点都是通过信息记录载体和传感器之间的相对运动这一功能完成的信息存储和重现,所以在IPC中,为这种信息记录和重现主题专门设置了一个类G11(信息存储),这个小类就是功能分类位置。 例2:A01M21/00 除草用喷雾,A62C31/00 灭火用喷雾,F16N7/34 润滑用喷雾。此类指定了专门(或特殊)应用领域的技术主题在IPC表中按其具体应用领域(用途)分类,设置了相应的应用分类位置。(B05一般喷射或雾化) 例3:小类B01D分离,是个功能性小类,包括各种过滤器、过滤方法;分离装置、分离方法。如蒸发、过滤、蒸馏、沉淀以及信件分拣工作等。但另有几个小类也涉及到过滤器,如:A47J31/06咖啡(或茶)过滤器,A01J11/06牛奶过滤器,D01D1/10人造丝纺织设备中用的聚合物焙化(或溶液)过滤器等应用性小类。 例4:F16K 阀;龙头;旋塞;致动浮子;通风或充气装置 F16K是一个功能分类位置,明确了以其结构或功能为特征的阀,即阀的结构既不取决于流经该阀的流体的性质,也不取决于该阀可能为其某个部件的任何系统的性质。 青岛理工大学图书馆 2017/2/25

38 IPC 分 类 号 构 成 示 例 部 B 作业;运输(由一个大写字母表示)
小类 B64C 飞机;直升飞机(由大类号加一个字母表示) 大组 B64C25/00 起落装置(由小类号加1~3位数字及斜线和00(/00)表示) 一点小组 /02 ·起落架(将主组斜线后的00改为其它1~5位数字而来) 二点小组 /08 ··非固定的,如可抛弃的 三点小组 /10 ···可收放的,可折叠的或类似的 四点小组 /18 ····操作机构 五点小组 /26 ·····操纵或锁定系统 六点小组 /30 ······应急动作的 IPC类名应结合其上位类完整表述。例如,分类号B64C25/30代表的类是指飞机或直升飞机上的起落装置用的一种非固定式的可收放的、可折叠的起落架的操纵机构应急动作的操纵或锁定系统,而不能简单地读作“应急动作的”。 青岛理工大学图书馆 2017/2/25

39 主题检索途径——主题语言 检索工具或检索系统按某种特定的主题词字顺组织文献信息,允许检索用户以表征文献主题内容的词、词组或短语作为检索入口词查找文献信息的检索途径称为主题检索途径。按某种主题词语言规则组织的正文或主题索引提供了相应的主题检索途径。使用主题检索途径进行检索,首先必须根据待检课题内容,依据所用检索工具或检索系统所使用的特定主题语言进行标引,确定能够体现课题实质性内容特征的主题词,然后使用引得的主题词利用主题索引或直接使用按主题组织的正文进行检索,查出有关文献信息。 青岛理工大学图书馆 2017/2/25

40 主题语言类型 按是否规范化:受控词(标题词、单元词、叙词);非受控词(自由词)(关键词)
按组配方式:先组式(标题词);后组式(叙词、单元词、关键词) 青岛理工大学图书馆 2017/2/25

41 标题词语言 标题词语言 1、概念 标题词——是将来自自然语言的那些比较成熟定型的事物名称,经过规范化处理而形成的用来表达文献(或课题)主题内容的词、词组或短语。 将标题词按字顺组织起来,并借助于一定的参照系统揭示词间关系而形成的词表就是标题词表。 用标题词作为索引词并按索引词字顺排列的索引称为标题词索引。 2、特点 标题词是典型的先组式检索语言,规范化程度高。用标题词编制主题索引时或构造检索策略时,应直接使用词表中的词作为索引词或检索入口词,不允许自由组配。所以,一般难以反映新兴学科(新词),在使用上缺乏灵活性。 青岛理工大学图书馆 2017/2/25

42 SHE(1987 edition) COMPUTER PROGRAMMING LANGUAGES 723
Ada (Beginning 01/86) ALOGOL BASIC COBOL EXAPT Flowcharting FORTRAN LISP ListProcessing (See also -LISP) Machine Orientation PASCAL (Beginning 01/81) PL/1 Problem Orientation Procedure Orientation 青岛理工大学图书馆 2017/2/25

43 叙词语言 叙词——是选自自然语言并经过规范化处理的能够表达文献主题或检索需求的单义词,可由标引人员对表中规定的词自行组配。其词间组配不是简单的字面解析,而是采用拆义解析和概念组配。 叙词既强调了用词的规范化,增加了标引的一致性;又赋予标引人员自由组配的权利,能够利用已有词汇方便地表达新学科、新概念,增强了标引的灵活性;同时,叙词索引强调轮排,能够提供多途径检索功能。 青岛理工大学图书馆 2017/2/25

44 AN EXAMPLE OF ENGINEERING INFORMATION THESAURUS(3 Edition)ENTRIES
Computer worms (723) DT:January 1993 UF: Computer crime-Worms* Worms (computer crime) BT: Computer crime RT: Computer viruses ……………………………… 青岛理工大学图书馆 2017/2/25

45 关键词 1、概念 关键词(Keyword)——是指从文献题目、正文或文摘中直接抽出的具有实际检索意义的语词。
关键词不需要进行规范化处理,因而也没有专门的词表。一般用一个禁用(停用)词表来控制用词。 2、特点 关键词属于典型的自由词,具有组配灵活的特点;关键词索引均采用轮排的方式,能够提供多途径检索;用词一般是直接来自原文中的自然语言词汇,因此,索引的编制比较简单方便;但标引的一致性欠佳。 青岛理工大学图书馆 2017/2/25

46 单元词 1、概念 单元词——是指从文献中抽出的并经过规范化处理的能够表达文献主题的最小、最基本的词汇单位。 2、特点
强调词间的灵活组配,能够表达任何想表达的概念;但标引的一致性比较差,容易产生误检。 青岛理工大学图书馆 2017/2/25

47 第三节:检索的一般程序和策略 一、分析用户的信息检索要求
用户信息查询的产生,是信息检索与信息检索系统存在的基础,而满足用户的信息需求,则是建立检索系统的出发点,具体说对用户信息检索需求的分析主要应该包括如下几个方面: (1)检索请求的内容特征分析 主要涉及对用户信息请求所属的学科范围与主题范围的确定,需要使用的主要概念及其相互关系以及相关名词术语的选择等。 (2)检索请求的形式特征分析 主要包括信息检索所要获取的检索结果数量的估计、所要求的文献的语种、年代、类型、有关著者机构等等 青岛理工大学图书馆 2017/2/25

48 即用户是为了什么目的而需要查询检索系统的,检索目的不同,将直接影响到后面检索策略的制定。明确课题对查新、查准和查全的指标要求。例如:
(3)明确检索目的 即用户是为了什么目的而需要查询检索系统的,检索目的不同,将直接影响到后面检索策略的制定。明确课题对查新、查准和查全的指标要求。例如: 若要了解某学科、理论、课题等最新进展和动态,则要检索最近的文献信息,强调“新” 若要解决研究中某具体问题,找出技术方案,则要求检索有针对性、能解决实际问题的文献信息,强调“准” 若要撰写综述、述评或专著等,要了解课题、事件的前因后果、历史和发展,则要检索详尽、全面、系统的文献信息,强调“全” 青岛理工大学图书馆 2017/2/25

49 检索策略的概念:当前有代表性的定义主要有如下三种:
二、制定检索方案(构造检索策略) 检索策略的概念:当前有代表性的定义主要有如下三种: (1)检索策略就是在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系和查找步骤的科学安排。(陈光祚) (2)检索策略是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。(赖茂生) (3)检索策略是反映用户检索意图的方针和计划,也是用户检索目标的体现。(郭于军) 构造一个好的检索策略,往往涉及到各方面的知识和技能,诸如:是否了解检索系统的特性与功能;是否熟悉所检数据库的标引规则及词表结构;是否掌握必要的检索方法与技术;是否了解所检课题的专业知识等等。 青岛理工大学图书馆 2017/2/25

50 1、确定检索范围:专业(内容)、年代跨度(时间)、地区(地理、语言) 2、选择检索手段:手工检索、计算机检索、国际联机检索、网络搜索等。
主要考虑检索的效率(查全、查准、速度)、课题要求和课题费用等情况 青岛理工大学图书馆 2017/2/25

51 3、选择检索系统:主要从工具或系统内容(专业性、综合性)和性能(检索效率、覆盖面、权威性、使用费等)上比较考虑
检索工具或检索系统的研制者情况; 检索工具或数据库的收录范围,通常会涉及学科主题、信息(文献)类型、使用语种、年代跨度等方面; 索引或数据库的标引处理规则及所使用的词表; 检索工具或系统提供的主要检索途径及相应功能。 青岛理工大学图书馆 2017/2/25

52 通过信息检索工具或检索系统获取所需的信息。 按所查文献的顺序,可分为顺查法、倒查法和抽查法三种。
4、选择检索方法: (1)直接检索(工具法或常用法) 通过信息检索工具或检索系统获取所需的信息。 按所查文献的顺序,可分为顺查法、倒查法和抽查法三种。 顺查法——由远而近,从问题发生的年代开始逐年往近查,适用于无综述性文献可参考时使用。查的文献较完整,查全率较高,但工作量大,效率不高。 倒查法——由近到远,重点放在近期的文献,多用于新课题,或老技术的新发展,从新情况开始查到一定的基本资料时为止。 抽查法——根据课题的特点和需要,选查发展旺盛时期的文献,可节约时间,但可能会漏检。 青岛理工大学图书馆 2017/2/25

53 (2)间接检索(追溯法、回溯法或引文法) 是从已有的文献后面所附的参考文献入手,逐一查找全文,再从这些原文后面所列的参考文献逐一追查,不断扩大检索线索,从而获得一批相关文献信息的查找方法。 (3)综合法(循环法) 结合追溯法和常用法,先利用检索系统查出一定时期内的一批有用文献,再利用这些文献后面的参考文献,追溯查出前一时期内的文献,如此循环交替的使用两种方法直到满足要求为止。 青岛理工大学图书馆 2017/2/25

54 5、选择检索途径和检索入口词: 确定在待检数据库中的检索途径 选择合适的检索词,并将之转换为系统能接受的检索标识。 青岛理工大学图书馆
2017/2/25

55 入口词的选择和扩展 数字资源的合理使用问题(VIP数据库) 字面检索 关键词=合理使用 and 关键词=数字资源 检索结果:6条
分析所获得的文章发现,数字资源的“合理使用”主要涉及“知识产权”(隐含概念)问题,而知识产权的下位概念“著作权”和“版权”显然也应该是必须关注的。 青岛理工大学图书馆 2017/2/25

56 同义词:电子资源,数字出版物,电子出版物 下位词:电子期刊、数字期刊、电子图书、数字图书 可以通过逻辑检索算符处理相关词
而数字资源的相关词还应包含: 同义词:电子资源,数字出版物,电子出版物 下位词:电子期刊、数字期刊、电子图书、数字图书 可以通过逻辑检索算符处理相关词 若以专业为检索算式表达,则为: (题名或关键词=数字资源+电子资源+电子期刊+数字期刊+电子图书+数字图书+数字出版物+电子出版物)*(题名或关键词=知识产权+合理使用+著作权+版权) 通常,使用高级检索和二次检索相结合的方式也可实现上述检索式要获得的检索结果 青岛理工大学图书馆 2017/2/25

57 青岛理工大学图书馆 2017/2/25

58 一次检索结果数 二次检索结果数 青岛理工大学图书馆 2017/2/25

59 检索途径的选择 以主题法为首选路径——选词并在不同字段组配 项目名称:污泥低温碳化装置
查新点: 污泥低温碳化温度为240~260 ℃, 碳化后的泥饼含水率为50% 左右…… 青岛理工大学图书馆 2017/2/25

60 扩展英文检索词(组)的选词视野—— ◆ 利用互联网上的“CNKI翻译助手”(http://dict.cnki.net/)
◆ 用谷歌搜索引擎寻觅词频较高的英文词组 ◆ 词表中对应的英文词汇 ◆ 全国科学技术名词审定委员会网站( ◆ 国家标准中的英文题目用词 ( ◆ 用中国专利号反查英文词 (from the database) ◆ 利用专利分类号从检出的英文专利中选词 ◆ EI等数据库中的关键词索引 ◆ 从检出的中文文献的英文文摘中选词 青岛理工大学图书馆 2017/2/25

61 根据所选词的重要性程度和相互间的逻辑关系,排定词间顺序,用系统提供的检索运算符将所选词构造成检索提问式。
6、构造检索提问式(拟定检索表达式) 根据所选词的重要性程度和相互间的逻辑关系,排定词间顺序,用系统提供的检索运算符将所选词构造成检索提问式。 常用的提问式构造策略主要有积木型、引文珠型增长、逐次分馏等。 青岛理工大学图书馆 2017/2/25

62 积木型策略能提供比较明确的检索逻辑过程,容易理解和执行,一般地,积木型策略用于比较复杂的检索课题。
积木型:把用户的检索请求或检索课题剖析称若干个不同的概念组面,先分别对这几个概念面进行试检,并在每个概念组面中尽可能多地的列举相关词、同义词、近义词,并用布尔算符“OR”连接成一个总检索公式,类似把各个积木块拼成图案。 积木型策略能提供比较明确的检索逻辑过程,容易理解和执行,一般地,积木型策略用于比较复杂的检索课题。 青岛理工大学图书馆 2017/2/25

63 市* ( 垃圾+ 废物+ 废弃物) * ( 处理+ 回收+ 再生+ 利用) 上式简练明了,所用检索词网罗度很高,也保证了较高的查准率。
检索案例: 城市垃圾综合处理。 选用维普期刊库,分别用表达概念组面的词对相关度较高的题名字段进行摸底检索,然后再逐篇浏览命中文献的题名、关键词( 需要时再浏览文摘) ,选取各相关检索词。其中,表达概念组面“城市”的相关检索词有“城市、大城市、中小城市、中等城市、北京市、上海市、天津市、重庆市……”对应概念组面“垃圾”的相关检索词有“垃圾、废物、废弃物”,对应概念组面“综合处理”的相关检索词有“处理、回收、再生、利用”。然而,我国有数百个城市,若一一罗列检索则过于繁琐。在此应利用模糊检索功能,选用单汉字“市”,指定在题名字段对表达概念组面“城市”的上述相关检索词进行搜索,由于用其他两个概念组面限定了主题范围,查准率是可以保障的。这样,检索式得以大大地简化,最终拟定检索式如下: 市* ( 垃圾+ 废物+ 废弃物) * ( 处理+ 回收+ 再生+ 利用) 上式简练明了,所用检索词网罗度很高,也保证了较高的查准率。 青岛理工大学图书馆 2017/2/25

64 引文珠形增长策略具有很强的人机交互性,可以使检索式以比较生动的方式生成并得到不断丰富、完善,改善检索效果。
引文珠形增长:从课题中抽取最专指的词( 概念组面) 开始初步检索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献或信息条目,从中选出一些新的相关检索词,补充到检索式中。这些词加入到检索式之后,就能查出其他新的命中结果,不断重复上述过程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到了数量适宜的命中结果。 引文珠形增长策略具有很强的人机交互性,可以使检索式以比较生动的方式生成并得到不断丰富、完善,改善检索效果。 青岛理工大学图书馆 2017/2/25

65 检索案例: 德国民主社会主义及其政党研究。
从概念组面“民主社会主义”入手,通过试检、浏览,找到了与该课题研究相关的主题词:民主社会主义、社会民主主义、新保守主义、新自由主义;又根据所涉及的“政党”,扩展出:社民党(社会民主党) 、民社党( 民主社会主义党) 、基民盟( 基督教民主联盟,又简称基民党) 。由此拟定的检索式如下: (民主社会主义+ 社会民主主义+ 新保守主义+ 新自由主义) * ( 社民党+ 社会民主党+ 民社党+ 民主社会主义党+ 基民盟+ 基督教民主联盟+ 基民党) * 德国 最初利用维普期刊库进行检索,但命中文献不多,这是因为该库少数社会科学类目的文献收录不全造成的。因此再采用清华期刊库进行检索,该数据库收录的文献量大、年限较长,基本字段以词索引为主,其全文检索功能很有特色,在其他检索途径命中量很少时使用,可有效地提高查全率。在清华期刊库的“专业检索”界面,参照上述检索式进行全文搜索,可取得较为理想的查全效果。 青岛理工大学图书馆 2017/2/25

66 逐次分馏(交互扫描式策略):先进行笼统的搜索,确定一个相当大的、范围较广的检索初始对象集合,然后找出课题的关键特征( 如技术方法、专业术语、作者等),提高检索的专指度,得到一个较小的命中结果集合;继续提高检索式的专指度,一步一步缩小命中结果集合,直到得到数量适宜、用户满意的结果。 逐次分馏策略的特点使检索操作比较主动,漏检较少。此方法虽然比其他检索策略要花费更多的时间,但对普通信息需求者和不熟悉专业课题的检索人员提高查全率十分有效。 青岛理工大学图书馆 2017/2/25

67 检索案例: 中国历年来社会保障制度研究综述
由于维普期刊库有正规的主题标引,其单汉字索引方式,实现了先进的模糊检索功能,选用它来实施交互扫描式策略比较方便。首先明确综述是针对某专题进行综合叙述的科学文体,另外与之相关的,在综述的基础上加以评论的研究报告叫做述评,也称评述。再根据课题名称,粗略地用检索式“中国* 社会保障制度* 研究”进行摸底性搜索,发现命中的文献不多; 浏览相关记录后,用“社会保障”取代“社会保障制度”,以减少限制条件,其命中量大幅增长; 再舍去“研究”一词,查全率明显提高。 在检索中对于一些不能明确表达主题内容、没有检索意义的泛指概念( 如研究、方法、作用等) ,一般不宜使用。通过初步摸底后再进行主题分析,确定了3个主要的概念组面“中国”、“社会保障”、“综述”; 经过多次“交互扫描”后的浏览、分析、选择,尽可能全面地选取表达各概念组面的相关检索词; 然后确定最终的检索式,便可以进行正式检索了。 青岛理工大学图书馆 2017/2/25

68 1) 如要确保查准率,便限定在题名字段检索,其检索式如下:
由于查全率和查准率之间存在着一种“互逆”关系,因此高查全率和高查准率难以同时获得; 在检索时,应该根据实际需要,对检索结果的查全率或查准率有所侧重。 1) 如要确保查准率,便限定在题名字段检索,其检索式如下: (中国+ 我国+ 国内+ 全国) * (社会保障+ 社保)* (综述+ 述评+ 评述) 2) 若要提高查全率,首先可以考虑去掉“中国”这个概念组面( 在国内数据库检索时,可以省略) ,增加命中量; 另外指定在“题名或关键词”字段搜索,以扩大查找范围。故使用下列检索式: (社会保障+ 社保) * (综述+ 述评+ 评述) 有些仅从题名无法识别的综述、述评文献,因维普期刊库二次加工标引的关键词“综述”、“述评”可被检索到。通过进一步浏览,分析命中文献,发现与“社会保障”相关的词语还有“社会福利”、“社会救助”、“社会保险”、“社会养老”,等等,因此再增补检索式如下: 社会* ( 福利+ 救助+ 保险+ 养老+ 就业) * ( 综述+ 述评+ 评述) 最终获得理想的查全效果。 青岛理工大学图书馆 2017/2/25

69 7、编排具体的检索程序 如果是同时结合使用多种检索手段:则应确定各种手段的先后;
如果选用了多种工具或系统:则应确定使用各种工具的先后(一般按相关程度安排先后); 如果准备了多个检索提问式,则应排出使用的先后顺序。 青岛理工大学图书馆 2017/2/25

70 8、检索式的反馈调整 试检并初步浏览检索结果 使用合适的相关反馈调整方法,对检索结果进行优化 “变”是检索策略的永恒主题
一个令人满意的检索工作基本都是在 “检索 阅读 策略调整 再检索……” 的过程中不断调整和完善的 青岛理工大学图书馆 2017/2/25

71 获得了比较满意的结果后,要进行结果的整理,包括输出格式、显示顺序、去重、全文下载等。
三、正式检索 输入检索词或检索式 四、获取并整理检索结果 获得了比较满意的结果后,要进行结果的整理,包括输出格式、显示顺序、去重、全文下载等。 青岛理工大学图书馆 2017/2/25

72 最后环节是对本次检索进行分析和评价,主要包括:
五、分析评价检索操作与检索结果 最后环节是对本次检索进行分析和评价,主要包括: 检索结果分析 检索系统功能的评价和认识 检索操作中存在的主要问题等。 一般在对检索操作和检索结果进行分析和评价时,需要涉及并使用到很多指标,最为常用和重要的两个检索效果评价指标就时查全率和查准率。 青岛理工大学图书馆 2017/2/25

73 计算机检索的步骤 课题分析 选择检索系统 确定检索途径和检索方法 确定检索词 制定检索策略,编制检索式 实施检索、分析检索结果、索取原文
调整检索式,优化策略 青岛理工大学图书馆 2017/2/25

74 检索案例1 课题:一种海水淡化的方法及装置 一、内容要点: 本方法采用精馏法,尤其是减压精馏法来除盐。其主要特征:
在脱盐器(精馏塔)内有分离介质,如填料或分离塔板等; 有明确的精馏段、提馏段; 塔顶有回流控制装置。 青岛理工大学图书馆 2017/2/25

75 二、选用的检索数据库 中文科技期刊数据库 中国学术期刊全文数据库 中国优秀学术论文数据库 中国学位论文全文数据库 EBSCO
Springer 青岛理工大学图书馆 2017/2/25

76 三、选用的检索词及检索策略 中文词: 海水? 脱盐 淡化? 海水脱盐 海水淡化? 外文词
sea water(seawater海水);desal?(desalinate、desalt、desalinize,etc脱盐);distill?(蒸馏);rectif?(精馏);fractionat?(分馏);reflux(回流);backflow(回流、逆流) 青岛理工大学图书馆 2017/2/25

77 4、( sea water or seawater ) and desal?
中文数据库 1、海水?and (脱盐?or 淡化?) 2、海水脱盐?or海水淡化? 3、#1 or #2 外文数据库 4、( sea water or seawater ) and desal? and (distill? or rectif? or fractionat? or reflux or backflow) 青岛理工大学图书馆 2017/2/25

78 利用搜索引擎查询关于“小细胞肺癌放射治疗”的PPT资料 小细胞肺癌的同义词:SCLC 百度:
搜索引擎检索案例 利用搜索引擎查询关于“小细胞肺癌放射治疗”的PPT资料 小细胞肺癌的同义词:SCLC 百度: filetype:ppt ("小细胞肺癌" | " SCLC ") GOOGLE: "小细胞肺癌" OR "SCLC" filetype:ppt 青岛理工大学图书馆 2017/2/25


Download ppt "计算机检索基本方法 贾芳华 fhwaj@163.com fhwaj@qtech.edu.cn QQ:149552480 青岛理工大学图书馆信息部 elibrary@qtech.edu.cn 0532-85071729 青岛理工大学图书馆 2017/2/25."

Similar presentations


Ads by Google