Presentation is loading. Please wait.

Presentation is loading. Please wait.

检索策略的构建方法及技巧 贵州省科学技术情报研究所 徐路 2013年7月.

Similar presentations


Presentation on theme: "检索策略的构建方法及技巧 贵州省科学技术情报研究所 徐路 2013年7月."— Presentation transcript:

1 检索策略的构建方法及技巧 贵州省科学技术情报研究所 徐路 2013年7月

2 检索策略的构建方法及技巧 一、文献检索策略研究的国内外现状 二、文献检索策略概述 三、各种检索系统功能和数据库质量 四、检索策略制定步骤
目录 一、文献检索策略研究的国内外现状 二、文献检索策略概述 三、各种检索系统功能和数据库质量 四、检索策略制定步骤 五、分析课题,明确检索要求 六、概念分析及检索词取词技巧加举例 七、检索提问式的编写 八、检索策略的优化

3 文献检索策略研究的国内外现状 国外对检索策略的研究较多 ,从中小学就开始普及信息检索知识,并不时地举办以构建最佳检索策略为目标的计算机信息检索竞赛 国内的信息检索策略研究却是很薄弱的环节, 目前国内有关检索策略研究的论文存在着二个偏向:一是名不副实,一些所谓探讨检索策略的文章,却只是对数据库系统检索功能的一般性介绍,并不论述检索策略构建的相关内容;二是纸上谈兵,检索原理、规则面面俱到,却很少不涉及实际的检索方法、技巧和案例,可操作性不强。

4 文献检索策略概述 (一)检索策略定义 (二)常用的检索策略类型

5 (一)检索策略定义 广义的检索策略 ▼指为实现检索目标而制定的全盘计划和方案
▼具体而言,就是在明确检索目的、分析课题特征的基础上,选择合适的数据库和检索系统,拟定检索方案、确定检索词,构建检索提问式,执行检索并调整检索式,直至获得较满意的检索结果的全过程。

6 (一)检索策略定义 狭义的检索策略 ▼特指检索过程中构建检索式的环节 ▼包含检索式的确定,运算符的选择,检索字段的设定及限制选项的设置等

7 (二)常用的检索策略类型 积木型 把检索课题剖析成若干个不同的概念面,逐个查找各个概念面;在每个概念面检索时尽可能地列举同义词、近义词和相关词,用“OR”连接,构成针对每个概念面的检索式,即多个子检索式;最后根据课题要求,选用合适的布尔逻辑算符把所有子检索式连接起来,构成一个总的检索式。 这种策略类似于把各个积木块拼成完整的图案,因此称为积木型检索策略。

8 (二)常用的检索策略类型 逐次逼近型 先用一个较宽泛的检索式,确定一个范围较广的命中文献初始集;
然后逐步用各种检索限制或限定措施,逐渐提高检索式的专指度,缩小命中文献集,直到得到最接近课题主题、数量适宜的文献集为止。 这种策略有利于平衡检索的全面性和准确性,能较好地掌握检索限制和限定的尺度,可取得相当好的检索效果。

9 (二)常用的检索策略类型 最专指面优先 首先从课题中最专指的一个概念面入手检索,得到初步结果后再决定是否要加入其它概念面。
这些其它概念面只有在要提高查准率时才要输入,各概念面在检索式中是逻辑“与”的关系。如果觉得命中文献太少,通常不需要再加入其它概念面在检索式中。 这种检索策略比较灵活,检索用时相对较少。

10 各种检索系统功能和数据库质量 维普数据库 中国知网 万方数据库 国家图文中心 中华人民共和国国家知识产权局专利查询系统 DIALOG检索系统

11 重庆维普中文科技期刊全文数据库 优点:收录的每一篇文献进行正规的主题标引,从而有效地保证了数据库质量,它的基本检索字段采用单汉字索引,实现了先进的模糊检索功能,可达到很高的网罗度和专指度。可在一个检索框中输入整个逻辑检索式,达到一次性检索的目的,节省许多时间和中间环节。 缺点:由于版权的问题,近几年有部分文献如中华医学会的医学文献得不到收录,文献总量不如从前。

12 中国知网数据库系统 http://www.cnki.net/
优点:是目前中文文献量最大的数据库。涉及全国传统出版物与非出版物、音像电子出版物资源的数字化建设; 检索框界面完善,可根据作者、单位、主题、题名、全文、关键词、分类号等不同要求调整不同的检索策略。灵活方便。 检索功能种类多,便于进行各种文献分析。如有专业检索、引文检索、学者检索、科研基金检索、文献出版来源检索等。 缺点:全文索取要密码、收费。

13 万方数据库系统 http://192.168.3.102/ 优点:作为必查的数据库之一,能起到文献的补充作用。能查到全文。
缺点:不可进行组配的检索式的一站式检索;自动切分词语检索,检索词的模糊性太强,有时会跳出不相干的文献,增加筛选难度。即检索“噪音”高、文献筛选量大。 如查“卷接机 *切割装置” 会出现卷烟机切割装置、或切割支撑装置

14 国家科技图书文献中心 优点:文献种类相对较多,有中文库、西文库、国内外专利、标准等;西文库有翻译,且有两种翻译结果,外文查起来比较轻松。 缺点:外文文献量不足。必须借助其它国外数据库如DIALOG系统或其它国外专业数据库,才能保证外文资料的查全率。

15 中国专利数据库检索系统 http://www.sipo.gov.cn/
优点:是目前国内专利最全的专利数据库;可通过申请(专利)号、名称、文摘、申请日、发明人、申请人、分类号、代理人等多途经入口进行检索。 缺点:由于是网上检索,受制于网速的关系,提取专利说明书较困难、速度较慢。

16 DIALOG检索系统 优点:美国DIALOG系统是世界上最早和最大的专业情报检索系统 ,拥有近700个联机数据库都是质量很高、权威的数据库 。文献量最全的检索系统。 缺点:检索方式难、步骤多,需专业培训; 收费昂贵。

17 检索策略制定步骤 ↓ 选择合适的检索数据库(系统) 课题主题分析,确定表达概念的检索词; 拟定符合所选检索系统或数据库规定的检索表达式 检索
分析课题,明确检索要求—————————— 选择合适的检索数据库(系统) 课题主题分析,确定表达概念的检索词; 拟定符合所选检索系统或数据库规定的检索表达式 检索 浏览检出文献,判断结果是否满意——修正检索策略 分析结果,查找原文

18 分析课题,明确检索要求 与用户进行有效的沟通,全面了解检索的主题内容;
认真阅读提供的查新合同书、项目申报书、用户发表的相关论文及用户掌握的参考文献; 提炼自己所学的专业知识、背景知识和平时积累的工作经验。

19 分析主题内容,确定检索概念 对检索的主题内容进行全面、深入、准确的分 析,找出内容实质; 从析出的主题中提炼出若干个表达实质内容且
具有检索意义的检索概念(主题概念); 找出核心概念和隐含的重要概念,将抽象主题 转化为具体概念,归并重复概念,排除无关概 念和次要概念; 明确各概念之间的逻辑关系,使分析的主题概 念能准确反映检索的需要。

20 分析主题内容,确定检索概念 明确检索要求:检索的主题内容,如某一 技术、某一理论、某一方法工艺,等等。 在查新中主要指项目的科学技术要点和查
新点。 此外,还应了解与项目有关的其他内容,如专 业背景知识(国内外情况、常用的方法、研究 进展、发展方向等),用户掌握的参考文献及 已发表的文献等。

21 分析主题内容,确定检索概念 注意: 过多过严的概念组配,很可能导致大量相关文 献的漏检,甚至出现检索结果为零的情况;
主题分析不充分,漏掉一些较为重要的概念, 或将无关紧要的内容分析为主题,导致漏检和 误检; 主题分析错误,析出的主题与检索的实质性内 容不符,造成漏检和误检。

22 概念分析及检索词取词技巧 (一)不能只从题名里取检索词,要多途径分析检索概念
(二)注意检索词的同义词、近义词、可替代词、学名、别名、俗名、商品名及简缩写等 (三)词义概念最小化 (四)放弃没有检索意义的词 (五)不要忽略缩略语、元素符号及简单化合物分子式的选用 (六)可提取公因式 (七)可用成熟商品名、药名、或形容词等 (八)注意英文检索词的不同拼写法

23 (一)多途经获取检索概念 参考用户提供的检索词; 从用户课题的技术要点中获取; 从课题的项目申报书中获取; 从课题组人发表的论文中获取;
从课题组人的专利发明中获取; 通过试检,从相关文献中获取; 从专业词典、手册、分类表等工具书中获取; 咨询相关的专家。

24 (一)多途经获取检索概念 康妇炎胶囊及中药灌肠治疗盆腔炎性疾病的疗效评估 :
慢性盆腔炎包括慢性子宫内膜炎、慢性输卵管炎、输卵管积水、输卵管卵巢炎及输卵管卵巢囊肿,慢性盆腔结缔组织炎。 康妇炎*(盆腔炎+子宫内膜炎+输卵管炎+卵巢炎+卵巢囊肿+盆腔结缔组织炎)

25 (一)多途经获取检索概念 国外查新课题:“酱香型白酒中非法添加甜味剂同时检测 的技术研究及应用” 酒 甜味剂 ↓ ↓
酒 甜味剂 ↓ ↓ Liquor Synthetic sweeteners 人造甜味剂 wine Sodium cyclamate甜蜜素 distilled spirit Sodium Saccharin糖精钠 Aspartame阿斯巴甜 Neotame纽甜 Sucralose三氯蔗糖

26 (一)多途经获取检索概念 查新课题“流水线物料流量连续稳定控制的研究 ” 物料 流量 控制 ↓ ↓ ↓ 供料 计量 自动调节
物料 流量 控制 ↓ ↓ ↓ 供料 计量 自动调节 香料 电子秤 稳定调节 配制系统

27 (二)注意检索词的同义词、近义词等 查新课题“PASSIM接装机水松纸卷曲器的设计开发” 卷曲器 卷曲机 曲卷器 拉毛器

28 (二)注意检索词的同义词、近义词等 查新课题“切丝机砂轮往复机构润滑及密封结构研究” 切丝机 砂轮往复机 密封装置 润滑 ↓ ↓
切丝机 砂轮往复机 密封装置 润滑 ↓ ↓ 磨削系统 密封结构 密封系统 端盖密封 螺纹连接 U型槽密封

29 (三)词义概念最小化 举例: 查新课题——云计算平台上海量医学图像的数据管理和数据挖掘技术研究 医学图像 ︱ 医学 图像 (概念最小化)
医学 图像 (概念最小化) ︱ ︱ 医学+X片+CT+核磁共振+MRI 图片+图像+影像+成像 (同义词等) 如:信息系统=信息+系统;突发公共卫生事件=突发*公共卫生*事件; 预警指标体系=预警*指标*体系; 数字化板式探测器=数字化*板式*探测器

30 (四)放弃没有检索意义的词 注意不能使用的检索词: 使用各学科在国际上通用的、文献中出现过 的术语,尽量避免选用冷僻词、自选词、自
编自造的词,或一些专业性极强的罕见词; 注重专用词的选择,避免选用过分宽泛的词, 如工艺、研究、技术、开发、方法、研制、问题等; 不能用不确定性词如迷你型、袖珍型、便携式等。

31 (五)注意缩略语、元素符号及简单化合物分子式的选用
举例:查新课题——全集成一体化磷化工生产运营信息系统平台 磷化工包含:磷复肥+磷精细化工+磷煤化工+磷酸生产+磷肥+磷酸一铵+磷酸二氢铵+磷酸二铵,其中 磷酸一铵:分子式- NH4H2PO4;缩略语MAP 磷酸二铵:分子式-(NH4)2HPO4;缩略语DAP 例:断层摄影=CT;核磁共振=MRI

32 (六)可提取公因式 当列出多个相同概念词中都有一个相同词的时候,就可用提取公因式的方法,只将这个词作检索词,其它的词可省略不用:
如白酒、葡萄酒、清酒、药酒、保健酒、红酒等中提出“酒”; “十二指肠、小肠、回肠、结肠、大肠、直肠中提“肠”; 在心脏病、冠心病、心绞痛、心血管病中提“心”等。

33 (七)可用成熟商品名、药名、或形容词等 可适当使用成熟、固定和常用的形容词作为检索词。如: 商品名:老干妈、舒利迭、茅台酒等
药名:六味地黄丸、妇科再造丸、康妇炎胶囊等 形容词:用于白酒的酱香型、醇香型等 病名:SARS、禽流感、 Ilizarov=伊利扎诺夫等

34 (八)注意英文检索词的不同拼写法 aluminium aluminum analyse analyze colour color
在国外检索中有个很重要的问题,同一个概念单词不同国家如英美有不同的拼写方法。如英美不同拼写方式: aluminium aluminum analyse analyze colour color fibre fiber mould mold sulphate sulfate tyre tire

35 (八)注意英文检索词的不同拼写法 有些词有合体与分离两种书写形式: anticounterfeit anti-counterfeit
database data base online on-line waterproofing water-proofing wastewate waste water … … 选取英文检索词时都要考虑到。

36 (八)注意英文检索词的不同拼写法 国外查新课题“微流体系统中熵势与细胞相互作用研究 ” 微流体系统 熵势 ↓ ↓
微流体系统 熵势 ↓ ↓ Microfluidic System Entropic micro-fluidic system Entropy compression micro- * nanofluidic systems

37 检索提问式的编写 检索式是检索策略的具体体现,是指计算 机检索中用来表达用户检索提问的逻辑表 达式,通常由检索词和各种逻辑算符、截
词符、位置算符以及系统规定的其他连接 符号等构成。

38 检索提问式的编写 恰当使用截词:使用截词检索各种词尾变化的词 “?” 使用位置算符指定词组或词间的位置关系:
“与”:“and”=“*”、“或”:“or”=“+”、“非”:“not”=“-” 正确使用各种位置算符(w)、(nw)等; 字段检索时,前缀与后缀代码的限定使用; 注意逻辑算符与位置算符的先后运算顺序,注意 括号的使用。 注意:上述技术的使用要符合所选检索系统或数据库的规定。

39 随时调整检索策略 检索后,通过查看文献结果数量的多少或相关程度 的高低,可以评价检索策略的好坏。通常情况下,
为了达到或接近满意的检索效果,采用各种调节方 法和反馈途径对检索策略进行修改、完善,是不可 避免的。在实际检索中,当放宽检索条件以提高查 全率时,就会降低查准率;反之,当缩小检索范围 以提高查准率时,就会降低查全率。因此要正确分 析误检、漏检的原因,及时调整检索策略。

40 检索策略的优化 建立了全面完整的检索式,若使用不当,也不能达到最佳检索效果。这里面的学问很大,集中了大量的经验在里面,不是一两句话就能涵盖的。必须视情况灵活地调整检索方式的使用范围,才能起到检索策略的优化。

41 检索策略优化方法 (一)扩大命中文献量的方法 增加同义词、相关词,用“or”、“或”连接; 降低检索词的专指度,选用上位词或其他相关 词;
减少逻辑“与”、“AND”的运算; 去掉次要或太专指的检索概念; 调整位置算符,由紧变松; 选择“模糊”检索。 如:信息系统=信息*系统;卷烟机=卷烟*机;误诊率=误诊率+误诊

42 检索策略优化方法 (一)扩大命中文献量的方法 去除某些字段限制,或去除文献类型、年份、 语种等文献外部特征的限定等。
增加检索途径,将主题检索与分类检索等多途径结 合起来;采用全字段检索。 合理使用截词技术,检索所有相同词干的词。 核实拼写。 选择多个其他相关数据库。

43 检索策略优化方法 (一)扩大命中文献量的方法 任意字段检索: 在检索结果为零或较少的情况下使用任意字段检索。根据数据库的特点,任意字段检索是包含了篇名、关键词、作者所在机构、文摘和刊名等内容在内的范围检索,是查全率最高的检索形式。 全文检索:如需要查找和比较产品生产率、温度、气压强度、零部件尺寸大小等具体指标时,只有通过全文检索才能找到,因为这些指标一般不在题名、关键词甚至文摘中体现。万方数据库有这个功能。

44 检索策略优化方法 (二)缩小命中文献量的方法 提高检索式的专指度,选用下位词和专指度较强的检索词;
加入逻辑算符“与”、“+”、“AND”,增加检索概念; 将检索式中的逻辑算符AND改为较宽松的位置算符;或调整位置算符,由松变紧; 选择“精确”检索方式。 如:信息系统=信息系统;误诊率=误诊率

45 检索策略优化方法 (二)缩小命中文献量的方法 使用字段限定,将检索词限制在某个或某些主 题字段中检索,如题目字段、关键词字段等;
增加文献类型、年份、语种等文献外部特征的 限定; 因使用截词导致过多词干相同、但词义完全不 同的词被检出,调整截词的部位或截词方式; 或取消截词,将各检索词一一完整输入。

46 结束语 综 上 所 述,检索策略的构建方法和技巧是多样化的,不能一概而论,要具体情况具体分析。只要不断总结经验就拟出最佳检索策略、提高检索质量、才能达到满意的目的。

47 谢谢大家!


Download ppt "检索策略的构建方法及技巧 贵州省科学技术情报研究所 徐路 2013年7月."

Similar presentations


Ads by Google