文献检索(信息检索) 第四章 计算机信息检索技术 G252.7/160=2
计算机信息检索技术的概念 它是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术。 各种信息检索技术通过不同的检索点、检索词、检索算符等表达出来。
第四章 计算机信息检索技术 第一节 计算机信息检索技术的发展 第二节 计算机信息检索的步骤和策略调整方法 第三节 检索方式 第四章 计算机信息检索技术 第一节 计算机信息检索技术的发展 第二节 计算机信息检索的步骤和策略调整方法 第三节 检索方式 第四节 检索点、检索词和检索方法 第五节 检索算符 第六节 构造检索式 第七节 检索功能 第八节 检索效果评价
第一节 计算机信息检索技术的发展 一、计算机信息检索技术的发展历史 1.脱机批处理检索阶段(20世纪50年代中期-60年代中后期) 当时,计算机硬件发展很快,但还没有连接通信网,也没有远程终端装置,不能提供问答服务的检索方式,只能进行现刊文献的定题检索和过期文献的追溯检索,同时利用计算机编辑出版检索性刊物。所谓脱机批处理方式,是指定期由专职检索人员把许多用户课题汇总、批量处理提问要求并把结果提供给用户。但缺乏与用户的交互过程,检索结果获得不及时以及信息需求和检索结果存在一定的误差等
2.联机检索阶段(20世纪70年代) 20世纪70年代计算机分时系统的出现,通信技术的改进,使得许多终端、远距离两地信息的技术得以推广,计算机信息检索技术从脱机阶段进入联机信息检索阶段。所谓联机检索,就是用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。虽然联机检索无需委托,直接面向最终用户,在检索过程中是“人机对话”有很强的交互功能,而能能及进取得检索结果,但检索指令复杂需要依赖专业检索人员,且检索费用昂贵,一般用户难以承受。 许多著名的联机检索系统有:DIALOG、MEDLINE
3.光盘检索阶段(20世纪80年代) 光盘是20世纪80年在计算机技术、激光技术等现代科技成果的基础上发展起来的新型电子出版物,检索费用大大低于联机检索,利用光盘存储信息方便、便于携带,除可以追溯检索、定题服务外,还可用于“自建库”和做联机检索预处理。但它光盘检索得到的信息又不十分及时。 4.网络化联机检索阶段(网络信息检索)(20世纪90年代至今) 它使人们可以在很短的时间里查遍全球的信息资料,使人类的信息资源共享成为可能,使网上的信息源利用率提高,信息组织更为有序和有效。
二、计算机信息检索技术的发展趋势 1.以人工智能为代表的信息检索自动化趋势 网络信息检索自问世以来,自动化技术就占了主导地位,包括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的提高。信息检索自动化技术的发展取决于人工智能技术的研发程度,其中的自然语言分析和处理使人工智能与信息检索有着密切的联系,信息检索工具开始把人工智能更多地引入网络信息的标引和检索中,特别在自然语言理解、机器翻译、专家系统等方面已取得了进展。
2.多媒体信息检索技术的发展 Web出现以前,由于检索工具本身的限制,信息仅限于文本检索。以显示多媒体为特点的Web为非文本信息检索提供了良机。目前,包括图像检索、影像检索和声音检索的多媒体声像检索成为信息检索领域研究的热点。 3.多语种检索的支持 网络信息检索的多语种支持功能就显得愈加重要,现在解决多语种支持的访求有以下几种:把检索结果限制在某一种语言之内;使用某一种语言直接检索,它代表了多语种检索的主流;最后一种是自动的翻译检索结果。
4.个性化检索工具和专业化检索工具 通用的检索工具具有永远无法弥补的缺陷,即使提高了检索工具的标引和检索机制,收效却不是很显著。因此,开发个性化和专业化的检索工具是大势所趋。如MEDLINE,也开通了Web界面供用户免费检索,作为一个专业联机检索数据库,其检索功能和效果是目前网络信息检索工具所望尘莫及的。
第二节 计算机信息检索的步骤和策略调整方法 信息检索一般有分析检索课题、选择检索系统、确定检索策略(选择检索点和检索词、制定检索式)、调整检索策略以及获取原始文献等步骤 。检索步骤如下: 一、分析研究课题 明确检索要求 二、选择检索系统 三、选择检索点、检索词 四、制定检索式 五、实施检索 六、修正或调整检索策略 七、获取检索结果
一、分析研究课题 明确检索要求 检索课题分析作为检索策略制定的根本出发点,要明确检索课题所包含的概念成份及其相关关系,这是检索效率高低或成败的关键 1.分析课题的主要内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。必要时要做辅助检索,做到全面了解。 2.确定课题的文献类型 如果属于基础理论性探讨,要侧重于查找期刊论、会议论文、专业著作。如果是尖端技术研发,应侧重于科技报告、如属于发明创造、技术革新,则应侧重于专利文献。如为产品定型设计,则需利用标准文献及产品样本。明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。
3.确定检索的所需文献的时间范围,所需的语种以及文献量的多少。 根据课题的起始年代和研究的高峰期确定检索的时间范围 4.分析用户的检索评价要求,即对查新、查准、查全的指标要求。 如要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字;若要解决研究中具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字;如要了解一个全过程、写综述、述评、写专著、做鉴定、报成果,就需回溯大量文献,要求检索的全面、详尽、系统,则强调一个“全”字。
二、选择检索系统 在课题分析的基础上,根据课题的特点、信息需求、检索目的,选择专业对口、覆盖范围广、更新及时、内容准确权威、检索功能完备的检索系统。数据库选择3C四原则: Content:数据库存储的文献内容,涉及学科范围、科技含量、数据库类型、数据来源。 Coverage:数据库的覆盖面,涉及收录文献时间跨度、国家区域、机构、文献量等 Currency:数据库的更新频率、周期、更新是否 及时 Cost:数据库的费用,不同的数据库的检索方式和输出格式的收费是不一样的。
检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。 三、选择检索点、检索词 检索点(检索途径)是检索的出发点,用于文献检索的检索点很多,反映文献信息内容特征的有:分类检索和主题检索;反映文献外部特征的有:作者检索、名称检索和号码检索等。 检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。 检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。
四、制定检索式 (由检索点、检索词、检索算符组成)应明确所需检索的概念及其相互关系,用系统支持的算符以及提供的各种选项,将这些词组配起来形成检索提问式,以充分表达信息需求。 五、实施检索 完成了上述工作之后,就可以输入检索词实施检索了,或根据手工检索工具的检索着手检索。 注意:所输入的检索词必须与检索项(检索途径)相匹配的,否则就会功亏一篑。
六、修正或调整检索策略 在实际检索过程中,常会出现检索结果过少或过多的情况,这时候就需要及时修正或调整检索策略,以完善检索结果。 扩大文献检索量(检索到的文献量过少) 1.考虑使用同义词或近义词(用布尔逻辑或连接) 2.选择能覆盖较大检索范围的检索点,从篇名扩大 到关键词、摘要或全文。 3.使用截词符 4.考虑使用上位词。如飞行器是航天飞机的上位词 5.放宽检索限定,如年限、期刊的限定范围。 6.是否有拼写和语法错误
缩小文献检索量(检索到的文献量过多) 1.使用AND、NOT以及位置算符限制范围 2.选择检索范围较小的字,如从摘要缩小到篇名进行检索。 3.使用二次检索 4.使用下位词 5.缩小检索限定,如缩小检索年限、期刊级别 6.使用精确检索,如对固定短语来说可用“” 7.不使用过分含混或一般性的词汇 8.应考虑使用控制词汇 9.截词使用不能过松 10.注意数据库的隐含性概念
七、获取检索结果 检索结果的获取有多种方式,包括页面保存、下载、E-mail邮件订购以及文献传递等,用户可以根据自身检索条件进行选择。 1.利用全文数据库直接获取 如“中国期刊全文数据库”、“万方数据资源系统”、“超星数字图书馆”等 2.利用文献传递系统获取 如“读秀学术搜索”、“安徽高校资源共享系统”、“国家科技图书文献中心”“高校人文社会科学文献中心” 3.利用文摘数据库的原文服务 可以通过收录文献的全文链接,向数据库商提出索取原文申请。
第三节 检索方式 一、浏览方式 1.分类浏览:按学科类别浏览。可点击“分类导航”或“分类表”中的任何一个类别,接着显示所点击类别的下属子类,如此类推。分类浏览的结果页面通常“检索词”的输入框,以便进行二次检索,缩小检索范围。 2.字顺浏览:按检索词首字母为序,提供相应检索字段的浏览。如按出版物名称字顺、著者姓名字顺等。 例如已知刊名,可选择“按刊名字顺浏览”,进入期刊访问页面,浏览或查询论文。
二、 查询方式 初级检索:也称快速检索、基本检索。利用初级检索系统能进行快速方便的查询,适用于不熟悉多条件组合查询的用户。 高级检索:也称扩展检索。高级检索可进行多个条件的组合检索,即多个字段之间有一定逻辑关系(and,or, not)的检索。 专家检索:也称专业检索。检索式中可同时使用检索词、逻辑算符(AND,OR,NOT,AND OT)、字段标识符、邻近算符、截词符等多种算符,创建更复杂的检索式。 二次检索:在结果中检索又称为二次检索,当检索结果太多,想从中精选出一部分时,可使用二次检索。
第四节 检索点、检索词和检索方法 一、检索点 检索点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。现在常用的名称还有检索项、检索入口、检索字段等。每种文献均有内容特征及其相关的外表特征,检索点包括反映文献信息内容特征的分类、主题等检索点,以及反映文献信息外表特征的作者、题名、号码等检索点。常用的检索点主要有:分类、主题、作者、团体作者、篇名、摘要、关键词、全文、基金、号码等。
1.分类检索点:分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系。具体表现为分类表、分类目录、分类索引、分类导航、分类专辑等。分类检索点能满足族性检索的需求,查全率较高。 2.主题检索点:主题检索点以课题的主题内容为出发点,按主题词、关键词、叙词、标题词等来查找文献。主题检索点对应文献的主题概念,主要包括题名检索点、关键词检索点、摘要检索点等。以主题作为检索点能满足特性检索的要求,查准率较高,适合查找比较具体的课题。
3.作者检索:是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者、编者、主办者、译者等,此外,还有代表机构、单位的团体作者,包括作者所在单位。 4.名称检索:是从各种事物的名称出发来检索文献信息,包括书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。书名检索引、会议名索引、书目索引、刊名索引等者提供了从名称进行检索的途径。 5.号码检索:号码检索点以号码特征来检索文献信息。包括文献的编号、代码等,它们是文献信息的一些特有的外部标识,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。如科技报告号、专利号、标准号、ISSN、ISBN、馆藏单位的馆藏号、索取号等。
二、检索词 无论专业检索人员还是一般信息检索用户在进行信息检索时,都面临着一个问题,这就是主题分析后标引技术的运用,即正确的选词。特别是利用国外检索工具时显得尤为重要。 检索词是表达信息需求的基本单元,也是与系统中有关数据库进行匹配运算的基本单元。检索词选择得当与否,会直接影响检索效果。检索词可分为两类,一类是表示主题概念的名词术语(如叙词和关键词),或者是个人或机构的名称(如作者姓名),另一类是某些特殊的符号(如分类号、代码等)。
(一)选词原则 1.必须反映信息概念的准确性 选定的主题词,主要是各学科领域文献中经常出现、在信息检索中有使用价值和一定的使用频率、能作为主题汇集一定量的文献或具有叙词组配功能的名词术语,并能通过概念组配可以表达文献或用户查询的特定主题。 比如: 古代语言演变=古代语言+语言演变 古代语言演变=古代语言+演变
2.反映信息内容的全面性 列举出所有同义词、近义词,防止漏检。 比如:协同设计+协同工作 3.注意检索词的多样性 比如:轨道 铁轨 计算机 微机 电脑 (三)提取检索词的方法 提取检索词是计算机检索成败的关键,信息用户的课题名称及描述语句往往与检索系统中的检索词有一定的差距,在信息检索时,需要从课题的名称及描述性的语句出发,经过切分、删除、替换、增加等步骤,提取检索词。
1.切分 就是以词为单位划分句子或词组。词是语义切分的最小单元,也是检索的最小单元。经过切分后,检索课题转换成词的集合,而这一组检索词中,往往只有一个或少数几个词是核心词,就是必须使用的关键词,而其他的词都是限定这个核心词。 如: 基于隐马柯夫模式的离线汉字识别系统 计算机操作系统 羊毛
2.删除 在用户给的课题描述语句中,往往有不具有检索意义的虚词及其它关键词,必须删除不需要的词,将语句转换成为关键词的集合。 (1)删除不具有检索意义的虚词及其关键词 如:基于Web的数据库 (2)删除过分宽泛和过分具体的限定词 过分宽泛没有触及问题的实质,过分具体的限制条件则会挂一漏万。因此,这些限定词圴属于不必要的限定词,应删除掉。 如:稀土材料的研究现状及发展趋势 自动熔化极气体保护电弧焊的可控硅电源
(3)删除存在蕴涵关系的可合并词 如果两个词之间存在相互蕴涵的关系,可酌情去掉其中一个而保留另一个。如: 稀土材料钕(铝)铁硼的研究 电磁波教学用的多媒体课件。 3.替换 用户可能使用表达欠佳的词来叙述检索要求,他们给的词也许模糊、宽泛、狭窄或不可行,这时,可以用概念替换法,引入更明确、更具体、更本质、更可行的概念作为替换词代替原有词,或用同义词和相关词增加到原来的概念组中。如: 稀土材料的研制→钐钴 空气中细菌的计算方法→空气污染的计算方法
4.补充还原词组 许多名词是经由词组缩略而成,因此,可以采用与缩略相反的操作-补充还原,导出一个词的来源词组,并将来源词作为原词的同义词,补充进行检索式。 补充同义词或相关词:跳扩频→跳扩频+跳频+扩频 补充同一词的不同拼写:宽带→带宽 补充同类词:第四代飞机→F22、F35 补充限定词:电子科技大学→电子科技大学*成都 双语教学→双语教学*(英汉+汉语)
(四)、选择检索词应注意的事项 1.当主题不熟时 (1)如果对主题不熟悉,可采用关健性的文献以确认检索词汇和理清概念。 (2)利用控制词汇,作为索引和检索的工具,可以解决同义词、类同义词及同形异义词的问题。可利用系统所提供的索引、词汇表,或查询分类法、标题表等进行检索。 (3)相关词汇,除了可利用选定的检索词汇进行检索外,也可利用索引、标题表或系统自动提供之相关词进行检索,以增加检索结果。 (4)反义词,可利用检索词汇的反义词进行检索,以获取相关主题的文章。
2.词汇变化 (1)使用英文作为检索词汇:宜特别注意不同词性,单复数及英美不同写法的变化。 (2)利用相关书目找寻词汇:在寻找检索词汇时,可利用手边文献的相关书目,再查询更多合适的检索词汇。 (3)同义词,同形异义词:若所选择的词汇有许多同义词可以都纳入检索词汇中,若为同形异义词,则需要在检索时多加些条件做限定,以免查出许多不相关的文献。 (4)注意停用、常用或无关紧要词:如冠词、介词等;如决定、研究、趋势等这些常用或无关紧要的词不宜作检索词。
3.自然语言与控制词汇的转换 (1)可多利用自然语言与控制词汇的转换进行检索,以查询到较多的文献。 (2)注意使用的数据库的隐含性的概念。 “医学伦理对于医学教育的重要性”用Medline数据库进行检索。“医学”就是隐含性的概念。 4.选用单字或片语进行检索时,尽量简短。 输入的片语或词组愈长,找到完全吻合的机率就愈小。 5.可以利用布尔逻辑算符组合关键字(词),以扩大或缩小检索范围。
三、计算机信息检索的方法 1.常用法(工具法) 直接利用书目、索引、文摘等检索工具进行查找文献的一种方法。包括顺查法、倒查法和抽查法。 顺查法:根据检索课题的起始年代,利用选定的检索工具,按照由远及近,从过去到现在的时间顺序逐年查找的方法。查得文献较系统全面,查全率高,但量大、费时,效率不高。 倒查法:由近及远,从现在到过去的逆时顺序查找文献的一种方法。适用于新课题、新理论、新技术的检索,最新观点但不全面系统。 抽查法:根据检索课题所属学科的发展特点,选定其中学科发展兴旺、发表文献较多的时段,逐年进行查找的一种方法。针对性强,节省时间,但必须熟悉学科发展特点和阶段。
2.引文法(追溯法) 是利用已有文献后附的参考文献或引用文献作为线索,逐一追溯查找相关文献的方法。往往在缺乏检索工具但拥有丰富原始文献的情况下使用。优点是文献系统性较强,但参考文献往往有限。 3.综合法(循环法) 是交替使用常用法和追溯法来进行检索的综合方法。在查找文献时先用常用法,查出一批文献,然后再选择出与检索课题针对性较强的文献,利用这些文献所附的参考文献追溯查找,如此反复,直到满足要求为止。 4.浏览法 直接利用最新的有关书刊查找所需文献的一种方法。优点是及时获得最新文献,了解课题的学科发展的最状况。缺点是受馆藏文献范围的局限以及对学科资源的了解的情况。
第五节、检索算符 检索算符也称组配符,用于连接检索点和检索词,表达检索词之间的关系,与检索点、检索词共同构成检索式,表达用户的检索需求。 1.布尔逻辑算符 2.位置算符 3.截词算符 4.检索字段符(字段符)
用NOT、AND缩检,用OR扩检。一般搜索引擎空格代表AND。 通过标准的布尔逻辑关系词来 表达检索词与检索词之间逻辑 关系的检索方法。常用的逻辑 算符有三种:NOT、AND、OR 一、 布尔逻辑算符 用NOT、AND缩检,用OR扩检。一般搜索引擎空格代表AND。 例如,计算机AND农业、计算机OR农业、计算机NOT农业检索出来的文献是完全不同的。
A B A B A B “与” 计算机*网络 A * B,A and B A + B,A or B A – B,A not B “与”是一种用于交叉概念或限定关系的组配,如图所示。可用AND或and或*表示。 A B A * B,A and B “或” “或”是用于概念并列关系的一种组配,如图所示。可用OR或or或+表示。 A B A + B,A or B “非” “非”是用于概念删除关系的一种组配,它可从原来检索结果中剔除一部分不需要的内容,如图所示。可用NOT或not或-表示。 A B A – B,A not B
中国知网的高级检索
逻辑与(AND)* 缩检 只输入“新闻”或“美学”,则命中文献太多,且有许多不是自己所要的。 例如:查找“有关新闻美学的文献”。 如果输入“新闻*美学”,则检索出题名中同时含有“新闻”和“美学”的文献,检索结果大大缩小。 如果输入“新闻美学”作为检索词,可命中《戈公振的新闻美学实践》这样的文献,但漏检了《新闻的美学属性》、《新闻标题中的美学》这些文献。 如果用“新闻*美学”来进行检索,则上述三篇文献都检中。
逻辑或(OR)+ 扩检 太阳(SUN OR SOLAR) 例如:“查找研究杜甫的文献”,检索途径选择题名后,输入“杜甫”,命中540篇。但考虑到研究杜甫的文献题名中未必都出现“杜甫”两字,也可能会出现“杜诗”、“李杜”,于是改用“杜甫+杜诗+李杜”表达式,结果命中608篇。 太阳(SUN OR SOLAR)
二、 位置算符 位置算符表示其连接的两个 检索词之间的位置关系, 常用的有(W)(nW) (N)(nN)(L)(S)(F)等 在AND运算符并不规定两个检索词的位置和出现顺序,而位置算符可弥补这一不足,使用检索结果的查准率提高。 二、 位置算符 位置算符表示其连接的两个 检索词之间的位置关系, 常用的有(W)(nW) (N)(nN)(L)(S)(F)等
表示算符两侧的检索词之间只能是空格或标点符号,不得有其他字母或词,且词序不能颠倒。 (W)或()算符——with 表示算符两侧的检索词之间只能是空格或标点符号,不得有其他字母或词,且词序不能颠倒。 例如:double(W)digit(双倍数) 表示具有double digit 和double-digit形式的文献记录为命中文献。 (nW)算符——n words 表示两个词之间可插入n个词,且词序不可颠倒。 例如:Laser(1W)printer 表示具有Laser printer和Laser colour printer形式的文献记录为命中文献。
可检出intelligent machine 及machine intelligent等方面的信息。 (N)算符——Near 表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两词之间不可插入任何词。 例: intelligent(N)machine 可检出intelligent machine 及machine intelligent等方面的信息。 (nN)算符——Near 表示两个词之间最多可插入n个词,包括实词和禁用词,词序任意 例: econom?(2N)recovery 可检出表示“经济恢复”的以下词语:economic recovery, recovery of the economy,及recovery from the economic
例:Pollution (F) control (污染 控制) (F)算符——Field 表示两个词必须在记录中的同一个字段中出现,如篇名字段、叙词字段、文摘字段等,且词序可变;夹在其间的其他词数量也不限。而AND布尔逻辑算符的两个检索词可以出现在不同的字段。 例:Pollution (F) control (污染 控制) 检中一篇标题为“control and management of industrial pollution”的文献记录为命中文献。 (S)——Subfield或Sentence 表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。可以是文摘字段中的一个句子。
按截词位置:后方截词、中间截词、前方截词 按截断字符数量:有限截词( ? )、无限截词( * ) 又叫部分一致检索。主要用于西文数据库的检索。这种功能可减少输入次数,简化检索程序,扩大检索范围,从节省时间,提高查全率。 三、 截词符 截词是指检索者将检索词 在他认为合适的地方截断。 按截词位置:后方截词、中间截词、前方截词 按截断字符数量:有限截词( ? )、无限截词( * ) ? * . #
后方截词 无限截词 有限截词 无限截词是在一个词尾 有限截词是在一个词尾加 加一个截词符号,表示在 有限个截词符号,n个截 词符号表示其后可添的字 符数少于等于n个。 无限截词是在一个词尾 加一个截词符号,表示在 其后可添加任意多个字符
例1: Smok?(无限截词) 它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。 例2:Smok??(有限截词) 将对smoke, smoky, smoked, smoker, smokes等
中间截词是在一词中间出现若干 个截词符号,表示可插入若干个 字符,只允许有限截词。 中间截词 如: analy?er(分析仪) 它将对analyzer和analyser进行检索
对minicomputer和microcomputer等进行检索。(小型机) (微机) 前方截词 表示其左边不管截去有限或无限个字符, 只要数据库中具有与截词符号后面部分字 符串相同的检索词的信息,即为命中信息。 如:?computer 对minicomputer和microcomputer等进行检索。(小型机) (微机)
字段限制符通常有两种方式:其一,下拉菜单选择检索字段;;其二,输入检索字段,又分作两类:后缀式和前缀式。 四、 字段限制符 字段符用于代表字段名称。检索字段符(字段代码)是对检索词出现的字段范围(检索点)进行限定,执行时,机器只对指定的字段进行检索,以提高检索效率。 字段限制符通常有两种方式:其一,下拉菜单选择检索字段;;其二,输入检索字段,又分作两类:后缀式和前缀式。
/JN表示Journal Name(期刊名称) 后缀式 后缀式是将字段代码放在 检索词之后,并用/号连接 /TI表示Title(篇名) /AB表示Abstract(文摘) /KY表示keyword(关键词) /AU表示author(著者) /JN表示Journal Name(期刊名称) electron/TI表示 electron一词须出现在篇名字段。electron/TI,AB表示electron一词须出现在篇名或文摘字段。
前缀式是将前缀代码放在检索词之前,用=号连接,常见的前缀代码 如:查找李明发表在清华大学学报上的文献 AU=李明 * JN=清华大学学报
第六节 构造检索式 检索式是检索策略的具体表达,它是将各检索单元之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。 一、选择检索字段(检索点) 同一检索词在不同的字段进行检索时,得到的检索结果不同。 选择需要限定的字段的方法有两种:在检索菜单中选择需要检索的字段检索;也可直接在检索输入框中,输入带有字段符的检索式。
二、输入检索词 1、直接输入 就是在检索框中,逐个字符地输入单词、词组或已有检索集合号组成的检索式。 2、索引中选词 大多数检索系统提供从索引中取词的功能。 3、拷贝输入 指拷贝已有的检索式中的某些检索词或从检索记录中拷贝所需检索词,再粘到检索输入框中。 4、利用保存的检索式 如果对某一课题进行跟踪检索时,该方法尤其有用。
三、组配检索词 在选择检索字段,确定了检索词后,利用系统规定的检索算符将检索词组配起来,才能准确地表达检索意图。 系统规定的检索算符通常包括:布尔逻辑算符、位置算符、截词符、字段符等 ,各个不同的计算机检索系统,其检索算符各不相同。因此在检索前,需要熟悉各系统的检索算符。 在同一系统中,采用同样的检索词,使用不同的检索算符而制定的检索式得到的检索结果不同。
第七节 检索功能 检索功能是检索系统在检索界面上提供给用户的基本功能,常见的计算机检索功能有浏览、索引、初级检索、二次检索、高级检索、专业检索等。 1、浏览 可以提供一个完整的“树”等级知识体系,让用户能够俯瞰知识体系的全貌,了解某一方面信息的总体情况。如CNKI提供的电子期刊浏览系统,先按分类目录,再按刊名浏览年份、卷期 2、索引 它是一个“线”性表单,按照字母顺序线形排列,不分等级。如人名、出版物、分子式等
3、初级检索 又称简单检索、基本检索、快速检索,它为用户提供一个简单的检索界面,帮助非专业或初入门用户方便提交检索表达式。通常检索界面上只有一个检索框,不使用或很少使用运算符,用户只需在选定检索点的情况下,输入检索词就可以进行检索了。 4、二次检索 在“简单检索”或“高级检索”基础上开展的,选用新的检索词,旨在进一步缩小检索范围进行逐次逼近的检索,称为二次检索。
5、高级检索 就是可以同时选择多个不同检索途径,输入不同检索条件,执行较复杂的检索式,包括有多种逻辑组合关系的检索。 在显示的页面上的多个检索窗口中键入恰当的检索词,一个检索窗口对应一个字段,有的字段设有可展开的索引词典,提供检索词的选择,有的检索页面上还可有某些限定(如年代、文献类型、学科范围等)可供选择。 如:CNKI高级检索界面
中国知网的高级检索
6、专业检索 专业检索为用户提供一个按照自己需求来组合逻辑表达式以便进行更精确检索的功能入口。在西文数据库中有时候称Advanced Search 或Expert Search。如CNKI跨库专业检索:
7、加权检索 就是某些检索系统中提供的一种定量检索技术。在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,计算机会自动计算检索词的权值总和。当权值达到给定的权值时,就是命中记录。 8、相似检索(知网节) 在检索过程中,人们会发现某个结果非常符合自己需要,因此希望能进一步检索到与该结果类似的结果,我们称之为相似检索也称相关信息反馈检索。
(1)“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。 9、精确匹配和模糊检索 不同的数据库,检索途径设定的检索规则有所不同,有的检索途径允许用户用“任意一致”的方式检索,有的只允许用“完全一致”或“前方一致”的方式检索。 (1)“完全一致”即精确匹配,要求输入的检索词,与数据库中的文献标识完全匹配,才能命中。 如要查找作者“刘开扬”的文献,则必须准确输入“刘开扬”三字,如输入“刘”或“刘开”,则不能命中。 一般在使用网上搜索引擎进行检索时,可以用双引号把输入的检索词括起来,就可以达到“完全一致”的检索效果。
如:在作者字段中输入“刘开?”便可查到作者“刘开”、“刘开扬”、“刘开强”的文章。 (2) “前方一致”属于模糊检索的一种。 如:在作者字段中输入“刘开?”便可查到作者“刘开”、“刘开扬”、“刘开强”的文章。 又如:以关键词为检索途径,输入“经济?”,便可查到“经济”、“经济法”、“经济学”、“经济预测”、“经济效益审计”等等。 (注意,匹配符通常用“?”,但也有的数据库用“*”) (3)“任意一致”是模糊检索中的最为自由者。 如用篇名作为检索途径,输入“出版”,则可检出篇名中任一处含有“出版”一词的文献,如《出版系统探讨》、《广东出版史概述》、《商务印书馆与近代教科书的出版》等。
10、概念检索 可借助一个同义词表对用户输入的检索词自动添加同一概念的词汇集合(同义词,近义词,广义词等),有助于提高查全率,但不会降低查准率 11、自然语言检索 自然语言检索是未来网络信息检索发展趋势。它允许用户以自然语言语句表达检索要求,检索工具利用禁用词表排除非关键词,然后把剩余的词作为关键词进行检索。
第八节 检索效果评价 检索效果是指信息检索系统检索到文献信息的有效程度和结果,直接反映了检索系统的性能和本次检索的成败。 衡量检索效果的指标有查全率、查准率、漏检率、误检率、响应时间。人们通常主要以查全率和查准率这两个指标来衡量。
1、 查全率与查准率 指检索出的相关文献数与信息 系统中的相关文献总数之比 查全率(R) 指检索出的相关文献数和 检索出的文献总数之比 Recall ratio 假设在该系统文献库中共有相关文献总量为100篇,而只检索出来30篇,那么查全率就等于30%,漏检率为70%。 指检索出的相关文献数和 检索出的文献总数之比 查准率 (P) Precision ratio 假设检出的文献总量为100篇,经审查确定其中相关文献为60篇,那么这次检索的查准率就等于60%,误检率为40%。
2.漏检率和误检率 漏检率 误检率 漏检相关文献量与在检索系统中 相关文献总量的比率 指误检(检出不相关)文献信息量和 检索出的文献信息资源的总量之比 误检率
3、查全率(P)和查准率(R)的互逆关系 一次最理想的检索是查准率和查全率均为100%。但实际上这是不可能的。实验表明:查全率和查准率往往呈反比关系。用户应当根据具体信息检索需要,合理调节查全率和查准率,才能保证检索效果。
一般来说,检索工具的标引深度越大,查全率就高,标引过程的网罗性越好,查全率也就越高。 4、影响检索效果的因素 (1)影响查全率的因素 信息库收录文献不全,收录遗漏; 索引词汇缺乏控制和专指性; 词表结构不完整; 词间关系模糊或不正确; 标引不够详尽; 标引前后不一致; 标引人员遗漏了原文的重要概念或用词不当。 一般来说,检索工具的标引深度越大,查全率就高,标引过程的网罗性越好,查全率也就越高。
(2)影响查准率的因素 文献分类专指度缺乏深度,不能精确地描述文献主题; 索引词不能准确描述信息主题和检索要求; 组配规则不严密; 选词及词间关系不正确; 标引过于详尽; 组配错误; 检索时所用检索词(或检索式)专指度不够; 检索面宽于检索要求等。 检索效率的高低,不仅与检索系统的服务性能的优劣有关,同时还与用户的检索技能有关。
补充知识:文献信息的使用寿命 文献学家贝尔.保尔登和凯布勒先后提出了文献老化的半生(衰)期。用半衰期的来解释某学科文献信息的老化速度及使用寿命。即某学科现时尚在利用的全部文献中的一半,是在多长时间内发表的。文献的半衰期越短,说明其知识信息的老化速度越快,使用寿命越短。文献的老化速度与学科文献信息量的增长有关。 例如,化学文献的半衰期为8.1年,就是指正在利用的化学信息的50%,其出版年限不超过8.1年。生物医学3.0年。冶金学3.9年、物理学4.6年、化工4.8年、机械制造5.2年、化学8.1年、植物学10年、数学10.5年、地质学11.8年、地理学16年。
不同学科对文献载体和检索方法的要求 科技文献具有较强的知识积累性,文献老化大大短于社科文献,新发表的论文大体上能将在它之前已有的相关知识吸收进去。因此科技信息的检索更注重期刊论文、研究报告、会议录和专利文献,在检索方法上更强调利用时效性强的现代化检索工具。 社会科学的研究除了要吸收新知识、也注重以往的研究成果,几十年前的研究成果同样具有权威性和参考价值。它对图书这种包含比较成熟、定型的知识的文献往往给予更多的关注。社科文献的检索除了利用较新的载体和手段,也不能偏废传统的载体和手工检索方式。
思考题: 1、请简单说明计算机信息检索的步骤? 2、常用检索算符有哪些,分别进行简述。 3、如何评价检索效果?
例:检索课题:湖泊富营养化的处理(国内文献)
分析课题: 水体富营养化是指湖泊、河流、水库等水体中氮磷等植物营养物质含量过多所引起的水质污染现象。由于水体中氮磷营养物质的富集,引起藻类及其他浮游生物的迅速繁殖,使水体溶解氧含量下降,造成藻类、浮游生物、植物、水生物和鱼类衰亡甚至绝迹的污染现象。水体出现富营养化时主要表现为浮游生物的大量繁殖,因占优势的浮游生物的不同而水面往往呈现出蓝色、红色、棕色和乳白色等。在江河、湖泊和水库中称为“水华”,在海洋中称为“赤潮”。 “水华”(water blooms)是淡水中的一种自然生态现象,只是仅由藻类引起的,如蓝藻(严格意义上应称为蓝细菌)、绿藻、硅藻等。“水华”发生时,水一股呈蓝色或绿色。
检索词: 富营养化(水华),处理(治理,修复),湖泊 分析课题 学科范围: 生物类 文献类型: 国内文献,期刊论文,会议文献,学位论文
检索表达式:1 富营养化*(治理+处理+修复)*湖泊 检索工具: 1. 中文科技期刊全文数据库(维普) 1989-现在 2. 中国科技成果数据库(万方) 1986-现在 3. 中国期刊全文数据库(同方) 1979-现在 4. 中国优秀博硕士学位论文全文数据库(同方)1999-现在 5. 中国学位论文文摘数据库(万方) 1989-现在 6. 中国学术会议论文全文数据库(万方) 1995-现在 7. 中国重要会议论文全文数据库(同方) 2000-现在 8. 中国重大科技成果数据库(万方) 1990-现在 检索途径:篇名/关键词/摘要…… 检索表达式:1 富营养化*(治理+处理+修复)*湖泊 检索表达式:2 水华*(治理+处理+修复)
检索效果的评价指标 检索效果(Retrieval Effectiveness)是指检索系统检索的有效程度,它反映了检索系统的能力。包括技术效果和经济效果。 克兰弗登(Cranfield)评价系统性能的指标: ♦收录范围 ♦查全率 ♦查准率 ♦响应时间 ♦用户负担 ♦输出形式