信息检索教材配套讲稿--邓发云
第三讲 信息检索技术
本章重点 信息的特征与检索语言和检索途径的关系 检索词的确定方法 常用的计算机检索技术 如何分析检索需求
信息检索中匹配的本质是什么?如何匹配?(参考教材77页) 本章交流讨论主题 信息检索中匹配的本质是什么?如何匹配?(参考教材77页) 交流讨论方法: 小组讨论交流10-15分钟 将小组讨论结果交流5-10分钟 讨论主题一般提前一周布置
3.1 信息特征、检索语言与检索途径 检索语言是用于描述文献特征、用于标引和检索的人工语言。创建检索语言的目的,是建立沟通标引与检索的桥梁。检索语言按不同标识系统组织文献,以适于不同检索需求,聚集相同学科门类和主题内容的文献,从而使杂乱无序的文献便得有序。
3.1.1检索语言与信息特征 一篇文章、一本书、一份报告等一般都有以下特征: 一篇文章、一本书、一份报告等一般都有以下特征: 一、外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。 二、内部特征:假如我们深入到文献内容中间,则可以发现还可用另外两种方法来表征它:
a.一般,一篇文献都是论及某一方面的特定问题的,也就是说,与论题相关的词出现的频率较大。以前的研究表明,无论哪一种类型的文献,若对文献中出现的词进行频率统计的话,会发现所有的词可分为三类 i.文献中出现频率最高的词是冠词、介词和连词等,即其本身没有具体含义的词,如a、an、the、this、that、or、and、in、on、with等; ii.绝大部分词在文献中出现的频率较低; iii.在文献中出现的频率既不高也不低的词,在文献中约3-20个之间,这些词恰恰是与文献的主题相关度较大的词,我们称之为文献的主题词或关键词。
b.另外,一篇文献还可以按照各种自然科学和社会科学的分类方法进行归类,如《中图法》: O 数、理、化 O1 数学 O12初等数学 O123初等几何
特征对应关系 特征 外表特征 主题特征 内容特征 分类特征 标题、作者、作者工作单位 主题词、关键词 文摘、说明、全文 分类号 对应 识 标题、作者、作者工作单位 主题词、关键词 文摘、说明、全文 分类号 对应 精确对应 模糊对应 模糊(精确)对应
3.1.2检索语言 语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。 检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的信息检索角度出发的。
不同的检索语言构成不同的标目及其索引系统,提供各种检索点。
人工语言 (规范语言) 和自然语言(非规范语言) artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。 natural language :自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。
分类语言和主题语言 分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。 主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。
它是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列,包括它等级体系分类语言,又称等级列举式分类法或体系分类法。体系分类法主要应用概念划分与概括的方法,具有列举式类目、分类符号(标识)、等级制结构、直线性序列等特点。 等级体系分类法的表现形式为分类表分类文献及其索引系统,是根据一定的观点,以科学分类为基础,运用概念划分和概括的方法,按照知识门类的逻辑次序,从总到分,从简单到复杂,层层进行概念划分,则产生许多不同等级的 类目。上位类包括下位类的总合,下位类隶属于其上位类,同级类互不相容,构成一个严格有序的层磊式结构系。
国内外常用的分类法有: (1)、人民大学图书馆图书分类法(人大法) 该分类法从1953起陆续在全国各图书馆试用,后经过多次修订再版,目前仍有许多图书馆采用该分类法。 (2)、中国科学院图书馆图书分类法(科图 法) 该分类法目前主要用于中国科学院图书馆及其所属各科研单位的图书馆(室)的文献分类。 (3)、 杜威十进制分类法(Decimal Classification)简称为杜威法 该分类法是目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。 (4)、美国国会图书馆图书分类法(Library of Congress classification)简称为LC分类法 目前美国大多数图书馆采用的分类法。 (5)、国际十进分类法(Universal Decimal Classification)简称UDC分类法等。 (6)、 国际专利分类法(International Patent Classification )简称 IPC
(1)体系分类语言 《中国图书馆分类法》:分五大部22大类。 A 马克思主义、列宁主义、毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D-K 社会科学各学科 N 自然科学总论 O-X 自然科学各学科 Z 综合性图书
其中文学类类目展开情况如下: I 文学 I2 中国文学 I24 小说 I247 建国后作品 I247.4 章回小说 I247.5 新体长篇、中篇小说 I247.7 新体短篇小说 I247.8 故事、微型小说 I25 报告文学 I313 日本文学
分类标引方法: 崔文风著 1.心理与人生-发展心理 教子成长 2.心理与人生-完善心理 事事成功 3.心理与人生-调节心理 强身治病 分类好分别分: G78、 B848.4 R395.6 分类号是依据内容来确定的,而不是名称
(2)关键词语言:关键词是从文题、文摘或正文中抽出,具有实质意义,能够代表文献内容主题的名词术语。关键词可直接用于文献标引。 (3)主题词语言:主题词是表达一定概念主题的规范化的名词术语。主题标引须有专门的主题词表。
主题词表: ①字顺表 computerized industrial control USE industrial computer control Computerized instrumentation UF computerized instruments NT automatic test equipment computerized monitoring computerized spectroscopy computerized tomography BT computer applications TT computer applications RT astronomy computing astrophysics computing biology computing chemical engineering computing
②词族表 computer applications .administrative data processing ..distributive data processing .computerized signal processing ..computerized pattern recognition ..computerized picture processing ...computer-generated holography
3.1.3常用检索途径 检索点(access point)是检索的出发点,以前常用“检索途径”(approach)这一术语。 每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。 从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。 反映文献信息内容特征:分类检索和主题检索; 反映文献外部特征:作者、名称和号码检索等。
1 分类检索(classification) 分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(classification system)。 分类体系按文献内容特征的相互关系加以组织,并以一定的标记(类号)作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。
2 主题检索 主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词,有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。
主题词表的字顺表用标识符号将非主题词指引到其主题词,如:义务教育 用 普及教育。 对于无法利用字顺表确定检索用主题词时,可采取如下办法: A 将检索者自拟的标题倒置,再试查。 B 利用拟定概念词的同义词试查。 C 利用拟订概念词的上位词试查。 D 利用词表范畴表,由上向下逐级试查。 (2)调整检索范围 A 利用字顺表的相关参照提示,扩大检索范围。 B 利用范畴表(词表分类表)调整检索范围。
3 作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献。 “作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(author's affiliation)。
4 号码检索 比如科技报告有报告号,还有其合同号、拨款号等, 比如专利文献有专利号、入藏号、公司代码等; 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。 比如科技报告有报告号,还有其合同号、拨款号等, 比如专利文献有专利号、入藏号、公司代码等; 比如分类号也是号码(特殊的号码检索),等等。 它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。
附录:学术论文的基本格式 1.题名(Title,Topic) 题名即题目或标题,是以最恰当、最简明的词语反映论文最重要的特定思想内容的逻辑组合。 题名 (1)简洁明了:所谓简洁,就是指用语要简明、洁净、雅致和精当,惜字如金,用最少的文字精当地概括论文内容。有人根据人们对语言的一般记忆特点,提出标题最好控制在12个字以内(题名规范的要求是一般不超过20字,必要时可加副题名) 。
1.题名(Title,Topic) (2)准确恰当:所谓准确,就是指标题能准确概括论文内容,能恰当地限定论文范围,能实事求是表达论文中心内容的深度和广度,达到文题相符。论文标题提倡“宜小不宜大,宜近不宜远,宜今不宜古,宜实不宜虚” (3)新颖多样:标题新颖醒目会直接吸引读者的阅读兴趣。所以论文标题不仅要准确、精练,而且还要新颖。
2. 署名 给论文署名不仅是对著者的尊重和应有的荣誉,而且还表示文责自负。 按其对研究和论文撰写的贡献大小排序,贡献最大者列为第一著者,次之列为第二著者,余者类推。
3.摘要(Abstract) 摘要或提要是对全文的高度浓缩。为了国际交流,一些期刊还要求提供外文摘要。摘要是论文内容不加注释和评论的简短陈述,具有独立性和自含性。其内容包括:研究的对象和主要目的、主要观点、主要成果及意义等。一般200-300字,外文不超过250个实词.
4.关键词(Key Word) 关键词是为了配合文献标引工作而给出的能反映文章最主要内容的单词或术语,对编制检索工具和文献检索有重要作用 。关键词一般3-8个
题名 作者 作者单位
摘 要
关键词
中图分类号 文献标示码
5.文献标识码、中图分类号 凡具有文献标识码的文章均应标识分类号。文章分类号采用《中国图书馆分类法》(第四版)进行分类。一般文章标识1个分类号,多个主题的文章可标识2个或3个分类号;主分类号排在第一位,多个分类号之间应以分号分隔。 中图分类号著录格式为:中图分类号:TK730.2;O357.5
文献类型及载体类型标识
6.正文(Main body) 正文一般由引言、本论和结语三段式组成。 这是学术论文的主体部分,是作者研究成果的具体表述。要求层次清楚,概念准确,判断真实,推理符合逻辑,要形成一个完整的逻辑系统。内容周详严谨,论证严密有力。 正文一般由引言、本论和结语三段式组成。 (1)引言:属于论文的引论部分。作者应在这部分简要交代研究工作的缘起、说明这一论题研究的目的、背景、前人已有的工作和现在研究的理论依据、实践基础、预期结果及在相关领域的地位、作用和意义等。
6.正文(Main body) (2)本论:是论文的核心部分。作者在这一部分要详细阐述所研究的新成果,特别要实事求是地清晰阐明自己所提出的新的独创性见解。 (3)结论:是论文最终的、总体的结论,也就是整篇论文经过研究分析和讨论而形成的最终观点,是对正文中各分论点经过辨证分析后综合而成的总观点,而不是各分论点的简单重复和相加。
7.附注(Annotation) 论文的引文必须用附注注明出处,便于检索利用。期刊论文可采用夹注、页下注(脚注)和篇末注(即整篇论文写完后对全文的引文统一作注)等方式。
注释
注释
8.参考文献(Reference) 注意:参考文献主要来源不应该是网页 在正文之后列出本篇论文在研究和写作中所参考或引证的主要文献资料。其著录依据是:国家标准局制定的《文后参考文献著录规则》(GB7714—87)。参考文献的主要著录项目有: ① 主要责任者。多个责任者之间以“,”分隔。 ② 文献题名及版本 ③ 文献类型及载体类型标识。
参考文献
9. 各类参考文献著录格式 ① 专著、论文集、学位论文、报告 [序号]主要责任者.文献题名[文献类型标识].出版地:出版者,出版年.起止页码(任选). [1] 刘国钧,陈绍业,王凤翥.图书馆目录[M].北京:高等教育出版社,1957.15-18.
9. 各类参考文献著录格式 ② 期刊论文 [序号]主要责任者.文献题名[J].刊名,年,卷(期):起止页码.
9. 各类参考文献著录格式 ③ 论文集的析出文献 [序号]析出文献主要责任者.析出文献题名[A].原文献主要责任者(任选).原文献题名[C].出版地:出版者,出版年.析出文献起止页码. [5] 钟文发.非线性规划在可燃毒物配置中的应用[A].赵玮.运筹学的理论与应用——中国运筹学会第五届大会论文集[C].西安:西安电子科技大学出版社,1996.468-471.
9. 各类参考文献著录格式 ④ 报纸文章 [序号]主要责任者.文献题名[N].报纸名,出版日期(版次).
3.2 检索工具、数据库与检索系统 检索工具是人们用来报道、存储和查找各类信息的工具。传统的检索工具是指目录、索引、文摘等二次文献,现在的检索工具不仅包括传统的二次文献,还包括基于Internet的网络信息检索系统(如数据库)、网上工具书、搜索引擎等各种信息检索工具和检索系统。其中网络数据库和搜索引擎是目前最主要的检索工具。
3.2.1检索工具 每一个检索工具,都有其特定的文献信息收录范围、检索途径与检索方法。检索工具的选择,对检索词的确定以及检索提问式的编制起主导作用。文献收录范围是检索工具的最基本特点,其出版时间和所概括的内容范围是否包括检索课题的内容,以及质量和权威性如何,是在使用检索工具前必须了解的基础知识
书目检索工具是根据这些条目著录的内容和揭示文献的深度不同而形成四种检索工具: 传统检索工具是以文献线索为检索对象。检索系统存贮的是二次文献,信息用户通过检索获得的是与检索课题有关的一系列文献线索。 书目检索工具是根据这些条目著录的内容和揭示文献的深度不同而形成四种检索工具: 目录检索工具 题录检索工具 文摘检索工具 索引检索工具
检索工具也是随着信息检索技术的不断发展而发展的。随着时间的推移,有些检索工具现在不再使用了;而一些知名的检索工具如工程索引(EI)、科学引文索引(SCI)等,则随着时代和主流技术的变化,分别提供印刷版(print)、光盘版(CD-ROM)、网络版(web)、联机版(online)等多种方式。
3.2.2数据库 信息检索系统中的数据库,是指由计算机处理的一定数量同类信息的有序集合,既是信息源,又是检索对象。信息对象为文献信息的数据库,则称为文献信息数据库;能够在互联网上提供web查寻、检索的数据库,则称为在线数据库或网络数据库。
(1)按收录文件类型可分为:图书数据库、期刊数据库、会议论文数据库、学位论文数据库、专利数据库、标准数据库、产品数据库、报刊数据库等 (2)按收录的内容划分为书目数据库、文摘型数据库、全文数据库、数值数据库、事实数据库等。 (3)按数据库收录的学科范围划分为:专业性数据库和综合性数据库。
2.数据库的结构 数据库一般由记录、字段、文档组成。 字段:是对实体的具体属性进行描述的结果,是比记录更小的单位,是组成记录的数据项目。 记录:描述一篇文献的所有字段(field)组成一条记录(record) 文档(file):一段时间或某一主题范围内的记录集合构成数据库文档
3.如何了解一个数据库 服务形式 涵盖范围 数据量 可使用数据量 文献类型 收录年代 文种 更新频率 (详细分析见教材53页)
3.2.3信息检索系统 信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。计算机信息检索系统包括计算机、数据库、管理软件和通信网络检索终端,数据库是其核心。
检索系统一般提供了三种检索方式,即: ①浏览式、超文本式、超媒体检索(browse); ②菜单式检索; ③命令式检索(command search)。
在菜单检索中一般有基本检索、高级检索功能,有的检索系统还提供专家(专业)检索。检索时,需要在显示页面上的检索框中键入恰当的检索词,每个检索框对应一个字段。有的字段设有可展开的索引词典,提供检索词的选择,有的检索页面上还可有某些限定项(如年代、文献类型、学科范围等)可供选择。
3.2.4常用数据库与检索系统 1.“三大”检索工具 美国的SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引) 2、 .“三大”中文期刊检索工具 其它见教材60-61
3.3计算机检索技术 检索技术,是指利用光盘数据库、联机数据库、网络数据库、搜索引擎等进行信息检索,采用的相关技术,主要包括布尔检索、截词检索、字段检索、词位置检索、加权检索等
3.3.1布尔逻辑检索 使用逻辑算符时应注意的事项: ①逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。 逻辑算符是表达检索提问的各概念之间的逻辑关系。逻辑算符有三种: AND (与)、OR(或)、NOT(非)。三种算符可同时在一个检索式中使用,也可单独使用。 使用逻辑算符时应注意的事项: ①逻辑算符的优先级为:NOT、AND、OR,可用括号来改变优先顺序。 ②在逻辑组配时,算符的两侧必须各留有一个空格。
逻辑与AND 用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。可使用“*”或“&”来表示。 其检索表达式为:“A AND B”或“A*B”,即检索记录中必须同时包含A词与B词才算命中。 例如:“中国*对外贸易”。
逻辑或OR 用于并列概念的组配,可以扩大检索范围,提高查全率,可使用“+”或“|”来表示。 其检索表达式为:“A or B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。 例如:“高清晰电视+HDTV”
逻辑非 NOT 用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。 可使用“-”来表示,其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。 例如:“能源-太阳能”
3.3.2截词检索 截词检索,是指用给定的词干做检索词,用以检索出含有该词干的全部检索词的记录。它可以起到扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。检索时,若遇到名词的单复数形式、词的不同拼写法、词的前缀或后缀变化时均可采用此方法。
又称通配符,不同的检索系统中使用的符号不同,通常用“*”、“?” 来表示。 无限截词符? ?Computer可检出Computer,Microcomputer 有限截词符. ? ? PROCESS???可检出PROCESS, PROCESSES 中间屏蔽 WOM?N可检出WOMAN,WOMEN
3.3.3字段检索 字段检索是指将检索词限定( Within )在某个或某些字段中,用以检索某个或某些字段含有该检索词的记录。限制检索字段通常有两种方式: 其一,通过下拉菜单选择检索字段。此时,字段名一般用全称表示,如:题名、摘要、Title、Abstract等。 其二,输入检索字段符限定检索字段。
字段 后缀代码 Abstract文摘 …/AB Descriptors叙词 …/DE Title题目 …/TI Identifiers标引的自由词 …/ID Full Descriptors完整的叙词(单元词)… /DF 后缀代码用于指定记录的基本索引的某个字段进行检索
辅助索引用于前缀代码。相同的字段在不同的数据库,代码可能不同,检索时需要参阅数据库兰页。 前缀代码 名称 例子 AU= Author (作者) ? S AU=MIRO, R? CS= Corporate Source (机构名称)? S CS=HARVARD AND MEDICINE CO= Company Name (公司名称) ?S CO=FORD MOTOR? JN= Journal Name (期刊名称) ?S JN=Scientia Scinca LA= Language (文种) ?S LA=ENGLISH PY= Publication Year (出版年代) ?S PY=1999 注:使用辅助索引时“=”后不留空格。
3.3.4词位置检索 词级位置算符 包括(W)、(N)算符,表示检索词之间的顺序关系 (W):W是with的缩写,表示两个词必须紧挨着,且词序不可颠倒,(W)算符也可用空括号()代替。 例:?S solar()energy (nw):表示两个词之间可插入n个词,且词序不可颠倒。 例:? S solar(3w)energy (N):N是near的缩写,表示两个词之间必须紧挨着,但词序任意。 例:?S fiber(N)optic (nN)表示两个词之间最多可插入n个词,词序任意。 例:?S fiber(4N)optic
(F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可 (S):S为subfield或sentence的缩写,表示两个词必须在记录中的同一个句子或同一个子字段中出现,且词序可变。子字段含义由数据库定义。 例:?S color(S)pigment (F):F为field的缩写,表示两个词必须在记录中的同一个字段中出现,且词序可 有了逻辑算符和位置算符,即可编制较为完整的检索提问。在检索时应注意: ①位置算符优先于逻辑算符 ②位置算符的执行顺序是按语句中位置算符的输入秩序从左至右执行的。如有括号,则优先执行括号内的位置算符。
3.3.5加权检索 加权检索是指根据检索词对检索课题的重要程度,事先指定不同的权值。检索时,系统先查找这些检索词在数据库记录中是否存在,再对存在的检索词计算它们的权值总和。凡是在用户指定的临界值(阈值)之上者作为命中记录输出。临界值可视命中记录的多少而灵活地调整。临界值越高,命中记录越少。 搜索引擎通常以“+”、“-”来表示检索词一定在检索结果中出现,或一定不在检索结果中出现,这相当于加权检索。
3.3.6检索式 检索式是指,将各检索单元(其中最多的是表达主题内容的检索词)之间的逻辑关系、位置关系等,用检索系统规定的各种组配符(也称算符)连接起来,成为计算机可识别和执行的命令形式。检索式是检索策略的具体体现,它控制着检索过程。检索式是否合理关系到能否检索到最相关的信息。
禁用词 在数据库中,下列九个词不能作为检索词使用,这些词称为禁用词。禁用词有: AN、AND、BY、FOR、FROM、OF、TO、THE、WITH
3.4检索词的选取 在检索过程中,最基本同时也是最有效的检索技巧,就是选择合适的检索词。确定检索词,从广义的角度来看,不仅是“词”,还应包括不同检索途径的检索输入用语。如作者途径的作者名,作者单位途径的机构名,分类途径的分类号
3.4.1检索词的选取原则 a、反映信息概念的准确性 古代语言演变=古代语言+语言演变 =古代语言+演变(X) b、反映信息内容的全面性 协同设计+协同工作 Collaborative design+cooperative design Collaborative work+cooperative work c、注意检索词的多样性 轨道 铁轨 过程和规律 微型计算机 微机 电脑 d、简练性
3.4.2检索词的选取方法 检索者需要根据检索需求,形成若干个既能代表信息需求又具有检索意义的概念。诸如包括所需的概念有几个,概念的专指度是否合适,哪些是主要的,哪些是次要的,力求使确定的概念能反映检索的需要。
1.主题分析法 检索词的选取是用户分析、识别、提炼和归纳信息需求主题的过程。首先将检索主题分为数个概念,并确定反映主题实质内容的主要概念,去掉无检索意义的次要概念,然后归纳可代表每个概念的检索词,同时寻找检索词之同义词与上下位词,最后将不同概念检索词以布尔逻辑加以连结。
主题词的四种变化分别是同义词、上位词、下位词、相关词 。 同义词是指意义完全相同的词,如GIS与地理信息系统; 上位词,指概念上外延更广的主题词,如水是海水的上位词,液体是海水的上位词,音乐是mp3的上位词; 下位词,指概念上内涵更窄的主题词,如尾气污染、废气污染是大气污染的下位词;幼儿教育、初等教育、高等教育是教育的下位词, 相关词是指意义相关的词,如出口和外贸。
2.切分法 切分法就是指将用户的信息需求语句分割为一个一个的词。 例如“计算机情报检索方法”可切分为:|计算机|情报|检索|方法|。 删除 从语句切分出来的词中删除那些(1)不具有检索意义的虚词(包括介词、连词、助词、副词等)及其他非关键 词;(2)过分宽泛和过分具体的不必要的限定词,过分宽泛难以触及问题实质,太狭义具体的限制词则会挂一漏万;(3)存在蕴涵关系的可合并词。 “基于Web的数据库”,经删除后,Web|数据库 稀土材料的研究现状及发展趋势稀土材料 稀土材料钕铁硼的研究钕铁硼 电磁波教学用的多媒体课件电磁波多媒体课件
替换 从课题语句中得来的词也许偏于模糊、宽泛、狭窄或不可行,不能取得所希望的结果,这时可以引入更明确、更具体、更本质、更可行的概念词来替换原词,或作为原词的同义词和相关词一并见面所。 稀土材料的研制钐钴(用户实际上是研究钐钴材料) 空气中细菌的计算方法空气污染的计算方法 聚类 即把切分、删除、替换后所得出的单元词按语义概念进行同类合并,将那些可以相互等效、相互替换、相互补充的同(近)义词、相关词归成一组。聚类的实质是进行组面分析,将语句和词转换成概念(组面)的集合。
补充 包括(1)补充来源词,即找出缩略词的来源词组,将两者一并作为检索词;(2)补充同义词和相关词(包括上位词、下位词和同位词等)。 模拟计算机模拟计算机+模拟系统*计算机 liradlirad + laser radar “毫米波”:“millimeter wave”与“millimetre wave” 限定 针对一词多义导致误检的问题,需采取限定措施,即增加”限定词“。具体方法有两种,一是逻辑乘,一是逻辑非。 线路线路*(电子+无线电+) 线路线路-(道路+车辆+)
3.主题词表法 借鉴相关文献的主题词(受控词),使用主题词进行检索。主题词表,又称叙词表、检索表或词库。它是文献与情报检索中用以标引主题的一种检索工具,更是一些规范化的、有组织的、体现主题内容的、已定义的名次术语的集合体,通常由主表、类目表、族性表、轮排表、多种语言对照表、特殊词汇表、语法予以关系表、主题词字顺表及主题词属分关系的词族表等构成。 (1)汉语主题词表 (2)工程标题词表 (3)INSPEC叙词表
4.试查相关数据库进行初步检索,借鉴相关文献的用词 为使用户检索更加方便快捷,很多数据库提供了检索词的扩展词、同义词、修正与提示功能。试查相关数据库,可以顺藤摸瓜地扩展、变更检索词。
3.4.3检索词的选词要点及技巧 1.同义词的选取,检索词的全称、简称、俗称、英文缩写及不同拼写方式,可以统称为检索词的“同义词”。查全同义词和近义词是我们提高查全率的关键。 2.隐含概念与隐含词的选取 3.英文检索词的选择 4.采用截词符或截短处理 5.如果词汇涉及面太广,难以一一枚举,最好用分类号 6.在检索中逐渐优化检索词 7.在不同的检索环境选用不同的检索词 (具体技巧见教材69-71)
附录:检索词选取案例 铁路货车197726轴承保持架裂损分析及对策研究 保持架 滚动轴承 铁路车辆 断裂 残余应力 动应力 保持架 滚动轴承 铁路车辆 断裂 残余应力 动应力 Cage, ball bearing, rail vehicle, fracture, remains stress, dynamic stress 工程制图 CAI系列课件的研制 工程制图 机械制图 画法几何 计算机辅助教学 教学软件 课件 成德绵产业带现代集成制造系统发展战略和关键应用技术研究 区域 产业带 集成制造 电子商务 Regional, Intergrate , industury or enterprise or corporation electronic commerce , manufacturing or project or product
隧道用变基氰凝及聚浮超细复合水泥基灌浆治理渗漏材料 灌浆 氰凝 聚氨基甲酸酯 超细水泥 抗渗 堵漏 grouting Low-polymer polyurethane Super fine cement 调度集中仿真系统研究 调度集中 行车指挥 仿真 计算机网络 Centralized traffic control Traffic command simulation Computer network 基于WEB平台的动态扩展ERP系统研究 企业资源计划(ERP) 供应链 客户关系 扩展 开放结构 Interprise resource planning(ERP) Supply chain Customer relation Open architecture
3.5信息需求分析 只有对信息需求真正了解,才能获得正确的检索结果。需求分析是在问题及其最终解决方案之间架设桥梁的第一步。分析清楚需求间的逻辑关系包括因果关系、依赖关系、主次关系等,需求优先级的排列,就能探索出描述这些需求的多种解决方案
3.5.1信息需求所涉及的通用问题
3.5.2用户特征所导致信息需求差异 每个人的知识结构、所处环境和面临的问题都有所不同,由此而产生的信息需求也千差万别的。即使面对同一课题,不同身份的人需求的内容也不相同。
3.5.3不同阶段的信息需求差异 在学术研究过程中,研究人员在课题设计、课题实验(试验)、成果发表、论文写作等不同阶段的信息需求也会不同
3.5.4信息需求类型和文献类型的对应关系
3.6 检索流程 检索流程是从确立信息需求到信息需求满足的全过程。对于不同的检索系统、不同的课题、不同的用户来说,其具体检索流程有所不同。通用信息检索流程一般包括:分析检索课题、选择检索工具、确定检索策略、调整检索策略及获取原始文献等流程
3.6.1分析检索课题,进行信息需求分析 课题分析确定检索主题 确定检索的范围:地理、时间段、文献类型等 预期所需文献信息数量
1、分析课题的主题内容 分析课题的主题内容、所属学科性质,明确研究课题所需的信息内容,从而提出能准确反映课题核心内容的主题概念。 2、确定检索时间范围 根据课题研究的起始年代和研究的高峰期确定检索的时间范围。
3、确定课题的文献类型 通过对课题进行主题分析后,确定所需信息的文献类型。 如果属于基础理论性探讨,要侧重于查找期刊论文、会议论文。 如果是尖端技术,应侧重于科技报告。 如属于发明创造,技术革新,则应侧重于专利文献。 如为产品定型设计,则需利用标准文献及产品样本。 明确课题对检索深度的要求,弄清用户是需要提供题录、文摘还是原始文献。
4、分析用户的检索评价要求 分析用户对检索评介指标是查新、查准还是查全。 一般来说,若要了解某学科、理论、课题、工艺过程等最新进展和动态,则要检索最近的文献信息,强调一个“新”字, 若要解决研究中某具体问题,找出技术方案,则要检索有针对性、能解决实际问题的文献信息,强调一个“准”字; 若要撰写综述、述评或专著等,强调一个“全”字。
5、分析用户的检索是否有特殊要求 是否对特定的研究机构感兴趣? 是否对特定的作者的研究感兴趣? 是否有特定的出版机构的文献与你的研究主题 相关? 其它?
3.6.2选择检索工具 掌握数据库资源所覆盖的学科范围 掌握各种数据收录文献的类型 查看数据库的详细介绍和说明 请教图书馆员要求介绍检索的最佳数据库
从内容上和时间上,考虑检索工具对课题的覆盖和一致性,比如就综合考虑数据库收录的齐全、编制的质量、使用的方便等因素。。 在手段上和技术上,有机检条件一般就不选择手检工具,机检无疑有较高的效率。 考虑价格和可获性,选择手关容易获得的检索工具,注意数据库的价格,权衡价格效益比。
根据检索课题的要求,选择最能满足检索要求的检索工具书。检索工具的选择可通过三次文献的检索,如《工具书指南》、《书目指南》、《数据库目录》等工具来指引到二次文献检索工具。目前许多检索系统提供了从学科范畴等途径选择检索工具,在DIALOG检索系统中,有411号文档为其检索系统的索引文档,用户输入检索式,系统便显示出那些数据库中命中记录及命中记录数,用户可根据命中记录数选择适当的数据库,而OCLC等检索系统则将其所有的数据库按学科范畴进行归类,向用户提供某一学科范畴所有的数据库以便选择。
3.6.3确定检索策略 根据待查课题的已知条件、课题检索的深度,以及检索工具本身可能提供的检索途径,选择检索途径、建立检索式并实施检索。
3.6.4调整检索策略 检索调整的基本目的,就是为了提高检索结果与用户需求的一致度。(这里的需求既可以是用户开始检索时明确表达的需求,也可以是检索过程中的动态需求)。如果检索结果过多或者过少甚至为零,就需要根据命中文献量的多少、命中文献的切题情况等,来决定是扩大检索范围还是缩小检索范围。
不满意 –非目标性结果 检查检索词的拼写 检查检索词的准确性-查阅词典、字典、词表,删除错误名词 调查被检索的数据库 –数据库说明、期刊列表确定是否覆盖你所需要检索的主题
扩大检索范围可采用以下方法: (1)降低检索词的专指度,可选一些上位词或相关词补充到检索式; (2)减少检索词,删去某个不甚重要的检索词; (3)进行族性检索,可用分类号或采用一组近义词、同义词或相关词用OR连接; (4)进行截词检索,可以采用后截断、前截断、前后截断等方法; (5)增加检索途径,如将主题途径与非主题途径结合起来使用; (6)取消限制过严的前后缀符、限制符。
缩小检索范围入手可采用以下方法: (1)提高检索式的专指度,增加或换用下位词或子概念或专指度较强的自由词; (2)逐步缩小检索途径的检索范围:全文→主题→文摘→关键词→题名; (3)有些数据库还能限定期刊范围:全部期刊→重要期刊→核心期刊。 (4)用AND连接一些进一步限定主题概念的相关检索项; (5)用位置算符控制检索词的词间顺序与位置; (6)增加检索途径例如文献类型、语种、地理范围、年代范围、作者或号码作为限定。 (7)利用NOT限制与提问不相关的文献的输出; (8)使用精确运算符"",或选择精确匹配(中文库)
满 意 是否获得全部所需? 打印、Email或存档 是否需要获取全文 ? 连接全文连接;图书馆期刊、资料;原文传递服务
3.6.5获取原始文献 利用全文数据库直接获取 利用文献传递系统获取 中国国家科技图书文献中心(简称NSTL) (http://www.nstl.gov.cn/index.html) 利用文摘数据库的原文服务 利用OPAC检索系统,进行馆际互借
3.7 检索效果评价 信息检索效果是利用检索系统进行检索所产生的有效结果。检索效果评价是根据一定指标,对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。
1、 检准率: 检准率=检出切题文献数量/检出文献 总量 *100% 2、 检全率=检出切题文献数量/数据库或检索工具中存贮的切题文献数量*100%
Q & A