Presentation is loading. Please wait.

Presentation is loading. Please wait.

The Principles and technology of Social sciences Information Retrieval

Similar presentations


Presentation on theme: "The Principles and technology of Social sciences Information Retrieval"— Presentation transcript:

1 The Principles and technology of Social sciences Information Retrieval
第三章 社科信息检索原理与技术 The Principles and technology of Social sciences Information Retrieval 深圳大学图书馆 2017年9月

2 信息检索原理 第一节 信息检索语言 第二节 信息检索技术 第三节

3 第一节 信息检索原理 基本概念 信息检索原理就是用户将信息需求转变为检索系统所能识别的检索标识,与信息检索系统中存储的信息特征进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。 其检索结果既可能是用户需要的最终信息(一次信息),也可能是用户需要的信息线索(二次信息),用户可据此线索进一步进行判断、筛选,以获取所需要的最终信息。

4 第一节 信息检索原理 信息检索原理图

5 第一节 信息检索原理 文献信息存储过程: 标引: 文献信息检索过程: 概念解释
将大量分散的文献信息搜集起来,根据其内容特征或外表特征进行标引,形成表征这些 文献信息的特征标识,并存储在一定的载体上,成为有查询功能的检索工具。 标引: 对文献内容特征和外部特征进行分析形成概念标识,再依据一定的标准或规则 (检索语言:如分类号、主题词、关键词及著者选用规则等)将其用相应的标识充分、准确地表达出来。 文献信息检索过程: 用户根据自己的信息需求,提出检索提问,然后使用有关的标引语言(也称检索语言) 将拟定的检索提问规范成检索标识,用于检索的过程。

6 第二节 信息检索语言 概念说明 检索语言就是信息组织和信息检索时所使用的语言(包括自然语言)。
信息检索语言是文献信息标引的规则和标准,标引人员可用它来标引文献以便将文献整理、加工、存储于检索系统中,同时,检索人员可 用它来表达检索课题信息的内容,以便把特定文献从检索系统中检索出来。 因此,检索语言就是一种把文献的存储与检索联系起来,把标引人员和检索人员沟通起来的约定人工语言。

7 第二节 信息检索语言 主要功能 ①对文献的信息内容及其外表特征加以规范化的标引; ②对内容相同及相关的文献信息加以集中或揭示其相关性;
③可使文献信息的存储集中化、系统化、组织化,便于检索者按一定的排列次序进行有序化检索; ④便于将标引用语和检索用语进行相符性比较; ⑤最高全准率:保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。

8 第二节 信息检索语言 检索语言在检索中的作用

9 第二节 信息检索语言 例如:有三篇文献篇名如下:
文献1:A Model of multimedia information retrieval 文献2:The Information retrieval in chemistry WWW server 文献3:ERIC resources 在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为: 文献1:篇名(title): A Model of multimedia information retrieval 主题(subject): information retrieval, multimedia computer applications 文献2:篇名(title): The Information retrieval in chemistry WWW server 主题(subject): chemistry, educational materials 文献3:篇名(title): ERIC resources 主题(subject): educational materials 标引后这三篇文献分别被存储进数据库

10 第二节 信息检索语言 在信息检索过程中: 如果用户输入“information retrieval”一词,并将检索范围限定在篇名中,则文献1与文献2符合用户要求,成为检索结果。 如果用户输入“information retrieval”一词,并将检索范围限定在主题中,则只有文献1符合 用户要求,成为检索结果。 如果用户输入“educational materials”一词,并将检索范围限定在主题中,则文献2和文献3 符合用户要求,成为检索结果。 在上述例子中,“information retrieval”、“educational materials”都是检索语言,篇名和主题则是检索语言的标识,检索系统就是通过他们将用户需求与信息内容进行运算匹配,最终找到检索结果的。 由这个例子可以看出,检索语言的主要作用就是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。

11 第二节 信息检索语言 2.1 分类检索语言(体系分类法、组配分类法、混合式分类法)
文献分类的实质是按照知识体系分类和概念逻辑的方法,对文件的信息进行区分和归类。 分类语言的词表即为分类表,它是由众多类目按照一定的知识分类和概念逻辑秩序,并考虑 文献分类的需要而构成的体系。 由于分类语言通常采用字母或数字符号来构词,因而表达这些概念意义的分类语言词语就是类目的号码,即类号,通过自然语言的类名,可以直接的理解类目的含义,借助形势化符号的类号,可以系统的揭示与组织文献信息。 文献分类的意义在于,根据文献信息的内容特征和分类词表,把相同内容的文献集中起来,同时又把不同内容的文献信息区别开来,以实现相关集中的功能。

12 第二节 信息检索语言 2.1 分类检索语言(体系分类法、组配分类法、混合式分类法)
分类检索语言中使用较多的是体系分类法,其主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。体系分类法具有按学科或专业集中系统地向人们揭示文献资料内容的功能,这对于希望系统掌握和利用某一专业范围的文献而言,无疑是有效的。 如 《中国图书馆分类法》是国家推荐统一使用的分类法,被许多检索工具采用或改编,分5大部类22大类,类号采用汉语拼音字母与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。 如:

13 F—经济(大类) F2--- 经济计划与管理(二级类) F25 --物资经济(三级类) F250 --物资经济理论(四级类) F 物资管理(五级类)…. 按体系分类法检索的长处是,能满足从学科或专业角度广泛地进行课题检索的要求,达到较高的查全率。 查准率的高低与类目的粗细多少有关,类目越细,专指度越高,查准率也越高。 但类表的篇幅是有限的,类目不可能设计得很细。 因此,分类法只是一种“族性检索”,而非“特性检索”。

14 第二节 信息检索语言 2.2主题检索语言 概念:是指经过控制的,表达文献信息内容的语词。是以自然语言的语词为字符,以规范化或未经规范化的名词术语为基本词汇,以概念之间的形式逻辑作为语法和构词法,用语词字顺排列,主题概念以参照系统显示概念之间关系的一类检索语言。 主题检索语言可分为标题词语言(标题法)、单元词语言(元词法)和叙词语言(叙词法)。标题词语言属于先组式语言,单元词语言和叙词语言属于后组式语言。关键词语言(键词法)因其性能与上述几种语言相似,通常也归入主题检索语言一类,实质上它是一种在情报检索中直接使用自然语言的方法,对取自文献本身的语词只作极少量的规范化处理,也不显示文献主题概念之间的关系,是一种准情报检索语言。

15 第二节 信息检索语言 2.3自然语言 概念:就是将千百年来存在于人类社会生活中自然形成的非规范语言,通过一定的语言处理技术,使之应用于信息检索系统的信息组织、标引与输出 。 特点:对信息检索领域来说,采用自然语言的方式,可以有效解决潜在语义表达上的不匹配因素,自然语言的语言思维形式,对信息的表达对应性较强,因而有利于形成在语言无损耗 意义上的排序输出问题。

16 第二节 信息检索语言 自然语言的标识包括: (1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。 这部分有时由人工自由标引进行,如期刊论文中的作者关键词,大部分由计算机标引系统自动完成。 (2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。 (3)全文:从资源的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用得最多的方法。 (4)引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。 此外,还有责任人(作者)、摘要等。由于自然语言检索系统对同义词、近义词、多义词等与其相关的词语没有进行规范和统一,当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响查全率。自然语言检索系统的选词没有严格限制,词量过多过杂势必会影响查准率。

17 第三节 信息检索技术 基本概念 何谓信息检索?
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 何谓信息检索技术? 由于信息资源具有高度的组织结构。因此,要想做到快速、准确地检索需要一些特殊的技术。通过学习和掌握这些技术与技巧,你就能在浩瀚的信息海洋中,轻而易举的获取你的“目标”,从而让你的科研或学习过程变得更加便捷与高效。 信息检索技术的构成? 检索算符、检索功能、检索策略、检索评价

18 第三节 信息检索技术 3.1 检索算符 用一个关键词检索可能比较简单容易,但通常检索课题会用到多个关键词。
如何科学的将这些检索词进行有效组合,以求达到最好的检索效果,这就要涉及到多个检索概念的方法和技巧。 3.1.1 布尔逻辑算符 布尔逻辑算符是规定检索词之间逻辑关系的算符,利用布尔逻辑算符进行检索词或代码的逻辑组配,是计算机信息检索系统中最常用的一种检索方法,也称布尔检索。

19 第三节 信息检索技术 (1)逻辑“或” "OR" 或“+”表示 (2)逻辑“与” "AND" 或“*”表示 (3)逻辑“非”
布尔逻辑算符通常包括以下三种: (1)逻辑“或” "OR" 或“+”表示 (2)逻辑“与” "AND" 或“*”表示 (3)逻辑“非” "NOT" 或 “-”表示

20 第三节 信息检索技术 (1)逻辑“与”(AND或*) 逻辑“与” (AND) 是用来组配具有相互交叉限定关系的检索概念。逻辑“与”有时也用“*”代替(各数据库有时表达不同),其含义是检出的记录中同时含有“AND”前后两个检索词。如:查找有关“纳米”和“材料”方面的文献时,其检索式为: ●Nano AND Materials  ●Nano * Materials

21 第三节 信息检索技术 (2) 逻辑“或”(“OR”或“+”) 在检索中,你也可以用逻辑“或”(OR)连接关键词。检索式(A OR B )可以检索到包含A或者B或者A和B同时出现的文献。OR最好用于针对一个概念的同义词检索。很显然,使用OR可以扩大检索范围。

22 第三节 信息检索技术 例如 Internet OR Web
  使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或 Web 的文献或Internet 与Web 同时出现的文献。也可以在一次搜索中多次使用OR: 如:Internet OR Web OR online OR digital OR wired 有的中文数据库在使用 OR 时需用“+”来代替: 互联网 + 网络 + 在线 OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提高检索的查全率 如:查找“肿瘤”的检索式为: cancer(癌)or tumor(瘤)or carcinoma(癌)

23 第三节 信息检索技术 当你希望所找的文章中包含两个或两个以上的检索概念时,你可以在检索式中用“AND”将这些关键词连接起来,表示这些关键词必须同时出现在记录中的某处。使用“AND”将缩小检索范围。 如: students AND Internet   输入上面这个检索式,会找到关于students和internet同时出现的文章,只包含其中一个词的文章是不会被检索到的。因此, 在连接不同概念的检索词时,AND是非常有用的。在一个检索式中,AND可以被使用多次。 如: students AND Internet AND assignments 有的中文数据库用*来代替AND,就象下面的这个例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认。 如:学生 * 互联网

24 第三节 信息检索技术 需要注意的是,有的中文数据库在使用NOT时需用“-”来代替,就象下面的例子。当然,不是所有的中文数据库都支持这种用法,你可以查看帮助文件加以确认. 如:  计算机 - 软件 上述检索式用于查找只出现计算机而不出现计算机软件的文献,用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B, 检索式为:A NOT B (或A—B) 表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。    如:要查找除中国之外的“经济学”的文献,其检索式为: Economics(经济学) not China(中国)

25 第三节 信息检索技术 图(a) 图(b) 图(c)

26 第三节 信息检索技术 截词符就是用一个符号来代替单词的一部分或某个字母。截词符一般常用于英文检索。
3.1.2 截词算符 截词符就是用一个符号来代替单词的一部分或某个字母。截词符一般常用于英文检索。 截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。这样可以扩大检索范围,提高查全率,节省检索时间。 截词符用于检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方法,通常许多数据库用 * 或者 ? 来表示。 截词方式: 按截断的位置来分共有三种: 后截断、中间截断、前截断

27 中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以
三种截断 中文数据库截词一般只能用在词尾,英文数据库则3种方式都可以 (1)后截断 后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。 A.后截断无限截词 不说明具体截去字符的数量。截词符是在一个词尾加一个 ? 号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。无限截词通常用 ? 或 * 来表示 把截词符放在字根的最后。如:behav? 系统将找出 “behave, behaviour,behavioural”等 B.后截断有限截词 说明具体截去字符的数量,截词符是在一个词尾加有限个 ?号,n个 ?号表示其后可添加的字符数少于等于n个。 如:smok?? ;系统 将对smoke , smoky , smoked , smoker , smokes等进行检索 (2)中间截断 中间截断是把截词符号放在一个检索词的中间。一般中间截断只允许有限截断。中间截词符也称通配符,是在一词中间用若干个?号,表示可插入若干个字符。 中间截断主要用于英式和美式单词的不同拼写方式,以及有些词出现单复数不同。 如:organi?ation;系统将对 organisation 和 organization 进行检索。 如: wom?n ; 系统将找出 "woman" , "women“; (3)前截断 前截断就是把截词符放在字根的左边。如:*Computer, 系统在检索时将找出Microcomputer,mini-computer 等

28 (W)与(nW) (N)与(nN) 第三节 信息检索技术 位置算符:表示其连接的两个检索词之间的位置关系(A B) 不同位置算符的比较:
3.1.3 位置算符 位置算符:表示其连接的两个检索词之间的位置关系(A B) 不同位置算符的比较: 两个词(A B)由不同的位置算符连接组成不同的检索式,其检索结果显然不同。 (W)与(nW) (N)与(nN)

29 第三节 信息检索技术 位置算符 常用位置算符的使用简介 常用位置算符 (1) (W)与(nW) 算符 (2) (N)与(nN)
(W): 是with的缩写。(W) 表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。如:high(W)class 命中的记录中出现的匹配词可能有:high class 或high-class。 (nW): 与(W)类似, 只是它允许插词,插词量小于或等于n个。 如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外,还可能会有:silicon angular rate sensor , silicon-based chemical sensor等等 (2) (N)与(nN) (N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词 (nN): (nN)中的n表示允许插词量少于或等于n个。 如:internet(1N)accessing 命中记录中除上例的外,还会可能有: accessing the internet , internet /intranet accessing等 常用位置算符

30 第三节 信息检索技术 检索功能是指检索系统在检索界面上提供给用户的基本功能。 3.2 检索功能 它与系统的检索技术是紧密结合的。
比较通用的检索功能有:浏览、索引、词表、简单检索、高级检索、专家检索、二次检索等。 上述检索功能都是技术上较为成熟,在检索系统中得到广泛应用的。

31 3.2.1 浏览检索:可选择期刊、图书、丛书、电子参考书及图片等进行浏览检索
第三节 信息检索技术 3.2.1 浏览检索:可选择期刊、图书、丛书、电子参考书及图片等进行浏览检索 利用检索系统提供的树型结构, 从“树根”开始,逐层逐级打开 ,直到找到所需文献

32 第三节 信息检索技术 3.2.2索引检索(Index)

33 第三节 信息检索技术 索引检索(Index) 一些数据库常将其文献记录的一个或几个字段中具有实际检索意义的词,按字顺排成一个表单式的索引,供用户选择检索。索引的种类很多;如人名索引、出版物索引、地名索引、主题索引、机构索引等。 如图所示的作者索引(取自EI数据库) 用途:在不清楚作者名称是全称还是缩写的情况下使用作者索引可节省检索时间和保障查全率或查准率。

34 第三节 信息检索技术 3.2.3 简单检索(Easy Search)
简单检索又称基本检索。即为用户提供一个简单的检索界面,类似于搜索引擎。由于不能构造比较复杂、精细的检索式,因此检索结果不是很准确。 检索词

35 第三节 信息检索技术 词表检索是主题检索途径。一些检索系统把自己的词表编入检索系统。用户在确定检索用主题词的同时,可以直接进行检索。
3.2.4 词表检索 词表检索是主题检索途径。一些检索系统把自己的词表编入检索系统。用户在确定检索用主题词的同时,可以直接进行检索。 检索实例: 用户要进行有关“激光”的主题检索;进入EBSCO数据库后,选择主题检索途径,然后输入检索词“Laser”

36 第三节 信息检索技术 检索示例: 检索词

37 第三节 信息检索技术 系统出现的检索结果如下;用户可根据系统列出的有关主题词按自己的需求进行选择

38 第三节 信息检索技术 3.2.5 高级检索 高级检索可利用组配检索和字段检索来构造比较细致的检索式,帮助用户进行精确检索。使检索更为灵活,检索结果更加准确。 组配检索: ★布尔逻辑组配:library and information; ★位置算符组配:library (3w) information;

39 第三节 信息检索技术 EBSCO数据库的高级检索界面 Advanced search

40 第三节 信息检索技术 专家检索 专家检索可为专业用户、资深用户提供比较复杂的检索界面。专家检索多为命令式检索方式,适合熟悉检索指令、检索经验丰富的用户使用。用户可将编制好的检索式填到检索框中,即可进行检索。使用专家检索可构造较复杂的检索式,达到较高的查全率和查准率,一般查新人员大多采用这种方式。 例如:(EI数据库) 在文摘中查找“Laser beam cutting” ;可以表示为“Laser beam cutting” wn AB; 在题名中查找可表示为:(seatbelts OR seat belts) wn TI ,以此类推。 专家检索采用布尔运算符(AND, OR, NOT)连接检索词。例如:查找深圳大学牛憨笨的文献,检索式为:niu hb wn AU AND shenzhen univ wn AF

41 第三节 信息检索技术 EI数据库的专家检索界面

42 第三节 信息检索技术 二次检索 二次检索是指在当前这次检索结果范围内,再次输入不同的检索词,运用布尔逻辑检索、截词检索等方式进行检索。经过多次的二次检索,逐渐缩小文献范围,使检索结果更符合您的查询目标。 例如: 使用EI数据库检索纳米材料的有关文献时,用“所有字段All field ”途径,第一次输入关键词“纳米材料Nano materials”,检索年限: 检索出来的结果较多,共有87963条记录。 调整检索式: 1.检索词由“All field (所有字段)”改变为“Title (题名)”字段; 2.检索文献类型限制为:Journal article(期刊); 3.检索结果由87963条记录缩减至636条。

43 第三节 信息检索技术 执行一个课题的检索是按过程、分步来完成的 检索步骤的科学安排称为检索策略(search strategy)
它是为实现检索目标而制定的全盘计划或方案

44 第三节 信息检索技术 3.3.1 检索课题分析 检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是影响检索效率高低或成败的关键。 要明确以下问题: ◎分析课题的主要内容及其所涉及的学科范围。 ◎所需文献的类型、语种、年代及文献量的范围。 ◎对查新、查准、查全的指标要求,及其侧重。

45 第三节 信息检索技术 大学本科期间,你需要为平时的作业和毕业论文搜集资料。研究生期间,你需
3.3.2 选择信息资源 大学本科期间,你需要为平时的作业和毕业论文搜集资料。研究生期间,你需 要深入的学习和研究,就必须查找相关的文献信息。毕业后,你如果从事技术和 科研工作,必不可少地要查找一些标准或专利文献;如果你在公司从事管理,那 就必需了解市场环境信息和与公司生存、发展密切相关的政策与法规文件,简言 之,在当前这个时代,无论是学习、工作、还是生活都离不开信息,掌握如何快 速、准确的获取信息资源的方法是非常重要的,也是现代社会与现代人必备的基 本技能。

46 第三节 信息检索技术 信息检索的基本流程 确定检索词 构成检索式 修改检索式 提交计算机 不满意 结果显示 满意 完成 分析检索要求
选择数据库 确定检索词 构成检索式 修改检索式 提交计算机 不满意 结果显示 满意 完成

47 要做到全面、准确地选择信息资源,主要从以下几个方面进行分析
第三节 信息检索技术 要做到全面、准确地选择信息资源,主要从以下几个方面进行分析 1 检索目的(课题申报、开题报告、学术论文、科技查新、课程论文、商业需求及其它需求类型等) 2 确定课题学科、专业、关键点 3 确定所需信息的时间范围 4 明确所需信息类型;图书、期刊、会议论文还是专利、标准 5 确定与检索主题相关的学科范围的信息源 6 确定目标信息源的形式(全文、索引还是文摘) 7 确定所需信息源的语种(中文或外文)

48 第三节 信息检索技术 3.3.3 选择检索字段 检索字段的功能是什么? 检索字段主要用于限定检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,利用字段检索可以用来控制检索结果的相关性,以提高检索效果。 检索字段又分为以下2种: 1.基本检索字段: 基本检索字段反映文献内容特征;由篇名、文摘、主题词等字段中所有有意义的检索词构成。 例如:检索时选择篇名字段进行检索,则意味着检索词会出现在检索结果的题名中。一般而言,在一些常用的数据库中选择“主题”检索字段,就表示凡是“题名、关键词、摘要”中包含有检索词的文献都会被检出(具体参见数据库说明) 2.辅助检索字段:辅助检索字段反映文献外部特征;由作者、机构、文献类型、分类号、语种、出版年等字段构成。

49 常用检索字段 常用检索字段 英文 说明 第三节 信息检索技术 题名 TI 文献标题 主题 SU 题名、关键词、摘要 摘要 AB 论文摘要
作者 AU 作者姓名 单位 CS 作者单位 来源 SO 发表论文的期刊名称 (学位授予单位、会议录名称) 关键词 Key word 用于表达主题内容的单词或词组 期刊 JN 期刊名称 全文 Full Text 整篇文献

50 第三节 信息检索技术 3.3.4 检索式的制定 检索式 是检索策略的具体体现,它用检索算符将检索词组合起来,并正确表达检索词之间的逻辑关系和位置关系。检索式的好坏决定了检索质量。 检索词 可以是一个单元词、表达单一的概念;如:Computer; 也可以是一个或多个词组,表达多个概念。例如:Computer Memory Test 等等。检索词可由用户提出,也可在数据库的受控词表(主题词、分类表等)中选择 例如检索课题为:计算机内存管理机制分析 其检索式为: (Memory management) AND mechanism AND ( analysis OR analyze)在这个检索式中,包含了4个概念,这4个概念用单元词或词组表示,将这4个概念用布尔逻辑算符AND 和OR以及括号()连接起来,即构成一个检索式。

51 第三节 信息检索技术 例如:用Google 高级搜索在网页标题中查找有关“全球”和“金融危机”的网页的检索式:

52 第三节 信息检索技术 3.3.5 检索策略的调整 检索文献其实是一个增长知识、开阔眼界的过程,也是科学研究活动中最具创造性的方面之一。 如检出的篇数过多(不相关文献所占比例很大),或检出的文献太少,这时就需要调整检索策略。 调整检索策略就是根据反馈的检索结果,反复对检索式教学调整,直至得到满意的结果。 缩窄检索条件 (检出的篇数过多,且不相关文献所占比例很大) 对检索数量过多的检索结果,考虑进行缩检,提高查准率,具体方法与上述“扩检”相反。 ①减少同义词或同族相关词,增加限制概念,用逻辑与(AND)将它们连接起来; ②使用字段限制和适当的位置算符; ③使用逻辑非(NOT)算符排除无关的概念以及减少检索年限等措施 放宽检索条件 (系统输出篇数过少) 对检索数量较少的结果,可以继续扩检,提高查全率。调整检索策略的方法有: ①在检索词方面,检查检索词的拼写,扩展检索概念,增加使用同义词和近义词; ②在策略调整方面,减少位置算符、字段算符和逻辑与(AND)算符,在适当的地方增加使用截词算符。 ③取消或放宽一些检索限定,例如将检索年限放宽一些,将“题名”检索改为“文摘”或“全文”检索,还可将下位词改为上位词等。

53 检索完成后,要对检索结果进行审核;分析评价检索结果是否理想,以及计算机信息检
第三节 信息检索技术 3.4 检索结果评价 检索完成后,要对检索结果进行审核;分析评价检索结果是否理想,以及计算机信息检 索系统的效能如何,最常用的指标有查全率和查准率。 1.查全率: 检出的相关文献数与系统内的相关文献总数之比,又称检全率、命中率。 查全率=(检出相关文献数/文献库内相关文献总数)×100% 2.查准率:检出的相关文献数与检出的文献总数之比。又称检准率、相关率。 查准率=(检出相关文献数/检出的文献总数)×100% 影响查全率和查准率的重要因素: 一般而言,检索工具标引的深度越大,查全率越高。查 准率主要取决于检索语言的专指性和拟定的检索策略。若检索策略定的较宽,参与组配的 检索词较少,主题词的概念比用户的信息需求广泛,则查准率降低,查全率增高,两者通常 呈互逆相关关系。


Download ppt "The Principles and technology of Social sciences Information Retrieval"

Similar presentations


Ads by Google