网络信息文献检索与利用 任课教师:庞 佳
2 网络信息资源检索 2.1 网络信息资源检索的概念 2.2 网络信息资源检索的类型2.3 网络信息资源检索的途径 2.4 网络信息资源检索的步骤 2.5 网络信息资源检索的方法 2.6 网络信息资源检索技术 2.7 网络信息资源检索的效果评价
2.4 网络信息资源检索的方法 网络信息资源的检索,可以根据不同的需求和具备的检索条件,选择不同的检索方法。操作简便、效率高、结果精准是选择检索方法的基本要求。经常使用的检索方法包括常用检索法、回溯检索法和循环检索法。 直接检索法 回溯法 间接检索法 顺查法 信息检索方法 常用法 倒查法 抽查法 复合交叉法 循环法 间隔交替法
2.4 网络信息资源检索的方法 常用检索法(工具检索法) 直接检索法 2.4 网络信息资源检索的方法 常用检索法(工具检索法) 常用检索法是以信息内容的归类、主题等为检索点,在检索系统中查 找信息资源的方法。根据检索的方式,可以分为直接检索法和间接检索法;根据 检索的要求,可以分为顺查法、倒查法和抽查法。 直接检索法 直接检索法,就是在检索系统中根据检索系统的设置直接按照不同的 字段进行检索的方法。如按照题目、著者、关键词、出版时间、文献类型等不同 内容进行检索。通过直接检索法,可以检索到确定的知识、信息、文献等内容, 获取信息的效率也较高。
2.4 网络信息资源检索的方法 常用检索法(工具检索法) 间接检索法 2.4 网络信息资源检索的方法 常用检索法(工具检索法) 间接检索法 是根据检索目标和信息检索的需求,选择适当的检索系统,采用合理 的检索策略,对目标信息进行检索。 间接检索获得的信息不是确定的内容,而是与检索目的相关的一系列 信息的集合。在使用时,需要根据检索的目的进行适当的调整与选择。
2.4 网络信息资源检索的方法 回溯检索法 回溯检索法也称追溯法、引文法、引证法,是一种追踪查找信息的检 索方式。回溯检索法是以所获得的信息资源的参考文献或注释为线索,对信息资 源进行追溯查找,再获得新的信息资源。通过回溯检索可以比较全面的掌握某个 主题的发展脉络和研究历程。但回溯检索获得的文献是在时间上由近及远的,亦 即越查越旧,所以回溯检索的文献查全率不高。检索时应根据课题需求选择回溯 的范围。 目前,常用的、质量较好的索引包括美国科学情报所于1961年出版的《科学 引文索引》(Science Citation Index,SCI)、《社会科学引文索引》(Social Science Citation Index,SSCI)、(EI Village2,EI)。中国科学院情报中心出版的 《中国科学引文索引》,南京大学于1999年出版的《中文社会科学引文索引》( Chinese Social Sciences Citation Index,CSSCI)。
2.4 网络信息资源检索的方法 循环检索法 循环检索法也称交替法、综合法、分段法,是一种综合使用常用检索 法和回溯检索法的信息检索方法。采用循环检索法时,一般先利用检索系统按照 主题、作者、分类、关键词等手段,检索出一批和检索需求主旨吻合的信息资源 ,然后对这些信息进行筛选,选择具有较高价值的文献,并通过文后或文中的参 考文献及注释进行回溯查找。将常用检索法和回溯检索法交替进行几个回合,直 至检索出满意的检索结果为止。 循环检索法具有较好的查全率和查准率,在论文开题和写作中可以提 供结果全面、效率高的信息检索,是论文写作中的必要过程。
2 网络信息资源检索 2.1 网络信息资源检索的概念 2.2 网络信息资源检索的类型2.3 网络信息资源检索的途径 2.4 网络信息资源检索的步骤 2.5 网络信息资源检索的方法 2.6 网络信息资源检索技术 2.7 网络信息资源检索的效果评价
2.4 网络信息资源检索的技术 掌握了网络信息资源检索的步骤、途径,了解了检索的方法,就可以根据实际需求,选择合适的数据库或网络系统进行信息的检索,但是由于检索的目标往往是一个复杂的概念,不是一个词语能够表达清楚的,而不同的检索系统又有着不同的信息组织模式。因此,我们还必须掌握一些检索的技术,才能更好的将信息需求与信息检索系统中的信息资源匹配,获得高质量的检索结果。 虽然不同的数据库系统和搜索引擎等互联网检索系统采用的信息组织模式不完全相同,但基本的检索技术在大多数检索系统中是通用的,常见的检索技术包括布尔逻辑检索、截词检索、位置检索和限制检索。
2.4 网络信息资源检索的技术 布尔逻辑检索 布尔逻辑检索是运用布尔逻辑算符表达检索词之间的逻辑关系,组配 出完整的检索概念,实现信息检索目的的检索技术。 布尔逻辑检索采用的逻辑运算符包括“与”、“或”、“非”,以及 大于、小于、等于、不等于等。“与”、“或”、“非”是最为常用的逻辑运算 符。 (1)逻辑“与” 逻辑“与”用“AND”或“ * ”表示,其含义为若两个或多个检索词间以“AND”或“ * ”相连接,则表示该两个或多个检索词需同时出现在检索字段中,则文献才被命中。 如:检索“网络信息资源的发展”,则检索式为: 网络 AND 信息资源 AND 发展 则上述3个检索词必须同时出现在检索字段中,文献才能被命中。
2.4 网络信息资源检索的技术 布尔逻辑检索 (2)逻辑“或” 2.4 网络信息资源检索的技术 布尔逻辑检索 (2)逻辑“或” 逻辑“或”用“OR”或“ + ”表示,其含义为若两个或多个检索词间以“OR”或“ + ”相连接,则表示该两个或多个检索词只要有一个出现在检索字段中,则文献被命中。 如:检索与“信息资源或网络信息资源”相关的文献,那么检索式可为: 信息资源 OR 网络信息资源 则上述2个检索词只要有一个出现在检索字段中,其所在的文献则被命中。
2.4 网络信息资源检索的技术 布尔逻辑检索 (3)逻辑“非” 2.4 网络信息资源检索的技术 布尔逻辑检索 (3)逻辑“非” 逻辑“非”用“NOT”或“ - ”表示,其含义为若两个检索词间以“NOT”或“ - ”相连接,则表示只有NOT前面的检索词出现在检索字段中,而NOT后面的检索词不出现在检索字段中,则文献被命中,其他情况文献不被命中。 如:检索“网络信息资源而不包含信息资源”的相关文献,那么检索式可为: 网络信息资源 NOT 信息资源 则只有当“网络信息资源”出现在检索字段中,而“信息资源”不出现时,文献才能 被命中,而其他情况时文献都不会被命中。
2.4 网络信息资源检索的技术 布尔逻辑检索 算法的优先级 2.4 网络信息资源检索的技术 布尔逻辑检索 算法的优先级 在逻辑运算中,如果有多个以“非”、“与”、“或”相组配的检索词表达一个完整的概念时,有时需要确定其检索顺序,让检索系统进行多步检索,实现更加准确的检索需求与检索内容的匹配。此时,我们会选用括号来标示检索的顺序,并将其称为算法的优先级。如果检索式中有括号,则括号内的检索式被优先执行,然后再执行括号外的检索式。如果一个检索式中有两个或多个括号,那么先执行里面的括号,再依次执行外面的括号。 如:检索与“手机或移动电话的发展”有关的文献,检索式可以为: (手机 OR 移动电话)AND 发展 此时,检索系统将先命中检索字段中含有“手机”或“移动电话”的文献,然后从这些文献中再命中同时还含有“发展”这个检索词的文献,并呈现检索结果。
2.4 网络信息资源检索的技术 截词检索 截词是指在检索词的合理位置截断检索词,然后使用截词符进行替代 。截词检索是利用截断的词的一个局部进行的检索,并认为凡满足这个词局部中 的所有字符(串)的信息,都为命中的信息。 截词检索既可节省输入的字符数目,又可达到较高的查全率。在西文 检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。 因此,截词检索是预防漏检、提高查全率的一项常用的检索技术,目 前大多数系统都提供截词检索的功能。
2.4 网络信息资源检索的技术 截词检索 截词符的形式与分类 2.4 网络信息资源检索的技术 截词检索 截词符的形式与分类 不同的系统使用的截词符不完全相同,但最常用的截词符有“ * ” 和“ ? ”等多种截词符。按照截词符代替的字符或字符串的数量可以分为有限截 词和无限截词。有限截词,即指一个截词符只代表一个字符。无限截词则是指一 个截词符可代表多个字符或一个字符串。因此,“ * ”和“? ”也代表了不同的 截词含义。 “ * ”代表 0 或 1 个字符,而“? ”代表 0 或多个字符或一个字 符串。
2.4 网络信息资源检索的技术 截词检索 (1)“ * ” 2.4 网络信息资源检索的技术 截词检索 (1)“ * ” “ * ” 只代表单词中任意位置的 0 或 1 个英文字符。在出现单词 的单复数、英式和美式拼写时,使用“ * ”可以一次将两种不同写法同时检索出 来。 如:检索 colour 或 color 时,可以写成 colo*r,这样可以用“ * ”代替“ u ”或 没有字符,那么检索结果会将包含 colour 和 color 两个词的文献全部命中。 (2)“ ? ” “ ?”可以代表单词中的 0 或多个字符。在检索词出现名词、现在分 词、过去分词等不同形式时,可以采用“ ?”代替单词的不同词根部分,一次性 获得全部形式的检索结果。 如:检索“管理”这个概念时,会有manage、managing、management等多个拼写形式, 那么可以将检索式写为: manag?,则检索结果会将包含上述单词的文献全部显示。(以题 名字段为例)
2.4 网络信息资源检索的技术 截词检索 截词符的形式与分类 按照截词的位置,截词检索可以分为后截断、前截断、中截断三种较 常用的类型。即用截词符替代检索词前面或中间的某个部分,亦或替代检索词右 侧的部分。 (1)后截断,前方一致。如:comput ? 表示computer, computers, computing等。 (2)中截断,中间一致。如: ?comput ? 表示minicomputer, microcomputers等。 (3)前截断,后方一致。如: ? computer 表示minicomputer, microcomputers等。
2.4 网络信息资源检索的技术 截词检索 后截词 是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括: (1)有限后截词:主要用于词的单、复数,动词的词尾变化等。如books可用book ? 代表,其中截词符“ ? ”(也称为通配符)可以用来代替 0个或1个字符。因此 ,book ?可检索出包含有book或books的记录;acid? ?可检索出含有acid,acidic 和acids的记录。 (2)无限后截词:主要用于同根词。如computer用comput?处理,可检索出含有computer,computing等同根词的记录。由此可知,在词根后加一个“ ?”,表示无限截词符号。
2.4 网络信息资源检索的技术 截词检索 中截词 中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为“ ? ”,即用“ ? ”代替那个不同拼写的字符。 使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。
2.4 网络信息资源检索的技术 位置检索(临近检索) 2.4 网络信息资源检索的技术 位置检索(临近检索) 位置检索也称临近检索,是以信息记录中检索词与检索词间特定位置 关系为对象,采用一些特定的位置算符表达检索词之间的相互关系的检索方法。 由于词语顺序的不同可以表达不同的含义,因此检索时检索词的顺序 也可以表达不同的检索含义和检索目的。布尔逻辑运算不能控制检索词的位置, 对有些检索含义不好表达。因此,我们使用位置检索,通过限定检索词之间的位 置进一步确定检索词之间的顺序,固定检索的含义,使检索的效果更加准确。 按照两个检索出现的顺序相距离,可以有多种位置算符,对同一位置 算符,检索系统不同,规定的位置算符也不同。 常用的位置算符有“With、Near 、In ” 等。
2.4 网络信息资源检索的技术 位置检索(临近检索) 2.4 网络信息资源检索的技术 位置检索(临近检索) “With”:用于两个检索词之间,表示其两侧的检索词必须紧密相连, 除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。 “With”可以缩写为“W”或“()” 如: information WITH resource 或 information () resource “Near”:表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。 如:smoking NEAR lung “nWord”:表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,但检索词之间允许有其他的词,“nWord”可缩写为“(nw)”,n代表插入单词的个数。 如: laster (1W) print可检索出包含 “laser printer”、“ laser color printer”和“ laser and printer”
2 网络信息资源检索 2.1 网络信息资源检索的概念 2.2 网络信息资源检索的类型2.3 网络信息资源检索的途径 2.4 网络信息资源检索的步骤 2.5 网络信息资源检索的方法 2.6 网络信息资源检索技术 2.7 网络信息资源检索的效果评价
2.4 网络信息资源检索的效果评价 检索效果(Retrieval Effectiveness),是指检索结果的有效程度。检索效果 反映了检索系统的检索性能与效度。 检索效果可以从技术效果和经济效益两方面评价。技术效果是指检索系统在满足检索需求时的性能和效果;经济效果是指检索时所花费的时间和经济成本。目前常用的网络信息资源检索效果的评价指标包括:查全率、查准率、漏检率、误检率等四项指标。其中最主要也是最常用的评价指标为查准率(Precision Ratio)和查全率(Recall Ratio) 。
2.4 网络信息资源检索的效果评价 查准率(Precision) 2.4 网络信息资源检索的效果评价 查准率(Precision) 查准率(精度)是衡量某一检索系统的信号噪声比的一种指标,即检 出的相关文献与检出的全部文献的百分比。普遍表示为:查准率 =(检索出的相 关信息量/检索出的信息总量)x100%。使用泛指性较强的检索语言(如上位类、上 位主题词)能提高查全率,但查准率下降。 查全率(Recall) 查全率(召回率)是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。普遍表示为:查全率 =(检索出的相关信息量/系统中的相关信息总量)x100%。使用专指性较强的检索语言(如下位类、下位主题词)能提高查准率,但查全率下降。
2.4 网络信息资源检索的效果评价 查准率和查全率之间的关系 2.4 网络信息资源检索的效果评价 查准率和查全率之间的关系 查全率和查准率之间具有互逆的关系, 系统可以在它们之间进行折中 。在极端情况下,一个将文档集合中所有文档返回为结果集合的系统有100 %的查 全率,但是查准率却很低。另一方面,如果一个系统只能返回唯一的文档,会有很低 的查全率,但却可能有100 %的查准率。通常,以查全率和查准率为指标来测定系统 的有效性时,总是假定查全率为一个适当的值,然后按查准率的高低来衡量系统的 有效性。 改变检索项、减少限制条件,都可以提高查全率。
2.4 网络信息资源检索的效果评价 漏检率 与查全率和查准率相对应,我们把检索时检索系统与检索需求不匹配 ,但实际上信息内容与检索需求相关的信息遗漏的概率称为漏检率。也就是说检 索相关文献数量与系统中相关文献总量相除的百分比即为漏检率。如果以完整的 与检索需求相关的文献作为整体1的话,那么漏检率就等于1- 查全率。 误检率 与漏检率相反,误检率是指本来不该被检索命中的信息,却出现在检 索结果中了,此时检索出的无关信息与检出信息总量的比率即为误检率。误检率 是衡量系统误检信息的指标。
2.4 网络信息资源检索的效果评价 检率响应时间 检索响应时间是指检索过程中从提交检索式到收到检索结果整个过程 平均消耗的时间。检索响应时间是网络信息资源检索中影响检索效果的一项重要 指标,在一定程度上决定着检索的成本,并影响检索者对检索效果的体验。 在网络环境中,检索响应时间在很大程度上取决于检索系统和用户双 方的硬件设备与网络环境。在同一个检索系统中检索同一个问题,在不同检索时 间、使用不同的检索设备,其检索响应时间也会不同。 检索响应时间较长意味着我们的检索时间成本较高,而如果想要获得 较快的检索响应时间,则需要我们在设备上花费较多的成本,因此,应该选择合 适的检索设备和系统,平衡检索成本。