普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编
第6章 计算机检索概述 ●阐述计算机信息检索的含义和类 型 ●介绍计算机信息检索的发展简 史 ●总结计算机信息检索的特点 ●论述计算机信息检索策略 ●探讨提高计算机信息检索效率 ●讨论计算机检索技术 本章要点 计算机信息检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在信息检索中得到了广泛的使用。
第6章 计算机检索概述 6.1.1 计算机信息检索的含义 计算机信息检索指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 6.1 计算机信息检索 的含义和特点
第6章 计算机检索概述 计算机信息检索
第6章 计算机检索概述 计算机信息检索的发展经历了四个阶段: 6.1.2 计算机信息检索发展简史 1 脱机批处理检索 2 联机检索阶段 3 光盘检索阶段 4 网络化联机检索阶段
计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型: 第6章 计算机检索概述 6.1.3 计算机信息检索的分类 计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型: 1. 根据所检索数据库的形式分 书目检索 事实检索 数据检索 全文检索
第6章 计算机检索概述 2. 根据计算机检索服务方式分 定题检索 回溯检索 日常检索 3. 根据检索方式分 脱机检索 光盘检索 联机检索 网络检索
第6章 计算机检索概述 6.1.4 计算机信息检索的特点 1. 检索范围大。 2. 检索速度快。 3. 检索功能强,组配灵活。 4. 检索途径多。 5. 数据更新及时,时效性强。 6. 检索结果输出形式多样。 备注:计算机检索的不足: 计算机检索系统所收录的数据的回溯时间有限,也就是说计算机检索不能够满足所有的信息查询需求。同时,计算机检索需要检索者具有一定的计算机知识,需要有计算机的环境,因而这种检索方式并不是适合每一个信息需求者。就目前而言,计算机检索日益成为人们获取信息的重要方式,但在很长一段时间内,手工检索和计算机检索仍将共存,互为补充,共同满足人们多元化的信息需求。
第6章 计算机检索概述 6.2.1 检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。其中关键在于构造能够确切表达信息需求的检索式。 6.2 计算机 检索策略
第6章 计算机检索概述 6.2.2 检索表达式 检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。 检索表达式主要有逻辑表达式、加权表达式和其他表达式。其中,最为常用的是逻辑表达式。
第6章 计算机检索概述 6.2.2.1 逻辑表达式 逻辑表达式是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。 有逻辑与“AND”、逻辑或“OR”、逻辑非“NOT”。 备注: 逻辑与“AND”,表示它所连接的两个检索词必须同时出现在结果中,检索式可写为:A AND B。含义为A与B重合部分。也有些数据库中用“*”或其他符号表示逻辑与。例如,查找关于“计算机检索”方面的信息,可以表述为:计算机 AND 检索。目前,在一些数据库中提供的二次检索,如中国期刊网,实质上也是逻辑与的运算。 逻辑或“OR”,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件,检索式可写为:A OR B。它是表示概念并列关系的一种组配,用来扩大检索范围和保证查全率。在一些中文数据库中,用“+”表示逻辑或。例如,想检索关于“计算机”的信息,可以表达为:计算机+电脑。逻辑或主要用于表达概念的近义词、同义词、全称和缩写等,以便全面、完整地表达相关的概念,提高信息的查全率。 逻辑非“NOT”,表示它所连接的两个检索词中应从第一个概念中排除第二个概念,检索式可写为:A NOT B。在一些中文数据库中用“—”表示逻辑非。例如,想查找关于“研究生教育”的资料,但要求不包括在职研究生,可以将这一提问的表达式写为:研究生*教育-在职研究生,也可以写为:(硕士生+博士生)*教育-在职研究生。逻辑非表示具有不包含某种概念关系的一组组配,用来缩小检索范围。但在实际检索中要慎重使用。
第6章 计算机检索概述 逻辑表达式的构造中,根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说,对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可采用增加逻辑与的使用。 备注: 布尔逻辑表达式具有诸多的优点,可以表达与用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观。但它同时也存在着一定的缺陷,比如,不能实现检索结果的相关性排序;不能反映表达式中检索词的重要性;如果用户的检索课题中涉及的检索词较多时,可能要写出一个相当复杂的逻辑表达式。
第6章 计算机检索概述 6.2.2.2 加权表达式 所谓加权检索,是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。 加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。但就具体应用来说,加权检索的使用远不及布尔逻辑表达式广泛。
第6章 计算机检索概述 例如,用加权表达式来表示查找“中国高等教育的发展趋势”的信息需求,可以写为: 中国(5) 高等教育(5) 发展趋势(5) 阈值W=15 括号内的数字5即是权值。 具体检索时,对同一条记录内包含并且匹配这三个检索词的权值相加,超过阈值15时,就作为命中文献输出。逻辑上还是“与”的关系。 如“论中国高等教育的发展趋势”这篇文献,各检索词权值相加是15(中国5,高等教育5,发展趋势5),就是命中文献之一。而“中国高等教育的现状”,检索词权值相加为10(中国5,高等教育5),小于阈值15,即为非命中文献。
第6章 计算机检索概述 6.2.2.3 位置检索表达式 位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词(或短语)之间的距离和位置关系。不同的检索系统可能会采用不同的位置算符,目前应用广泛的主要是: W nN 备注: (W)表示连接的两个检索词相邻,并且先后顺序不能颠倒,这里的W是with的缩写,检索式可表达为:A(W)B。(nW)表示连接的两个检索词之间最多可以插入n个词(在中文方式下表示n个字),而且前后顺序不能颠倒,检索式可表达为:A(nW)B。例如,如果检索式“文献(2W)检索”,则“文献信息检索”、“文献资源检索”均为命中文献;如果输入检索式“文献(W)检索”,则文献信息检索”、“文献资源检索”都属于非命中文献。 (N)表示连接的两个检索词相邻,先后顺序可以颠倒,这里的N是near的缩写,检索式可表达为:A(N)B。(nN)表示连接的两个检索词之间最多可以插入n个词(在中文方式下表示n个字),前后顺序可以颠倒。例如,检索式environment(2N)protection可检索出包含“environment protection”、“protection of the environment”、“protection of water environment”、“protection of forest environment”等内容的结果。 nW N
第6章 计算机检索概述 6.2.2.4 截词检索表达式 截词检索表达式指在检索式中用专门截词符号表示检索词的某一部分允许有一定的词汇变化 。 截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。 不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。
第6章 计算机检索概述 后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如,检索式comput ?将检出包含computer、computing、computerized、computerization等词汇的结果。 中间截词,允许检索词中间有若干变化形式,例如wom*n就可同时检索到含有woman和women的结果。 前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索*physics就可检得包含physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。
第6章 计算机检索概述 6.2.2.5 限制检索表达式 限制检索表达式指用限制符限定检索词出现范围的检索式。 常用的字段限定代码有:标题(TI,Title)、作者(AU,Author)、主题词(SU,Subject)、年代(PY,Publication Year)等。 一些网络检索工具也允许用户采用限制检索表达式,可把检索范围限制在标题、统一资源定位地址(URL)或超链等部分。
第6章 计算机检索概述 6.2.3 检索策略的构造步骤 信息检索策略的构造步骤如图:
第6章 计算机检索概述 6.2.4 检索策略的反馈与调节 6.2.4.1 影响查全率和查准率的主要因素 1.主题分析是否准确、全面 2.检索词选择是否准确 3.检索词之间逻辑关系的配置是否合适。
第6章 计算机检索概述 6.2.4.2 提高查全率和查准率的方法 1.提高查全率的方法 (1) 降低检索词的专指度 (2) 增加同义词、近义词或相 关词的逻辑或运算 (3) 选用截词检索 (4) 增加和调整检索途径
第6章 计算机检索概述 2.提高查准率的方法 (1) 提高检索词的专指度,增加或换用下 位词和专指性较强的关键词进行检索 (1) 提高检索词的专指度,增加或换用下 位词和专指性较强的关键词进行检索 (2) 用AND连接一些进一步限定主题概念的 相关检索项,增加相互的制约 (3) 用NOT来排除一些无关的检索项 (4) 采用限定检索,缩小检索范围
第6章 计算机检索概述 6.3 信息检索技术 6.3.1 全文检索技术 全文检索(Full Text Retrieval),就是以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索技术。 与其他检索技术相比,全文检索技术的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是信息线索。
第6章 计算机检索概述 中文全文检索技术的研发始于1987年左右,现已出现了一些商品化的软件,包括TRS、Quick IMS、南辰、天宇、I-Search等。其中,最有影响的当属TRS全文信息检索系统,它可以广泛地应用于各种信息数据库、信息门户的建设,以及从Web站点检索、Internet搜索引擎到电子商务等各种应用中文信息的发布检索。 全文检索系统的原理:全文检索技术不同于传统数据库的字段检索,它采用特别的索引技术,将相关的文献信息,经过索引产生器的浏览而建立起所谓的索引数据库。当用户进行检索时,系统通过使用者输入的关键词,迅速地从索引数据库中找到用户需要的信息,并且将相关索引显示出来,供用户选择和浏览全文。 目前的全文检索技术还存在着一些未尽人意的地方,尤其是在查准方面难以保证,原因是用孤立词和词汇术语作为检索入口,缺乏语义的内在关联,检索的效果不是十分理想。为了解决这一问题,全文检索技术开始和人工智能紧密结合,增加对内容的分析理解、内容表达、知识学习、推理机制。随着智能化技术的发展,全文信息检索技术必将更广泛和高效地应用于网上信息检索领域。
第6章 计算机检索概述 6.3.2 基于内容的多媒体检索技术 基于内容的多媒体检索技术突破了传统的基于文本描述和检索的局限,直接对图像、视频、音频内容进行分析,利用媒体对象的语义、媒体的视觉和听觉特征来进行检索。也就是依据图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等内容特征建立索引并进行检索。基于内容的检索还融合了模式识别、计算机视觉、图像理解等技术,是多种技术的合成。 根据所检索媒体对象的不同,基于内容的多媒体检索技术又可分为基于内容的图像检索技术、基于内容的视频检索技术和基于内容的音频检索技术等。
6.3.2.1 基于内容特征的图像检索技术CBIR(Content-based Image Retrieval) 第6章 计算机检索概述 6.3.2.1 基于内容特征的图像检索技术CBIR(Content-based Image Retrieval) 主要依据图像固有的特征来标引和检索。 所谓图像特征包括:图像的画面内容特征;图像描述对象特征;图像的相关信息及其他物理特征,图像的移动和组合特征等。 目前,比较成功应用基于内容的图像检索技术的系统有IBM公司的QBIC系统、MIT媒体实验室的Photobook系统、新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统等。
第6章 计算机检索概述 基于内容的图像检索技术
第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中选择某个作为检索图样。 (2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分布、形状或纹理相似的结果。 (3)示例查询。选择系统中的一幅图像,要求系统检索与之类似的图像。用户一般是通过浏览选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。
第6章 计算机检索概述 6.3.2.2 基于内容的视频检索技术 视频又称动态图像,是一组图像按时间顺序连续表现,它的表示与图像序列、时间关系有关。视频数据可用幕、场景、镜头、帧等描述。视频序列主要由镜头组成;镜头由一系列连续的帧组成;帧是一幅静态的图像,是组成视频的最小单位;场景含有多个镜头;幕是由一系列相关的场景组成,表达一个完整的事件。视频检索实际上是对动态图像进行检索,视频检索的实质就是在大量的视频数据中找到所需要的视频片段。
第6章 计算机检索概述 基于内容的视频检索技术
第6章 计算机检索概述 6.3.2.3 基于内容的音频检索技术 基于内容的音频检索就是将输入的字符序列和音频数据库中的字符序列相匹配。在检索前,首先对音频数据建立索引,索引可以基于韵律、旋律以及其他的感知或声学特征。 目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。 备注: 基于内容的多媒体检索技术作为一种先进的检索技术,广泛地应用于多媒体数据库、知识产权保护、网络多媒体搜索引擎、数字图书馆、交互电视、艺术收藏和博物馆管理、遥感和地球资源管理、远程医疗、天气预报以及军事指挥系统等等。它与数据库技术相结合,可以方便地实现海量多媒体数据的存储和管理。与Web搜索引擎技术相结合,可以用来检索HTML网页中丰富的多媒体信息,具有广阔的发展前景。
第6章 计算机检索概述 思 考 题 1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息 检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达式的构成可以采用哪几种方法?
第6章 计算机检索概述 8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。
Thank You!