普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编.

Slides:



Advertisements
Similar presentations
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
Advertisements

练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
2016/9/11 ECNU 检索策略的制定与调整. 2016/9/11 检索策略的制定与调整  什么是检索策略  选择信息源  提炼关键词  编制检索式  调整检索策略 缩小检索范围 扩大检索范围 ECNU.
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
英文数据库的检索与原文的获取 吴 贤 奇.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
人大复印资料全文数据库 人大复印资料全文数据库选辑1995年至今公开发表的人文科学和社会科学中各学科、专业的重要论文和重要动态资料的全部原文。其信息资源覆盖了人文科学和社会科学领域国内公开出版的3000多种核心期刊、专业期刊和报纸,分4大类100多个专题。
计算机检索技术 及中文数据库使用方法 职工专题培训 主讲 段晓玲.
计算机医学信息检索 一、 基 本 原 理 下一页.
信息素养与信息检索 学习情境3 :制定检索策略 第3讲 检索方式(2).
北京协和医学院 博硕学位论文库
书生之家电子图书使用说明 图书馆信息部.
因特网信息的查找 因特网上存储了各个领域的大量信息,并且不断更新,成为取之不尽的信息资源宝库。 本节主要的两个任务:
第四次大作业 登陆学校图书馆网站的电子数据库
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
计算机基础知识 丁家营镇九年制学校 徐中先.
1.关键词组合 深圳 深圳 志愿者 深圳 大运会 志愿者.
如何使用CiteSpace分析Derwent专利数据
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
第二讲 检索技术与检索技巧.
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
管理信息结构SMI.
SQL Injection.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
第17章 网站发布.
数据库检索指南 ACM数据库.
信息检索与利用 江苏大学图书馆 lib.ujs.edu.cn MeSH主题词表及应用 张壬
免费资源PubMed介绍 南方医科大学 顾萍 May 25, 2005.
ScienceDirect高级检索功能及使用视频、说明发现路径
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
搜 刘智 iLife信息素养协会 索.
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
ScienceDirect高级检索功能及使用视频、说明发现路径
编程作业3:网页正文抽取 (10分).
网络信息检索的基本方法.
万方学位论文检索.
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
ASP New and other UIs: Medical Videos Searchasaurus
2019/4/16 关注NE官方微信,获取更多服务.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
VB与Access数据库的连接.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
Chapter 18 使用GRASP的对象设计示例.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
SCI收录号查询方法介绍 上海大学情报研究所
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
超星电子书 让更多的人读更多的书.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
用户指南.
Presentation transcript:

普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编

第6章 计算机检索概述 ●阐述计算机信息检索的含义和类 型 ●介绍计算机信息检索的发展简 史 ●总结计算机信息检索的特点 ●论述计算机信息检索策略 ●探讨提高计算机信息检索效率 ●讨论计算机检索技术 本章要点 计算机信息检索是随着计算机的出现而发展起来的。计算机检索经历了脱机检索、联机检索、光盘检索及网络信息检索等阶段。计算机检索以其检索效率高、检索效果好而在信息检索中得到了广泛的使用。

第6章 计算机检索概述 6.1.1 计算机信息检索的含义 计算机信息检索指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 6.1 计算机信息检索 的含义和特点

第6章 计算机检索概述 计算机信息检索

第6章 计算机检索概述 计算机信息检索的发展经历了四个阶段: 6.1.2 计算机信息检索发展简史 1 脱机批处理检索 2 联机检索阶段 3 光盘检索阶段 4 网络化联机检索阶段

计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型: 第6章 计算机检索概述 6.1.3 计算机信息检索的分类 计算机信息检索包括许多类型,依据不同的划分标准,可以分为不同的类型: 1. 根据所检索数据库的形式分 书目检索 事实检索 数据检索 全文检索

第6章 计算机检索概述 2. 根据计算机检索服务方式分 定题检索 回溯检索 日常检索 3. 根据检索方式分 脱机检索 光盘检索 联机检索 网络检索

第6章 计算机检索概述 6.1.4 计算机信息检索的特点 1. 检索范围大。 2. 检索速度快。 3. 检索功能强,组配灵活。 4. 检索途径多。 5. 数据更新及时,时效性强。 6. 检索结果输出形式多样。 备注:计算机检索的不足: 计算机检索系统所收录的数据的回溯时间有限,也就是说计算机检索不能够满足所有的信息查询需求。同时,计算机检索需要检索者具有一定的计算机知识,需要有计算机的环境,因而这种检索方式并不是适合每一个信息需求者。就目前而言,计算机检索日益成为人们获取信息的重要方式,但在很长一段时间内,手工检索和计算机检索仍将共存,互为补充,共同满足人们多元化的信息需求。

第6章 计算机检索概述 6.2.1 检索策略的含义和作用 所谓检索策略,即在分析检索课题内容实质基础上,选择检索系统、检索途径、确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。其中关键在于构造能够确切表达信息需求的检索式。 6.2 计算机 检索策略

第6章 计算机检索概述 6.2.2 检索表达式 检索表达式是检索策略的具体体现,简称检索式。检索式一般由检索词和各种逻辑运算符组成,具体来说,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索式构造的优劣关系到检索策略的成败。 检索表达式主要有逻辑表达式、加权表达式和其他表达式。其中,最为常用的是逻辑表达式。

第6章 计算机检索概述 6.2.2.1 逻辑表达式 逻辑表达式是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。 有逻辑与“AND”、逻辑或“OR”、逻辑非“NOT”。 备注: 逻辑与“AND”,表示它所连接的两个检索词必须同时出现在结果中,检索式可写为:A AND B。含义为A与B重合部分。也有些数据库中用“*”或其他符号表示逻辑与。例如,查找关于“计算机检索”方面的信息,可以表述为:计算机 AND 检索。目前,在一些数据库中提供的二次检索,如中国期刊网,实质上也是逻辑与的运算。 逻辑或“OR”,表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件,检索式可写为:A OR B。它是表示概念并列关系的一种组配,用来扩大检索范围和保证查全率。在一些中文数据库中,用“+”表示逻辑或。例如,想检索关于“计算机”的信息,可以表达为:计算机+电脑。逻辑或主要用于表达概念的近义词、同义词、全称和缩写等,以便全面、完整地表达相关的概念,提高信息的查全率。 逻辑非“NOT”,表示它所连接的两个检索词中应从第一个概念中排除第二个概念,检索式可写为:A NOT B。在一些中文数据库中用“—”表示逻辑非。例如,想查找关于“研究生教育”的资料,但要求不包括在职研究生,可以将这一提问的表达式写为:研究生*教育-在职研究生,也可以写为:(硕士生+博士生)*教育-在职研究生。逻辑非表示具有不包含某种概念关系的一组组配,用来缩小检索范围。但在实际检索中要慎重使用。

第6章 计算机检索概述 逻辑表达式的构造中,根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说,对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可采用增加逻辑与的使用。 备注: 布尔逻辑表达式具有诸多的优点,可以表达与用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观。但它同时也存在着一定的缺陷,比如,不能实现检索结果的相关性排序;不能反映表达式中检索词的重要性;如果用户的检索课题中涉及的检索词较多时,可能要写出一个相当复杂的逻辑表达式。

第6章 计算机检索概述 6.2.2.2 加权表达式 所谓加权检索,是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。 加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。但就具体应用来说,加权检索的使用远不及布尔逻辑表达式广泛。

第6章 计算机检索概述 例如,用加权表达式来表示查找“中国高等教育的发展趋势”的信息需求,可以写为: 中国(5) 高等教育(5) 发展趋势(5) 阈值W=15 括号内的数字5即是权值。 具体检索时,对同一条记录内包含并且匹配这三个检索词的权值相加,超过阈值15时,就作为命中文献输出。逻辑上还是“与”的关系。 如“论中国高等教育的发展趋势”这篇文献,各检索词权值相加是15(中国5,高等教育5,发展趋势5),就是命中文献之一。而“中国高等教育的现状”,检索词权值相加为10(中国5,高等教育5),小于阈值15,即为非命中文献。

第6章 计算机检索概述 6.2.2.3 位置检索表达式 位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词(或短语)之间的距离和位置关系。不同的检索系统可能会采用不同的位置算符,目前应用广泛的主要是: W nN 备注: (W)表示连接的两个检索词相邻,并且先后顺序不能颠倒,这里的W是with的缩写,检索式可表达为:A(W)B。(nW)表示连接的两个检索词之间最多可以插入n个词(在中文方式下表示n个字),而且前后顺序不能颠倒,检索式可表达为:A(nW)B。例如,如果检索式“文献(2W)检索”,则“文献信息检索”、“文献资源检索”均为命中文献;如果输入检索式“文献(W)检索”,则文献信息检索”、“文献资源检索”都属于非命中文献。 (N)表示连接的两个检索词相邻,先后顺序可以颠倒,这里的N是near的缩写,检索式可表达为:A(N)B。(nN)表示连接的两个检索词之间最多可以插入n个词(在中文方式下表示n个字),前后顺序可以颠倒。例如,检索式environment(2N)protection可检索出包含“environment protection”、“protection of the environment”、“protection of water environment”、“protection of forest environment”等内容的结果。 nW N

第6章 计算机检索概述 6.2.2.4 截词检索表达式 截词检索表达式指在检索式中用专门截词符号表示检索词的某一部分允许有一定的词汇变化 。 截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。 不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。

第6章 计算机检索概述 后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如,检索式comput ?将检出包含computer、computing、computerized、computerization等词汇的结果。 中间截词,允许检索词中间有若干变化形式,例如wom*n就可同时检索到含有woman和women的结果。 前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索*physics就可检得包含physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。

第6章 计算机检索概述 6.2.2.5 限制检索表达式 限制检索表达式指用限制符限定检索词出现范围的检索式。 常用的字段限定代码有:标题(TI,Title)、作者(AU,Author)、主题词(SU,Subject)、年代(PY,Publication Year)等。 一些网络检索工具也允许用户采用限制检索表达式,可把检索范围限制在标题、统一资源定位地址(URL)或超链等部分。

第6章 计算机检索概述 6.2.3 检索策略的构造步骤 信息检索策略的构造步骤如图:

第6章 计算机检索概述 6.2.4 检索策略的反馈与调节 6.2.4.1 影响查全率和查准率的主要因素 1.主题分析是否准确、全面 2.检索词选择是否准确 3.检索词之间逻辑关系的配置是否合适。

第6章 计算机检索概述 6.2.4.2 提高查全率和查准率的方法 1.提高查全率的方法 (1) 降低检索词的专指度 (2) 增加同义词、近义词或相 关词的逻辑或运算 (3) 选用截词检索 (4) 增加和调整检索途径

第6章 计算机检索概述 2.提高查准率的方法 (1) 提高检索词的专指度,增加或换用下 位词和专指性较强的关键词进行检索 (1) 提高检索词的专指度,增加或换用下 位词和专指性较强的关键词进行检索 (2) 用AND连接一些进一步限定主题概念的 相关检索项,增加相互的制约 (3) 用NOT来排除一些无关的检索项 (4) 采用限定检索,缩小检索范围

第6章 计算机检索概述 6.3 信息检索技术 6.3.1 全文检索技术 全文检索(Full Text Retrieval),就是以各类数据诸如文字、声音、图像等为主要处理对象,根据数据资料的内容,而不是外在特征来实现的信息检索技术。 与其他检索技术相比,全文检索技术的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是信息线索。

第6章 计算机检索概述 中文全文检索技术的研发始于1987年左右,现已出现了一些商品化的软件,包括TRS、Quick IMS、南辰、天宇、I-Search等。其中,最有影响的当属TRS全文信息检索系统,它可以广泛地应用于各种信息数据库、信息门户的建设,以及从Web站点检索、Internet搜索引擎到电子商务等各种应用中文信息的发布检索。 全文检索系统的原理:全文检索技术不同于传统数据库的字段检索,它采用特别的索引技术,将相关的文献信息,经过索引产生器的浏览而建立起所谓的索引数据库。当用户进行检索时,系统通过使用者输入的关键词,迅速地从索引数据库中找到用户需要的信息,并且将相关索引显示出来,供用户选择和浏览全文。 目前的全文检索技术还存在着一些未尽人意的地方,尤其是在查准方面难以保证,原因是用孤立词和词汇术语作为检索入口,缺乏语义的内在关联,检索的效果不是十分理想。为了解决这一问题,全文检索技术开始和人工智能紧密结合,增加对内容的分析理解、内容表达、知识学习、推理机制。随着智能化技术的发展,全文信息检索技术必将更广泛和高效地应用于网上信息检索领域。

第6章 计算机检索概述 6.3.2 基于内容的多媒体检索技术 基于内容的多媒体检索技术突破了传统的基于文本描述和检索的局限,直接对图像、视频、音频内容进行分析,利用媒体对象的语义、媒体的视觉和听觉特征来进行检索。也就是依据图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等内容特征建立索引并进行检索。基于内容的检索还融合了模式识别、计算机视觉、图像理解等技术,是多种技术的合成。 根据所检索媒体对象的不同,基于内容的多媒体检索技术又可分为基于内容的图像检索技术、基于内容的视频检索技术和基于内容的音频检索技术等。

6.3.2.1 基于内容特征的图像检索技术CBIR(Content-based Image Retrieval) 第6章 计算机检索概述 6.3.2.1 基于内容特征的图像检索技术CBIR(Content-based Image Retrieval) 主要依据图像固有的特征来标引和检索。 所谓图像特征包括:图像的画面内容特征;图像描述对象特征;图像的相关信息及其他物理特征,图像的移动和组合特征等。 目前,比较成功应用基于内容的图像检索技术的系统有IBM公司的QBIC系统、MIT媒体实验室的Photobook系统、新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统等。

第6章 计算机检索概述 基于内容的图像检索技术

第6章 计算机检索概述 基于内容的图像检索方式主要有3种: (1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中选择某个作为检索图样。 (2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分布、形状或纹理相似的结果。 (3)示例查询。选择系统中的一幅图像,要求系统检索与之类似的图像。用户一般是通过浏览选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。

第6章 计算机检索概述 6.3.2.2 基于内容的视频检索技术 视频又称动态图像,是一组图像按时间顺序连续表现,它的表示与图像序列、时间关系有关。视频数据可用幕、场景、镜头、帧等描述。视频序列主要由镜头组成;镜头由一系列连续的帧组成;帧是一幅静态的图像,是组成视频的最小单位;场景含有多个镜头;幕是由一系列相关的场景组成,表达一个完整的事件。视频检索实际上是对动态图像进行检索,视频检索的实质就是在大量的视频数据中找到所需要的视频片段。

第6章 计算机检索概述 基于内容的视频检索技术

第6章 计算机检索概述 6.3.2.3 基于内容的音频检索技术 基于内容的音频检索就是将输入的字符序列和音频数据库中的字符序列相匹配。在检索前,首先对音频数据建立索引,索引可以基于韵律、旋律以及其他的感知或声学特征。 目前有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。 备注: 基于内容的多媒体检索技术作为一种先进的检索技术,广泛地应用于多媒体数据库、知识产权保护、网络多媒体搜索引擎、数字图书馆、交互电视、艺术收藏和博物馆管理、遥感和地球资源管理、远程医疗、天气预报以及军事指挥系统等等。它与数据库技术相结合,可以方便地实现海量多媒体数据的存储和管理。与Web搜索引擎技术相结合,可以用来检索HTML网页中丰富的多媒体信息,具有广阔的发展前景。

第6章 计算机检索概述 思 考 题 1.什么是计算机信息检索? 2.概述计算机信息检索发展简史。 3.简述计算机信息检索的类型。 4.与传统的手工检索相比,计算机信息 检索有什么特点? 5.简述计算机检索策略的含义和作用。 6.什么是检索表达式? 7.检索表达式的构成可以采用哪几种方法?

第6章 计算机检索概述 8.提高查全率的方法有哪些?请举例说明。 9.结合自己的检索实践,说明如何提高查准率。 10.概述全文检索技术。 11.概述基于内容的图像检索技术。

Thank You!