The Principles and Techniques of Social sciences Information Retrieval

Slides:



Advertisements
Similar presentations
Lib.ujs.edu.cn 信息检索与利用 叙词语言 张壬 lib.ujs.edu.cn 信息检索与利用 主要内容 叙词语言的概念 叙词语言的应用 中国中医药学主题词表及其应用 叙词语言的优缺点.
Advertisements

2016/9/11 ECNU 检索策略的制定与调整. 2016/9/11 检索策略的制定与调整  什么是检索策略  选择信息源  提炼关键词  编制检索式  调整检索策略 缩小检索范围 扩大检索范围 ECNU.
联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
第三章 信息检索语言 吉林建筑大学城建学院.
文献信息检索 第三章 文献信息检索的基本知识 ——主讲:蒋时雨 学习要点: △掌握文献信息检索的基本原理、方法和步骤
第三章 文献信息检索基本理论 概述 检索语言 检索工具 文献信息检索的方法和途径.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
医学文献检索 绪论 中山大学医学文献检索学教研室 周 纯.
医学文献检索 绪论 中山大学医学文献检索学教研室 周 纯.
人大复印资料全文数据库 人大复印资料全文数据库选辑1995年至今公开发表的人文科学和社会科学中各学科、专业的重要论文和重要动态资料的全部原文。其信息资源覆盖了人文科学和社会科学领域国内公开出版的3000多种核心期刊、专业期刊和报纸,分4大类100多个专题。
计算机医学信息检索 一、 基 本 原 理 下一页.
证券投资技术分析.
第三讲文献检索语言2.
信息素养与信息检索 学习情境3 :制定检索策略 第3讲 检索方式(2).
专题一 图书馆电子资源、信息服务介绍及信息检索基础知识
北京协和医学院 博硕学位论文库
书生之家电子图书使用说明 图书馆信息部.
会计学专业基础课堂之 基础会计(初级会计) 安徽财经大学会计学院.
第四次大作业 登陆学校图书馆网站的电子数据库
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
在PHP和MYSQL中实现完美的中文显示
§1 了解中国图书分类法 §2 了解图书馆书刊排放规律 §3 了解馆藏的外延及其使用途径 §4 了解图书馆文献的揭示方式 主要内容
1.关键词组合 深圳 深圳 志愿者 深圳 大运会 志愿者.
第二章 信息检索基本知识 第三节 信息检索与检索系统.
百链 1.
第一节 旅游规划的意义和种类 第二节 旅游规划的内容 第三节 旅游规划的编制 第四节 旅游景区规划
The Principles and technology of Social sciences Information Retrieval
ScienceDirect最新界面介绍及使用
第二讲 检索技术与检索技巧.
管理信息结构SMI.
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
2.2获取网络信息的策略与技巧.
数据库检索指南 ACM数据库.
信息检索与利用 江苏大学图书馆 lib.ujs.edu.cn MeSH主题词表及应用 张壬
整合思维导图的初中英语教学设计 主讲人:卢璐.
ScienceDirect高级检索功能及使用视频、说明发现路径
Science and technology report service systemUsage method
搜 刘智 iLife信息素养协会 索.
美国数学学会 MathSciNet 电子资源的检索和使用
科技文献检索与利用.
ScienceDirect高级检索功能及使用视频、说明发现路径
编程作业3:网页正文抽取 (10分).
网络信息检索的基本方法.
第十章 主题语言在网络资源组织中的应用.
C语言程序设计 主讲教师:陆幼利.
EBNF与操作语义 请用扩展的 BNF 描述 javascript语言里语句的结构;并用操作语义的方法描述对应的语义规则
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
ASP New and other UIs: Medical Videos Searchasaurus
2019/4/16 关注NE官方微信,获取更多服务.
数据库使用指南 Nature全文数据库.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
中国生物医学文献数据库 (CBM网络版)的使用 医大图书馆 董立平.
第4章 Excel电子表格制作软件 4.4 函数(一).
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
SCI收录号查询方法介绍 上海大学情报研究所
深 圳 职 业 技 术 学 院 SHENZHEN POLYTECHNIC
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
基于列存储的RDF数据管理 朱敏
基因信息的传递.
XX大学XX学院 多色复古论文答辩PPT模板 X124-2 蓝梦 学号.
第四章 UNIX文件系统.
RefWorks使用指南 归档、管理个人参考文献.
用户指南.
Presentation transcript:

The Principles and Techniques of Social sciences Information Retrieval 第三章 社科信息检索原理与技术 The Principles and Techniques of Social sciences Information Retrieval 深圳大学图书馆 2015年6月

第一节 信息检索原理 第二节 信息检索语言 第三节 信息检索技术

本章主要内容: 第三章主要讲述信息资源的检索原理、检索语言及检索 技术。要求学生了解检索语言和步骤,掌握布尔逻辑检 索、截词检索、限制检索等基本检索技术,能正确的制 定检索策略。 本章的重点:检索功能、检索算符、检索策略 本章的难点:检索式的制定和调整

The methods of Information retrieval 第一节 信息检索的原理 The methods of Information retrieval

第一节 信息检索的原理 1. 基本概念: 信息检索原理就是用户将信息需求转变为检索系统所能识别的检索标识,与信息检索系统中存储的信息特征进行逐一比对,两者完全一致或基本一致时,即为检索命中信息,可按用户要求从检索系统中输出。其检索结果既可能是用户需要的最终信息(一次信息),也可能是用户需要的信息线索(二次信息),用户可据此线索进一步进行判断、筛选,以获取所需要的最终信息。

1.1文献信息存储过程: 将大量分散的文献信息搜集起来,根据其内容特征或外表特征进行标引,形成表征这些 文献信息的特征标识,并存储在一定的载体上,成为有查询功能的检索工具。 1.2 标引: 对文献内容特征和外部特征进行分析形成概念标识,再依据一定的标准或规则 (检索语言:如分类号、主题词、关键词及著者选用规则等)将其用相应的标 识充分、准确地表达出来。 1.3 文献信息检索过程: 用户根据自己的信息需求,提出检索提问,然后使用有关的标引语言(也称检索语言) 将拟定的检索提问规范成检索标识,用于检索的过程。

信息检索原理图

The Language information retrieval 第二节 信息检索语言 The Language information retrieval

1.检索语言的概念 2.检索语言的功能 3.检索语言的分类

检索语言的概念 信息检索语言就是信息组织和信息检索时所使用的语言( 包括自然语言)。信息检索语言是文献信息标引的规则和 标准,标引人员可用它来标引文献以便将文献整理、加工 、存储于检索系统中,同时,检索人员可用它来表达检索 课题信息的内容,以便把特定文献从检索系统中检索出来 。 因此,检索语言就是一种把文献的存储与检索联系起 来,把标引人员和检索人员沟通起来的约定人工语言。

检索语言的功能 检索语言大致分为以下四点主要功能: ①对文献的信息内容及其外表特征加以规范化的标引 ②对内容相同及相关的文献信息加以集中或揭示其相关性 ③可使文献信息的存储集中化、系统化、组织化,便于检 索者按一定的排列次序进行有序化检索。 ④便于将标引用语和检索用语进行相符性比较

检索语言在检索中的作用

例如:有三篇文献篇名如下: 文献1:A Model of multimedia information retrieval 文献2:The Information retrieval in chemistry WWW server 文献3:ERIC resources 在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为: 文献1:篇名(title): A Model of multimedia information retrieval 主题(subject): information retrieval, multimedia computer applications 文献2:篇名(title): The Information retrieval in chemistry WWW server 主题(subject): chemistry, educational materials 文献3:篇名(title): ERIC resources 主题(subject): educational materials 标引后这三篇文献分别被存储进数据库

在信息检索过程中: 如果用户输入“information retrieval”一词,并将检索范围限定在篇名中,则文献1与文献2 符合用户要求,成为检索结果。 如果用户输入“information retrieval”一词,并将检索范围限定在主题中,则只有文献1符合 用户要求,成为检索结果。 如果用户输入“educational materials”一词,并将检索范围限定在主题中,则文献2和文献3 符合用户要求,成为检索结果。 在上述例子中,“information retrieval”、“educational materials”都是检索语言,篇名和主题则是检索语言的标识,检索系统就是通过他们将用户需求与信息内容进行运算匹配,最终找到检索结果的。 由这个例子可以看出,检索语言的主要作用就是对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。

3.检索语言的分类 3.1 分类检索语言 文献分类的实质是按照知识体系分类和概念逻辑的方法,对文件的信息进行区分和归类。分类 语言的词表即为分类表,它是由众多类目按照一定的知识分类和概念逻辑秩序,并考虑文献分 类的需要而构成的体系。 由于分类语言通常采用字母或数字符号来构词,因而表达这些概念意义的分类语言词语就 是类目的号码,即类号,通过自然语言的类名,可以直接的理解类目的含义,借助形势化符号 的类号,可以系统的揭示与组织文献信息。 文献分类的意义在于,根据文献信息的内容特征和分类词表,把相同内容的文献集中起来 ,同时,又把不同内容的文献信息区别开来,以实现相关集中的功能。

分类检索语言的类型有: (1)体系分类法 (2)组配分类法 (3)混合式分类法  使用较多的是体系分类法,其主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。体系分类法具有按学科或专业集中系统地向人们揭示文献资料内容的功能,这对于希望系统掌握和利用某一专业范围的文献而言,无疑是有效的。

如 《中国图书馆分类法》是国家推荐统一使用的分类法,被许多检索工具采用或改编,分5大部类22大类,类号采用汉语拼音字母与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。 例如:  F—经济(大类)  F2--- 经济计划与管理(二级类)  F25 --物资经济(三级类)  F250 --物资经济理论(四级类)  F251.1 ---物资管理(五级类)….

由此可见,按体系分类法检索的长处是,能满足从学科或专业角度广泛地进行课题检索的要求,达到较高的查全率。查准率的高低与类目的粗细多少有关,类目越细,专指度越高,查准率也越高。但类表的篇幅是有限的,类目不可能设计得很细。因此,分类法只是一种“族性检索”,而非“特性检索”。

3.2主题语言 概念:是指经过控制的,表达文献信息内容的语词。是以自然语言的语词为字符,以规范化或未经规范化的名词术语为基本词汇,以概念之间的形式逻辑作为语法和构词法,用语词字顺排列,主题概念以参照系统显示概念之间关系的一类检索语言。    主题检索语言可分为标题词语言(标题法)、单元词语言(元词法)和叙词语言(叙词法)。标题词语言属于先组式语言,单元词语言和叙词语言属于后组式语言。关键词语言(键词法)因其性能与上述几种语言相似,通常也归入主题检索语言一类,实质上它是一种在情报检索中直接使用自然语言的方法,对取自文献本身的语词只作极少量的规范化处理,也不显示文献主题概念之间的关系,是一种准情报检索语言。

3.3 自然语言 概念: 就是将千百年来存在于人类社会生活中自然形成的非规范语言,通过一定的语言处理技术,使之应用于信息检索系统的信息组织、标引与输出 特点: 对信息检索领域来说,采用自然语言的方式,可以有效解决潜在语义表达上的不匹配因素,自然语言的语言思维形式,对信息的表达对应性较强,因而有利于形成在语言无损耗 意义上的排序输出问题。

自然语言的标识包括: (1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。这部分有时由人工自由标引进行,如期刊论文中的作者关键词,大部分由计算机标引系统自动完成。 (2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。 (3)全文:从资源的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用得最多的方法。 (4)引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。 此外,还有责任人(作者)、摘要等。由于自然语言检索系统对同义词、近义词、多义词等与其相关的词语没有进行规范和统一,当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响查全率。自然语言检索系统的选词没有严格限制,词量过多过杂势必会影响查准率。

思考题 1.检索语言具有哪些功能? 2.分类语言使用较多的是哪种分类法? 思考题 1.检索语言具有哪些功能? 2.分类语言使用较多的是哪种分类法?