Download presentation
Presentation is loading. Please wait.
1
英文数据库的检索与原文的获取 吴 贤 奇
2
文献是我们获取信息的主要来源. 信息的来源:实践.人.文献 文献:知识的载体. 文献:图书.期刊.报纸.专利(文献).标准(文献).学位论文.科技报告.政府出版物.会议论文.档案.产品资料.
3
数据库是当代管理文献信息,开发文献信息的最重要最主要的手段和技术.
4
数据库类型: 1、文摘型数据库:有文摘 2、题录型数据库:通常称之为索引型数据库。无文摘。 3、全文型数据库:摘要(题录)+全文
4、数据型数据库:数值、事实 5、图像(多媒体)数据库:图像(多媒体等)
5
数据库知识 文摘数据库: 收集范围广:语种多,文献类型多,地理范围广。 全文数据库: 收集范围有限,主要用于某个单位或某个主题的资料存贮。
文摘数据库与全文数据库可实现无鏠链接。
6
文摘索引数据库 全文数据库
7
专业性数据库:收集某个学科文献资料的数据库。
综合性数据库:收集多个学科文献资料的数据库。 我们必须要知道自己的专业数据库以及与我们学科相关的其它的专业性数据库和综合性数据库(即相关性数据库)。可从国内外各大学图书馆的网站上获取相关信息(资料)。或登录
8
三个主要中文数据库提供商: 清华同方(中国知识网.中国期刊网): 重庆维普数据有限公司: 万方数据有限公司:
9
英文数据库主要提供商: 国外数据库提供商很多,且专业化较强,规模大,信息管理水平高(主要体现在字段设置和检索技术上),数据量大,服务网络化,更新快.
10
现阶段,所有中英文数据库的检索原理与技术基本上都是一样的?!
11
计算机检索包含两个过程: 先存贮,后检索 先存贮:信息管理专业人员将信息存贮在数据库中。即信息组织过程。 后检索:信息用户利用数据库进行检索。即信息检索过程。
12
存贮过程:信息组织过程。 (1)标引:将文献的各种信息(对检索有用的信息,通常称之为特征信息)用自然语言的字、词、句子、符号等按一定的规则描述出来。 文献的特征信息:题名、作者、出版社、出版日期、页数、字数、分类号、主题词、关键词等等 标引存在翻译上的问题。 (2)设计字段:一个字段对应文献的一个特征信息。 (3)将相应的信息标识输入数据库的相应字段中。 存贮过程就是一个建库过程。建库有人工和自动两种方式。
13
计算机信息组织过程 … 记录2 记录3 字段符 TI AU PB PY PD SB SS AB LA 字段名称 书名 作者 出版社 出版年
出版地 主题词 分类号 文摘 原文语种 记录1 三国演义 罗贯中 人民出版社 2002 北京 中国古代小说 I22 三国演义是… chi 记录2 毛泽东传 张三 北京大学出版社 2003 毛泽东、 政治人物 G25 毛泽东是… 记录3 …
14
数据库的字段及其含义: 字段名称: 字段含义: 字段符: 字段内容的标引(书写)规则:
对每一个数据库,我们要知道它的字段及字段的含义以及字段符。 一般英文数据库在Help中有说明。如无,可查相关文献资料。或上
15
数据库的建库语种: 数据库是用何种自然语言建库的。 数据库检索界面的语种是可变的。但数据库的建库语种是不可变的。
16
计算机检索原理 计算机检索过程:词形匹配 这是我们永远、时刻要记住的。
实质上,检索的过程就是一个如何保证检索词(或符号、句子)与数据库相应字段中的词(或符号、句子)保持一致。
17
字形相同:检索词要与数据库的标识词一致,或包含在句子中
计算机检索原理 字形相同:检索词要与数据库的标识词一致,或包含在句子中 数 据 库 检 索 内 容 标 识 词 、 句 子 检 索 词 匹配
18
计算机检索原理 检索内容能用几个关键词来表达吗?
19
数据库与检索系统 数据库与检索系统是两个不同的概念。 数据库是信息的集体体,是一种信息管理的方式。
检索系统是个软件。检索系统主要用于检索数据库。 一个检索系统可以容纳上百个数据库,可同时对上百个数据库进行检索。 一个数据库可依存于不同的检索系统。
20
网络检索系统:通常说的网络数据库。通过在网站中嵌入检索系统对数据库进行检索。 网络检索系统也可以说是联机检索系统的一种。在现代是最常见的。
单机检索系统:通常说的单机数据库。 联机检索系统:通常说的联机数据库。 网络检索系统:通常说的网络数据库。通过在网站中嵌入检索系统对数据库进行检索。 网络检索系统也可以说是联机检索系统的一种。在现代是最常见的。 现在说的联机检索系统一般指使用专门的软件实现本地机与服务器连接的检索系统。
21
非光盘检索系统:一般指的是存在于硬盘等载体的检索系统,也是现代最常用的。
检索系统按载体形式来分有: 光盘检索系统:通常说的光盘数据库。 非光盘检索系统:一般指的是存在于硬盘等载体的检索系统,也是现代最常用的。 光盘检索系统有单机形式和联机形式两种。一般说的单机检索系统就是指光盘单机检索系统。 光盘联机检索系统:有专门的光盘服务器。
22
检索方式 检索系统一般提供了三种检索方式三种: 超文本、超媒体检索 菜单式检索 命令式信息检索 为什么要提供三种给我们,都需要我们掌握吗?
23
超文本式、超媒体检索 在分类的基础上,通过文字或多媒体与相关知识产生链接,从而达到检索目的的检索方式。
操作非常简单,人们只需学会使用鼠标和认识汉字即可使用。 主要用于浏览某类文献。 但是检索结果不够精确。查精率不高。 一般检索系统都提供了这种检索
24
菜单式检索 是一种操作方便,界面友好操作简便的检索方式。 用户只需输入检索词,根据菜单的指引,通过确定适当的选项和功能鍵便能完成检索。
菜单式检索是现阶段最受欢迎的检索方式。
25
命令式检索--专业检索方式 需要输入检索式来进行检索。 甚至还需要输入一些操作命令(即系统不可能功能按钮)。 命令式检索的优势:
检索式更能清晰地表达复杂的检索内容和要求。 检索过程明了,便与检索者判断检索是否满意。有利于掌握检索过程。 对于进行课题研究的文献检索,需要使用命令式检索方式。 一些大型的检索系统都使用命令检索方式
26
计算机信息检索技术 在计算机检索中,常用的检索技术有: 1、布尔逻辑检索: 2、字段限定检索 3、位置限定检索
4、词频限定检索:一般用于题名、文摘、全文等字段。
27
计算机信息检索技术 5、截词检索: 6、词表检索: 7、二次检索: 8、全文检索:
28
布尔逻辑检索 当需要用于多个检索词来表达检索内容时,我们需要处理这些检索词的逻辑关系。 对检索词进行布尔逻辑运算 布尔逻辑运算共有三种:
逻辑与:AND * 逻辑或:OR + 逻辑非:NOT - AND、OR、NOT、*、+、- 称之为逻辑算符
29
布尔逻辑检索 逻辑与: AND -英文系统 * -中文系统 若 A AND B:即表示被检索的文献记录中必须同时含有A和B才算命中,AND两侧的检索词必须同时出现在同一篇文献记录中,该篇文献才算命中。 用于交叉要领和限定关系的组配,它可以缩少检索范围,准确表达检索需求,有利于提高查准率。
30
布尔逻辑检索 逻辑或: OR -英文系统 + -中文系统 若 A or B ,则表示在一篇文献记录中只要含有A或者B中的任何一个即算命中。
+ -中文系统 若 A or B ,则表示在一篇文献记录中只要含有A或者B中的任何一个即算命中。 用于并列关系的组配,可以扩大检索范围,防止漏检,有利于提高查全率。
31
布尔逻辑检索 逻辑非: NOT --英文系统 - --中文系统 若A NOT B,则表示文献记录中包含A 而不包含B。
- --中文系统 若A NOT B,则表示文献记录中包含A 而不包含B。 这种组配用于从原来的检索范围中排除不需要的和影响检索结果的概念,使检索结果更精确。 如;查找有关能源方面的文献,但不包含包括核能。 A (ENERGY) ENERGY B (NUCLEAR) NUCLEAR A not B ENERGY not EUCLEAR
32
布尔逻辑检索 三者运算的优先级一般如下: 逻辑非 > 逻辑与 > 逻辑或 在不同的系统中,三者的运算优先级可能不同。
33
布尔逻辑检索 逻辑运算优先级的限定: 有时为了让优先级低的逻辑运算先进行,使用括号来加以限定。 如:A OR B AND C
有时为了让优先级低的逻辑运算先进行,使用括号来加以限定。 如:A OR B AND C (A OR B) AND C
34
布尔逻辑检索 逻辑运算的组合: 当一个表达式中需要出现三种逻辑运算的多个组合时,可使用括号来限定它们的运算优先顺序。如:(A OR B) AND C 有的系统支持双重括号,有的系统只支持单重括。 一个检索系统对表达式中所包含的逻辑算符一般是由限度的。如《BA》数据库中,表达式中最多只能含五十个逻辑算符,即五十个逻辑运算。
35
字段限定检索 对检索词的检索途径(出现的检索字段)进行限定 即确定检索词在哪一个字段中进行检索。
36
字段限定检索—字段符 字段符: 不同的系统会使用不同的检索字段符来定义字段。以用于对字段限定的表述,从而组织好表达式。不同的系统,字段符不同。常用的检索字段符有 AU=限查特定作者 JN=限查特定刊名 LA=限查特定语种 PN=限查特定专利号 PY=限查特定年代 CS=机构名称
37
字段限定检索--字段符 DE= 限在叙词标引中查 ID = 限在自由标引词中查 TI = 限在题目中查 AB= 限在文摘中查找
CT= 限查受控词 PA= 限查专利
38
字段限定检索--字段限定表述 字段限定检索的表述: 一般为以下几种形式 1、字段符=检索词 (主要用于中文系统)
1、字段符=检索词 (主要用于中文系统) 2、检索词 in 字段符 (主要用于英文系统) 3、检索词 within 字段符(主要用于英文系统) 4、检索词 wn 字段符(主要用于英文系统) 5、字段符(检索词) (主要用于英文系统) 表示检索词必须出现在指定的字段内
39
位置限定检索 为了准确表达检索内容,提高查准率。系统一般对检索词进行词位的限定。 限定检索词的位置一般有两种方式: (1)使用位置算符,
(2)使用引号。
40
位置算符:检索系统一般是采用位置算符来实现位置检索。
常用的位置算符有:adj near with within wn 不同的系统采用的位置算符不同.用法也不同
41
位置限定检索 以DIALOG系统为例: DIALOG系统常用的位置算符共有四种:
1、W或()--With 表示算符两侧的检索词(或检索项)之间不得有其它字词,而且顺序不能颠倒。
42
位置限定检索 (2)(nW)--nWorld(位置顺序隔词) 表示算符两侧的检索词(或检索项)之间允许插入n个实词或者虚词,但顺序不能颠倒。
43
位置限定检索 (3)N(Near)(词位置紧连) 表示算符两侧的检索词必须紧密相连,中间不插入其他字符。但两词次序可以颠倒。
44
位置限定检索 (4)(nN)--nNear(隔词运算) 表示算符两侧的检索词(或检索项)之间允许插入n个单词,且两侧词序可变。
45
位置限定检索 引号的用法: 当需要将两个或两个以上的单词作一个词组执行检索时,只需用引号将几个词引起来即可。 用于提高查准率
46
词频限定检索 限定某个检索词在字段或原文中出现的频次。 词频符:FREQ
如:CELL/FREQ=20,将检中那些CELL出现的次数不少于20的文献。
47
截词检索 一般有以下六种情况: 1、右截断: 前方一致,后截断 2、左截断: 后方一致,前截断 3、左右同时截断: 中间一致
计算机按照检索词的部分片断同索引词进行对比,以提供族性检索的功能,提高查全率。 一般有以下六种情况: 1、右截断: 前方一致,后截断 2、左截断: 后方一致,前截断 3、左右同时截断: 中间一致 4、完全一致: 精确检索 5、指定位数一致: 6、任意一致: 模糊检索 其中前方一致、完全一致和任意一致用得较多。
48
截词检索—截词符 在截词检索中,一般采用截词符号来实现检索。 截词符一般 为?或 * ?一般表示一个字符 *一般表示0-n个字符
不同的系统使用的截词符不同,用法也不同
49
词表检索 一般的文献数据库,大都有自己的主题词表,词表不仅用于标引文献,也用于辅助检索。 检索系统一般都附有自已的词表,
词表一般按字顺排,或按概念层次来排。 词表一般向用户提供了上位词(BT)、下位词(NT)、族首词(TT)、代用词(UF)和参照词(RT)。
50
词表检索 如: INFORMATION RETRIEVAL(情报检索) UF(代用词) DOCUMENT RETRIEVAL(文献检索)
ONLINE LITERATURE SEARCHING(联机文献检索) retrieval,information(检索,情报) BT(上位词) information science(情报科学) TT(族首词) computer applications(计算机应用) RT(参照词) information analysis(情报分析) information storage(情报存储)
51
二次检索 二次检索:当需要前一次的检索结果中再进行检索时,许多系统提供了二次检索。以便用户首先查找出与课题相关度较高的文献,提高查准率。
52
全文检索 全文检索: 计算机用检索词在全文中进行匹配,如果全文中出现了检索词,计算机则认为这全文是用户所需的文献,将之输出。
53
忽略词 一些常用的英语词汇,当它在检索式中出现时,并不影响到检索内容。这些词就通常被系统所忽略,即没有检索意义。 通常有:
a an the these this do have of up have be too all had go to be is are am and not or 等 但有些系统将其赋予位置算符的作用。
54
我们要掌握检索系统的什么? 一、检索技术: 1、逻辑算符 2、位置算符 3、截词符 4、字段符
55
二、数据库的情况: 在使用一个数据库之前,应该对该数据库有个详细全面的了解。 1、文献收录的范围: 学科范围、文献类型范围、时间范围、地域范围、原文语种范围等。 2、建库情况: 由哪个单位制作:数据库的变化经常通过其公司的官方网站公布. 著录语种是哪种自然语言; 数据更新情况如何等。
56
如何获取数据库的服务 1、向有使用权的单位获取服务。一般先由单位购买,从而获得使用权。 2、个人直接向数据库服务公司申请帐号。
国外有多家专门提供数据库服务的公司。它自身不生产数据库。如dialog公司。个人向这些公司申请个人帐号(有的可网上申请,有的须当面申请),从而获得数据库服务。 如:
57
检索效果的评价 查全率:是指从数据库中检出的相关信息数占该数据库中相关信息数的百分比率。
评价检索效果有两个指标: 查全率:是指从数据库中检出的相关信息数占该数据库中相关信息数的百分比率。 查准率:是指从数据库中检出的相关信息数占检出信息总数的百分比率
58
检索结果 通过数据库得到的结果一般有两种情况:
一是得到文献的线索:即获得文献的特征信息。如文献的名称、责任者、出版者、收藏单位、分类号、主题词、文摘等。这种情况下,一般还得通过这些文献线索去索取原文。 二是直接得到文献的原文。
59
原文的获取
60
获取原文的途径: 传统途径: (1)利用当地文献收藏机构(主要是大学图书馆和公共图书馆等) (2)外地文献收藏机构 (3)向作者索取。作者相关信息的获取?
61
新生的文献获取途径 (1)利用全文数据库 (2)利用免费网络资源(主要是网站和数据库等) (3)利用文献传递服务机构。 清华大这文献馆际互借系统。
62
利用当地文献收藏机构 查本馆、本地各文献收藏单位的馆藏。 202.116.174.99 华南农业大学图书馆
华南农业大学图书馆 广州大学 广东中山图书馆 国家图书馆 统一检索平台:基本上暂无。 《六校联合外文期刊目录数据库》。
63
免费网络资源的获取 免费网络资源:全免费、部分免费、免费试用 需要平时的收集。 浏览我国“211”高校中的前几十所高校图书馆
64
Free medical journals site免费医学期刊目录
该网站将免费全文期刊分免费、出版1-6个月后免费、出版1年后免费、出版2年后免费等4类,目前收集了1400种免费。不局限于英文期刊。可称得上是最全面的免费网络生物医学期刊目录。
65
免费生物医学图书网站: 提供免费生物类医学类图书。与前者是由同一个单位Flying Publisher提供的。
66
三大免费电子期刊网站: (stanford university press)
67
OCLC上的免费资源: 免费数据库和免费电子期刊都可通过专线检索,网址均为: OCLC的网址:
68
世界免费电子期刊名和相应站点
69
原文传递服务 参与原文传递: 早在19世纪,西主国家的图书馆就出现了原文传递服务。到20世纪60年代,原文传递已在西方国家十分普及。在现代网络时代,原文传递已发挥着重要的作用。
70
我国的原文传递服务: (1)清华大学文献传递服务
71
(2)CALIS文献传递服务: 为CALIS成员馆提供文献(原文)传递服务。 成员馆分为:服务馆、用户馆 CALIS还与国外的文献传递中心建立联系,为成员馆提供文献传递服务。如美国的OCLC和CARL公司。
72
(3)国家科技图书文献中心(NSTL)文献传递服务
(代查代检服务)
73
(4)我馆提供的原文传递服务 CASHL原文传递:提供北京大学等7所大学图书馆近3000种人文社会科学外文期刊的全文服务。 理科服务:与信息咨询部相关工作人员联系。每篇文章费用为10元人民币左右。
74
(5)利用其它图书馆文献传递功能获取原文。
75
THANK YOU!
Similar presentations