Presentation is loading. Please wait.

Presentation is loading. Please wait.

文献信息检索与利用 主讲:吉家凡 Tel:66251501 Email:jijiafan@163.com.

Similar presentations


Presentation on theme: "文献信息检索与利用 主讲:吉家凡 Tel:66251501 Email:jijiafan@163.com."— Presentation transcript:

1 文献信息检索与利用 主讲:吉家凡 Tel:

2 第一章 绪  论 第一节 信息检索的意义和作用 第二节 文献、信息基本知识 第三节 文献检索系统

3 第一节 信息检索的意义和作用 1、信息检索是现代人才的基本生存技能 2、信息检索是现代人才信息素质的重要方面
第一节 信息检索的意义和作用 1、信息检索是现代人才的基本生存技能 2、信息检索是现代人才信息素质的重要方面 3、信息检索是科学交流的重要途径 4、信息检索是开发信息资源的工具 5、信息检索是管理决策的基础 6、信息检索是避免重复研究的必由之路 7、信息检索是治学之道

4 第二节 文献、信息基本知识 (一) 基本概念 1、信息:消除对客观事物认识的不定性的东西,是符号、信号或消息所包含的内容。
  第二节 文献、信息基本知识 (一) 基本概念 1、信息:消除对客观事物认识的不定性的东西,是符号、信号或消息所包含的内容。 2、知识:人们对自然和社会的认识和描述的总和。 3、文献:记载有知识的载体。 4、出版物:可以理解为文献的表现形式或承载物,大多 数情况下等同于文献。 5、信息源:产生信息的事物,在本课程中,指文献信息源。 6、信息资源:可以理解为信息源所含的信息本身,是信息源的内含。在大多数场合,信息源、信息资源、文献信息资源是同义的。 7、信息检索:利用一定的工具从大量的信息资源中迅速、准确地查找出与特定的要求有关的信息。 本课程中,信息检索、文献检索、文献信息检索视为同一概念。

5 (二)文献的构成要素 知识内容 符号系统 文献载体 记录方式 文献中记录信息和知识,这是文献的灵魂。
表达知识信息的手段,包括语言、文字、图画、表格、公式、编码、音响、图象、声像等 。 符号系统 信息内容存储的依附体,包括印刷型文献、音像制品、机读资料等。 文献载体 记录方式 刻划、手写、机械印刷、拍摄和电脑录入、扫描等生产方式。

6 (三)、文献的类型:按载体划分 印刷型文献 感光型文献 机读型文献 按载体划分
  说明:多数著作把文献分为印刷型、缩微型、视听型、机读型四种,而以甲骨、竹简、金石、帛等为载体的文献较少见,这里不讨论。

7 印刷型文献(纸本文献) 载体:纸张 实例:图书、杂志、报纸 记录手段:印刷、抄写 特点:可直接阅读,方便
使用;不利于检索和保存;收藏文献占用空间大。

8 感光型文献 载体:感光材料 实例:缩微平片、电影胶片、幻灯片 记录手段:缩微技术、摄影技术 特点:体积小;价格低;不能直接阅读

9 机读型文献(电子文献) 载体:磁性材料、光盘 实例:磁盘、光盘、磁带 记录手段:磁记录、编码技术
特点:存储密度高、速度快;便于远距离传输;易复制;成本高;不能直接阅读。

10 图 书* 连续出版物 特种文献 (三)、按出版形式划分(十大信息源) 按出版形式的不同 期刊* 报纸* 研究报告* 会议文献* 专利文献*
图 书* 按出版形式的不同 期刊* 报纸* 连续出版物 研究报告* 会议文献* 专利文献* 技术标准* 学位论文* 产品样本* 技术档案* 特种文献

11 图书的含义 凡篇幅达49页以上并构一个书目单元的文献称为图书。未达到49页的,可称为小册子。

12 图书的特征 * 主题突出,内容系统全面,论述全面深入, 知识成熟稳定。适合于学习型读者 * 出版的周期长,因而其内容一般就缺乏
最新的研究成果。

13 期 刊 定义 期刊又称杂志,它是指围绕某个专题的定期或不定期连续出版的出版物。名称统一、开本固定、有连续的序号、汇集了多位作者分别撰写的多篇文章。

14 期刊的特点 A、期刊以品种为单位形成知识流; B、出版周期短,内容新颖、及时、广泛,专深; C、内容不全面系统,不成熟,论题窄;
D、文献中数量最多,使用量最大。

15 核心期刊 * 少数刊载某一学科大量高质量专业论文的期刊。 * 特点 (1)刊载专业文献密度高,信息含量高;
(2)水平较高,代表本学科的最新发展水平; (3)出版相对稳定,所载文献寿命较长; (4)利用率和被引率较高。 目前,许多单位核心期刊的判定是以 《中文核心期刊要目总览》为标准

16 报 纸 形式特征:有统一的名称,定期连续出版,每期汇集许多篇文章、报道、消息等,多为对开或四开,以单张散页形式出版。

17 报 纸 内容特征:时间性强,能以最快的速度报道国内外发生的最新事件和科学技术的最新研究成果,内容广泛。
类型:按出版周期分,有日报、双日报、周报、旬报等;按范围划分,有全国性报纸、地方性报纸、系统性报纸等;按内容划分,有综合性报纸、专业性报纸。

18 研究报告是单位和个人向上级或委托单位撰写的关于某个课题研究成果的正式报告。
研 究 报 告 研究报告是单位和个人向上级或委托单位撰写的关于某个课题研究成果的正式报告。 科技报告的特点 (1)内容新颖,选题尖端实用; (2)不公开发行或少量发行; (3)质量参差不齐; (4)保密性强; (5)每份报告独立成册,有连续编号。

19     会 议 文 献   会议文献是指在各 种会议上宣读、交流的 论文、报告、会议录等文献。定期召开的会议录或论文集其实相当于连续出版物。

20 专 利 文 献 专利文献主要由专利说明书构成。所谓专利说明书是指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件。 科技报告的特点
   专 利 文 献 专利文献主要由专利说明书构成。所谓专利说明书是指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件。 科技报告的特点 1、包括发明专利、实用新型专利和外观设计专利三种。 2、内容比较具体,有的还有附图,通过它可以了解该项专利的主要技术内容。 3、新颖性、创造性和实用性 ,有重大参考价值。 4、经审核可向全世界发行,获取容易。

21 标 准 文 献 标准具有一定的法律约束力,对技术的规定详尽、完整、可靠,更新频繁。检索时必须注意是否最新标准。 标准是按规定程序制订,
    标 准 文 献   标准具有一定的法律约束力,对技术的规定详尽、完整、可靠,更新频繁。检索时必须注意是否最新标准。 标准是按规定程序制订, 经权威机构公认或主管部门批 准的在特定范围内执行的规格、 规则、技术要求等规范性文件。

22 学 位 论 文 学位论文是指高等院校和科研单位中的本科生、研究生为获得学位,在导师指导下完成的科学研究、科学试验成果的书面报告。
    学 位 论 文   学位论文是指高等院校和科研单位中的本科生、研究生为获得学位,在导师指导下完成的科学研究、科学试验成果的书面报告。 *学位论文一般不对外发行,印数少,不容易获得。 *质量参差不齐,其中硕士、博士论文较为专深,对研究工作有较大参考价值。

23 (三)、文献的类型:按文献级别划分 一次文献 二次文献 按文献 的级别 三次文献 零次文献

24 1、一次文献 *作者以自己的研究成果为基础创作或撰写的文献; *对知识的第一次加工;具有创造性; *大多数期刊论文、科技报告、学术论文……

25 *对一次文献进行加工整理而成的具有报道和检索
2、二次文献 *对一次文献进行加工整理而成的具有报道和检索 作用的文献; *对知识的第二次加工;有序化;提供一次文献线索; *目录、题录、文摘等检索工具。

26 * 利用二次文献系统地检索出一批有关的文献,对
3、三次文献 * 利用二次文献系统地检索出一批有关的文献,对 其内容进行比较分析,综合述评而编撰的文献。 * 对知识的再加工;提供文献检索; * 综述、专著;字词典、百科全书

27 4、零次文献 * 还未形成一次文献的非出版物; * 论文草稿、谈话记录、实验记录、书信……

28 从检索的角度来看: 一次文献是检索的对象(目标) 二次文献是检索的工具(手段) 三次文献是情报研究的成果(检索目标+检索手段)

29 从知识加工角度来看: 一次文献是对知识的第一次加工(创造性) 二次文献是对知识的第二次加工(有序化)
三次文献是对知识的再加工(有序化+创造性)

30  (四)现代文献的整体特点 1、数量激增 2、类型复杂 3、文种多样 4、内容交叉重复 5、文献聚散有序 6、新陈代谢频繁

31 第三节 文献信息检索系统  (一)概念 文献信息检索:广义:将文献信息按一定方式组织和存储起来,并针对信息用户的特点需求查找出所需信息内容的过程。狭义(P9)。 职能:存储、检索

32 (二)检索工具 文献信息检索工具 手工检索工具 机械检索工具 参考工具书:字典、词典、百科全书、手册、指南、名录、年表、数据、统计资料
(二)检索工具  参考工具书:字典、词典、百科全书、手册、指南、名录、年表、数据、统计资料 文献信息检索工具 手工检索工具 检索工具书:书目、索引       文摘 计算机检索 机械检索工具

33 (三)信息检索的类型 文献检索 数据检索 事实检索 概念检索
信息检索的主要形式,通过二次文献,包括手工检索工具和计算机检索系统,找出所需的一次文献或三次文献。 文献检索 以数据为对象的检索,如查找数学公式、数据图表、某一材料的成分、性能等,是一种确定性检索。 数据检索 是以特定的事实为检索对象。事实内容包括大量的科学事件和社会事件。 事实检索 概念检索 就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。

34 (三)信息检索的类型 全文检索 图像检索 多媒体检索 检索系统存储的是整篇文章或整本图书。还有另一层意义:即从文献的全文中进行某项检索。
即以图形、图像或图文信息为检索内容的信息检索。 多媒体检索 是以文字、图像、声音等多媒体信息为检索内容的信息检索。

35 (四)检索效果评介 查全率(R):检出的符合要求的相关文献占全部相关文献的比例。R=b/a*100% (a为符合要求的全部文献,b为检出的符合要求的相关文献) 漏检率(O):未被检出的符合要求的相关文献占全部相关文献的比例。O=(1-R)*100% 查准率(P):检出的符合条件的相关文献占检出的全部文献的比例。P=b/c *100%(c为检出的全部文献) 误检率(N):检出的未符合条件的文献占检出的全部文献的比例。N=(1-P)*100% 以上四个检索评介参数只适用于内涵清楚的机检系统。

36 习题 1、文献及文献的构成要素 2、按文献级别区分,文献可分为几种?
3、在一个具有1000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、误检率和漏检率。

37 第二章 文献信息检索基础 第一节 检索技术及其实现 第二节 检索途径和语言 第三节 检索步骤

38 第一节 信息检索技术及实现 一、检索方式 1、命令式检索:用逻辑运算符、位置算符及其他检索符号,把不同的检索词连接起来进行检索的一个种方式。适用于专业人员。   如:经济 *( WTO + 世界贸易组织) * 企业 * 发展 2、菜单式检索:一种通过窗口菜单进行检索的简单、易操作的检索方式。适用于一般读者检索。如图:

39 第一节 信息检索技术及实现 一、逻辑提问式(布尔逻辑组配):计算机检索的基本技术,主要通过逻辑运算符(布尔算符)“与(and,*)”、“或(or,+)”、 “非(not,-)”等将检索词连接的提问式。 注意:优生级为not,and,or,用括号保证优先权;运算符两侧必须各有一个空格(半角) 对A、B两词而言其AND、OR、NOT的逻辑含义如下: A and B           A * B 表示提问要求命中文献同时包含A、B两个特征。    例:图书馆信息资源建设    提问式:图书馆 *信息资源 * 建设 

40 A or B : 表示提问要求命中文献包含A、B两个特征中的任何一个即可。
提问式:数据挖掘 * (信息检索 + 信息分析) A not B:表示提问要求命中文献包含特征A,但不能包含特征B。   A - B 例:自由分配方面的文献(排除海南大学师生的著作)    提问式::(关键词=‘自由分配’) not (单位=‘海南大学')

41 命令式检索的组配  菜单式检索的组配 

42 检索结果

43 第二章第一节 二、位置算符 with :在检索词之间使用,规定算符两边的检索词出现在记录中的的位置,以提高检准率。 常见的位置算符如下:
第二章第一节  二、位置算符 :在检索词之间使用,规定算符两边的检索词出现在记录中的的位置,以提高检准率。 常见的位置算符如下: 位置算符 表示方法 说明 with (W)或() 两个词在命中结果中相邻(可有空格、标点和连字符),词序不得颠倒。 (nW) 两个词之间最多可夹入n个词,词序不得颠倒。 near (N) 两个词在命中结果中相邻,词序可颠倒。 (nN) 两个词之间最多可夹入n个词,词序可颠倒。 field (F) 两个词在同一字段出现,位置不固定。 subfield (S) 两个词在同一子字段出现,位置不固定。 link (L) 两个词在同一规范词单元内出现,位置不固定。

44 第二章第一节 三、通配符(截词检索)    截词检索是利用检索词的词干或不完整的词形进行检索。其方法是在词干后可能变化的字符处加上通配符,可减少检索词的输入量,简化检索步骤,提高查全率。 1、无限截词,检索词的词干后(前)加一个“?”(有的系统为加*),表示词干后(前)可以有任意个字符。当通配符在词干后方时,我们称为前方一致或右截断,如“apple?”可代替(apple + apples + apple-pie + applesauce);通配符在词干前方时,我们称为后方一致或左截断。如?economics可代替(economics + micro economics + macro economics)。同时采用以上两种方式为复合截断,如”?count?”来代替(count + account +counter + accounting) 。也可截去中间部分,使词的两边一致,称为两边一致。如wom?n代替(woman + women + womyn)

45 2、有限截词:检索词的词干后加一个或一个以上(最多4个)的“?”,空格后再加一个“?”,则空格前的”
2、有限截词:检索词的词干后加一个或一个以上(最多4个)的“?”,空格后再加一个“?”,则空格前的” ?”个数表示词干后允许有的最多字符数。如“apple? ?”只能代替apple,apples,applet,而不能代替applejack。 注意:不同的系统有不同的通配符,以上是DIALOG的截词方法,在EBSCO中,无限截词符号为“*”,有限截词符号为“?”;另外,截词的部位要适当,截得太短(输入的字符不得少于3个),会增加误检,截得太长,会出现漏检。    注意:由于文字结构方面的原因,中文检索系统极少使用截词检索和位置算符检索。 四、禁用词:在绝大多数的检索系统中,介词、代词、等单独使用无实际意义的词以及使用频率很高的词不能作为检索词,被称为禁用词,如an,and,by,for,from,of,the,to,with等等。

46 第二章第一节 五、限制检索 在命令式检索中,通常要用字段代码来限定检索的字段,不同的数据库使用的字段代码略有不同。
第二章第一节 五、限制检索   在命令式检索中,通常要用字段代码来限定检索的字段,不同的数据库使用的字段代码略有不同。   “全国报刊索引”的字段标识为:A=分类 ,B=题名, C=著者 ,D=单位, E=刊名, F=年份, G=主题, H=文摘 ,I=全字段   例:B=图书馆 * D=海南大学    “DIALOG”的基本索引字段标识为:AB(文摘),DE(叙词),ID(自由词),SH(分类标题),TI(题目), CO(公司),检索形式为“检索词/字段代码”。辅助索引有:AU(著作),JN(期刊),PY(年代)……,检索形式为“字段标识符=检索词”。   例:(personal (w) computer/de or network/ti) and la = english and py = 2002   或( personal (w) computer/de, ti, id or network/ti, ab) and la = english and py = 2002   CNKI直接用字段名称标识,如:题名 = “计算机” and “机构”=”海南大学”

47 除字段限制外,有些检索系统还提供一类限制检索,如EBSCO检索中可限制时间、全文、出版物类型、文章类型、同行评介、封面文章、图像等。

48 第二章第二节 检索途径和语言 文献信息检索途径 外部特征 内部特征
第二章第二节 检索途径和语言  一、检索途径:检索途径又称为检索点、检索入口或检索标识,指用户进行信息检索的出发点和依据,它是由信息的内部特征和外部特征构成的。不同的检索途径,需要采用不同的检索语言进行检索。 文献信息检索途径 外部特征 内部特征 题名:书名、刊名、篇名、引文等 责任者:著者.译者.出版者.专利权人等 号码:ISBN、专利号、报告号、标准号等 分类 主题:包括叙词、主题词、关键词等

49 第二章第二节 检索途径和语言 检索语言的类型
第二章第二节 检索途径和语言 二、检索语言:用来描述检索提问主题、学科分类等内容的语言,它和检索途径是相对应的。常见的检索语言有主题语言和分类语言。 检索语言的类型 表述文献外表 特征的语言 表述文献内容 题名 责任者 号码 引文 分类法 主题法

50 1、主题词语言 标题词语言: 是从文献的题目和内容中抽出来,经过规范化处理的主题语言。是一种先组式的自然语言。
叙词语言:又称主题词,是以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻辑组配的一种主语语言。是一种后组式的人工语言。   以上两种语言 都是规范化的检索 语言,其检索词从 相关词表中得出。 标题语言和叙词语 言界限日益模糊, 逐步向叙词语言转 化,因此,叙词语 言是规范化词语检 索的基本方法。 图:EBSCO的主题词表

51 《中国主题词表》 天象 天象图 (考古) Z 耆那教教派 ●光行差 Y 石刻天文图 C白衣派 ●临边黄昏 天象仪 天应穴
  ●临边黄昏    天象仪         天应穴   ●临边增亮 Z 天文仪器      Y 阿是穴       ……       天衣派              D 祼衣派

52 关键词语言:从文献的题名、摘要和正文中抽出的具有实际意义的非规范化自然语言。其优点是:
1、简捷,降低对检索人员的要求; 2、易用,易于计算机编制和检索; 3、及时,能及时更新词汇。 缺点: 1、不规范,有大量的同义词、近义词,影响查全率和查准率。如“高速公路”有”autobahn”,“autoroute”,“freeway”,“speedway”,“thruway”等,“图形图像”和“图形图象”同义,检索时如果不能全部记住,会出现漏检;而“cell”既指细胞又指电池,检索时会出现误检。 2、词汇量大,给存取带来困难。    由于关键词是未经人工干预的自然语言,符合大众的检索习惯,大多数检索系统都有关键词检索。

53 如果我们要查找“天龙八部”,分类号为:I247.58。 使用分类法进行检索,能准确全面查找某一学科的文献信息,但会漏检同一主题的文献信息。
2、分类语言:是一种按学科范畴和体系来划分事物的检索语言,以分类表的形式体现。它展示了学科的系统性,反映了事物的从属、派生关系,从上至下,从总体到局部层层划分展开,是一种等级体系。由类目和相对应的类号来表达各种概念,构成一个完整的分类类目表。 如:《中国图书馆分类法》。    I2  中国文字     I24   小说     I247    当代作品(1949-)     I   新体长篇、中篇小说        武侠小说   如果我们要查找“天龙八部”,分类号为:I247.58。    使用分类法进行检索,能准确全面查找某一学科的文献信息,但会漏检同一主题的文献信息。    分类语言是一种人工语言,多数检索系统都是用分类号检索的,普通用户难以掌握,一些数据库分类过粗,一个类目下面汇集大量文献。而且分类法一般是数年才修订一次,不能反映最新的科学成果。

54 第二节 检索步骤 检索步骤:根据既定课题要求,利用检索工具查找有关文献资料的具体过程,实际是信息检索的具体化。为实现检索而制定的计划或方案称之为检索策略。主要有以下步骤: (1)进行课题分析,明确课题需求。   检索文献信息前对课题内容进行分析,明确文献检索的目的。 课题需求可以分为三种类型:  a、普查型:需要全面收集有关某一主题的文献资料,如以课题开题、教材编写等。具有普查、回溯的特点,要求尽可能高的查全率。  b、攻关型:需要收集有关某一主题某一特定方面的文献,其目的在于解决科研、生产中的关键问题,这类需求不强调查询的文献数量,但需要查得的文献具有较强的专指性。  c、学习型:需要了解掌握某一领域的研究动向、研究成果或相关知识,要求查到的文献具有新颖及时的特点,而对查全率和查准率不一定有很高的要求。

55 2、选择检索系统:选择检索工具时要考虑是否与文献需求紧密结合、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的工具以及检索系统的检索功能是否完善等,主要有几个方面:
全面性,即是否与课题相关的内容都要检索,包括的工具有一次文献和二次文献数据库,以及网上相关资源等。 针对性,保证选择的检索工具与检索课题的学科一致; 专业性,即选择与学科专业相关的工具,特别注意跨学科领域内容; 权威性,尽量选用该学科的权威性检索工具; 了解检索工具收录的范围,包括时间跨度、地理范围、文献语种、类型等; 检索工具的检索方法和系统功能是否全面有效。

56 3、检索词的选择:检索词是表达信息需求和检索课题内容的基本单元,选择恰当与否,会直接影响检索效果。检索词包括主题、作者、分类、号码等。
☆检索词的选择与确定要注意: 根据检索课题所涉及的学科专业和技术内容选词; 根据检索目的选词。如:“屠宰场含脂水的处理”,目的是富含脂肪的污水处理,因此并不在乎是屠宰厂还是肉联厂。再如:盐碱地改良。进一步和读者沟通后得知盐碱地改良是通过生物技术实现的,所以,加上生物技术更能体现出检索目的。 考虑相应的同义词。对同一事物,人们对其有不同的称呼和表达,如“计算机”又称“电脑”、“图形图像与图形图象“,“污水处理、污水控制与水净化”,“电动机与马达“等。要用逻辑或进行检索,如(电动机 or 马达),( 图形图像 or 图形图象)。

57 上位词、下位词:检索词有上位词下位词之分,如在EBSCO中,我们检索“芭蕾舞服装”,必须同时检索“芭蕾舞裙”、“芭蕾舞鞋”,才能得到满意的查全率。
不同外来词译定的变化:如:“欧几里德”、“欧几里得”、“欧基里德”、“欧几理德 ”、“Euclid”。 “aspirin”、“阿斯匹林”, “阿司匹林”, “乙酰水杨酸”。 缩写和中外文:如在CNKI中,用世界贸易组织检出875条数据,而用“世界贸易组织 or 世贸 or WTO”检出27337 条数据。

58 4、构造检索表达式 检索式又称检索策略,由检索词和和各种布尔逻辑算符、位置算符、截词算符及其它链接组配符号组成。在命令式检索中可根据检索式进行高级组配检索。 撰写检索式时,就要选择检索点。 检索点正确与否决定着检索结果的数量和质量,如使用全文检索,结果数量大,但相关性差;使用题名或文摘检索,结果数量少但较准确。如在CNKI中,在题名中检索“南斯拉夫 and 自治”检出文献33条,用主题=南斯拉夫 and 题名=自治检出文献48条,用主题“南斯拉夫 and 自治检出文献175条。 检索式可一次完成,也可分步完成,检索式的表达对一个课题不是唯一的,有多种选择、组配、限定。

59 例1:查找“造纸废水处理技术”的外文文献 A、抽词:造纸(paper making,paper pulp ) 废水(waste water) 处理(treat,treatment) B、检索式(paper () making or paper () pulp) and waste and (treat or treatment) 例2:赤潮对海洋贝类的危害 A、抽词:海洋贝类的下位词有:牡蛎、贻贝、珍珠贝、扇贝、蚶、鲍鱼、蛤仔、缢蛏、海螺、蚌等。 B、检索式:赤潮 *(贝 or 牡蛎 or 蚶 or 鲍 or 蛤 or 缢蛏 or 螺 or 蚌) * 危害

60 习题与作业 写出下列检索课题的检索式 1、“高掺量粉煤灰混凝土在高等级公路的研究和应用” 2、硫、磷对金属延性和金属冲击强度的影响
3、入世对中国商业的影响 4、海南大学谭兵教授的论文。


Download ppt "文献信息检索与利用 主讲:吉家凡 Tel:66251501 Email:jijiafan@163.com."

Similar presentations


Ads by Google