文献信息检索 第三章 文献信息检索的基本知识 ——主讲:蒋时雨 学习要点: △掌握文献信息检索的基本原理、方法和步骤 △了解检索工具概念、特征及其职能 △了解检索工具的基本类型和一般结构 △掌握检索语言的概念及分类语言和主题语言的基本功能 △了解文献信息检索类型 △了解检索效果的评价 文献信息检索 ——主讲:蒋时雨
第一节 文献信息检索的概念 一、文献信息检索的定义 二、文献信息检索类型
一、文献信息检索的定义 文献信息检索或情报检索(Information Retrieval)是指把文献按一定的方式组织和储存起来,并根据用户的需要取出所需要的特定信息的整个过程。其全名为:“信息存储与检索”(Information storage and Retrieval),我们所讲的文献信息检索仅指文献信息的查找过程。
二、文献信息检索类型 1、按照文献信息检索的内容划分 2、按照信息资源检索技术划分 3、根据检索手段划分
1、按照文献信息检索的内容划分: (1)数据检索(Data Retrieval) (2)事实检索(Fact Retrieval) (3)概念检索(Concept Retrieval) (4)文献检索(Document Retrieval)
(1)数据检索(Data Retrieval) 数据检索是以文献中数据为对象的一种检索,回答一个确定的数据或数据范围。 其一:主要查找公式、数据、材料的成分和性能等学术研究中常用的各类数据,如化学反应式、热力学数据、材料密度等。 其二:查找用户所需要的数值型数据,如调查数据、统计数据、产量销量等。如查找某一企业的年销售额、某一年度的钢铁产量等,能直接在参考工具书中得到相应的数据。 数据检索的工具书包括:百科全书、专业辞典、各种手册,年鉴、指南、便览。 因为数据检索课题的不同,所以检索的工具也是纵横交错的,往往某个课题要从多个数据检索工具中进行查找。
(2)事实检索(Fact Retrieval) 事实检索是以特定的事实为检索对象,凡是对某一事实发生的过程所进行的确定性检索均属事实检索。 事实检索工具的编排:通常主要是按笔画、时间、地点、名称进行的,偶尔也采用其它方法作为补充。 事实检索包括: ①人物检索 ②机构检索 ③时间检索 ④事件检索
①人物检索 人物检索就是对某个特定的人进行的检索,它包括对人的 姓名、生、性别、工作单位、职务、主要业绩等的介绍。 常见的人物检索工具有: 《中国人名大词典》、 《美国名人录》(Who’s Who in Americans 5th ed,Chicago:Marquis,1899—2003,Biennial)等。
②机构检索 机构检索就是对某一特定的法人、团体、企业等的检索,它包括对检索对象成立的时间、地址、名称、宗旨、历史、成员、出版物、法人代表的姓名等情况的介绍。 常见的机构检索工具有: 《中国企事业名录全书》 《中国政府机构名录》等。
③时间检索 时间检索就是按照一定的编排顺序,对某一时间段内 所发生的事实、人物进行的查找。 常见的时间检索工具有: 《中华人民共和国大事记》; 《中国文化史年表》等。
④事件检索 事件检索就是按照事件发生的顺序,对事件发生过程 进行的检索。 常见的事件检索工具有: 《中华人民共和国经济大事典》 《中共十一届三中全会以来大事记》等。
(3)概念检索(Concept Retrieval) 概念检索是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。 最常见的概念检索是各种参考工具。 例如:字典、词典、辞典、百科全书、名录、手册、指南等参考工具书。
(4)文献检索(Document Retrieval) 文献检索是以文献为检索对象。凡是查找某一课题、某一著者、某一地域、某一机构、某一事物的有关文献的出处和收藏单位等,均属于文献检索的范畴。例如:要查找有否与“循环经济”相关的文献的出处和收藏单位等,均属于文献检索。 文献检索是上述四种检索类型中最主要,最基本的形式,是文献信息检索中最重要的部分。它是通过二次文献,包括传统的以纸张存储介质的手工检索工具和大量以光、电、磁为存储介质的现代计算机检索系统,找出所需的一次文献或三次文献的方法。
2、按照信息资源检索技术划分: (1)全文文本检索( Full Text Retrieval) (2)多媒体检索( Multimedia Retrieval) (3)超文本检索( Hypertext Retrieval) (4)网络信息资源检索( Network Information Resource Retrieval)
(1)全文文本检索( Full Text Retrieval) 全文文本检索也称全文数据库检索,它通过计算机将文件的全貌,包括文字、图形和图像等信息转换成计算机可读形式,直接采用自然语言来设置检索入口,检索时以中文任意信息单元作为检索点,计算机自动进行高速比照,完成检索过程。
(2)多媒体检索( Multimedia Retrieval) 多媒体检索是指能够支持两种媒体以上的数据库检索。 多媒体数据库以及数据库检索技术对同时存在的文字、图形、图像、动画、声音等媒体的数据进行统一的存取和管理,检索时不仅能够浏览对象的文字描述,而且能够做到听其声,观其形。
(3)超文本检索( Hypertext Retrieval) 超文本检索是指超文本的内容排列是非线性的,它按知识(信息)单元及其关系建立起知识结构网络,具有图形的信息又称超媒体。 超文本(媒体)检索是通过超文本(媒体)链接来实现的。其形式有的在网页的文字处有下划线或以图标方式标志,用户点击这些标志便能进入与此信息相关的下一页,在该页面上通过超文本链接进入下一个页面,超文本起信息导向作用。这样,用户在从一个页面转向另一个页面的过程中就可以获取自己所需要的信息了。
(4)网络信息资源检索( Network Information Resource Retrieval) 网络信息资源检索是一种集合各种新型检索技术于一体,能够对各种类型、各种媒体的信息进行跨时间、跨空间检索的大系统。 网络信息资源的组织管理需要诸多的信息资源支持,其中以WWW(World Wide Web)全球浏览技术最具优越性和可用性。它在Windows等操作系统下交互作业,能给用户揭示一篇篇文章的信息,具有很强的直观性。Web文献数据库检索系统实在大量采用超文本的基础上将命令检索、选单检索方式融入其中,交互使用,集所有的检索机制为一体。 许多大型国际联机检索系统都在因特网上有自己的站点,为用户提供方便的检索服务。 WWW是一种集超文本技术、多媒体技术和网络技术于一体的新型检索工具。与传统信息检索方式相比,它具有深入、实时、快速、跨时空、共享和多媒体应用等优点。
3、根据检索手段划分 (1)手工检索( Manual retrieval) (2)计算机检索( Computer Retrieval)
(1)手工检索( Manual retrieval) 手工检索主要是指利用手工检索工具(如文摘、索引书刊、手册等),通过手工处理来查找信息资源。 (2)计算机检索( Computer Retrieval) 计算机检索包括脱机检索、联机检索、光盘数据库检索和网络信息检索(也称WWW检索)。 。
三、掌握文献信息检索的方法与技能的重要意义和作 用归纳如下: 1、掌握有效信息,继承和借鉴前人的成果; 2、提高科研效率,重复劳动; 3、有利于更新知识,培养创新能力,促进创新人才的培 养; 4、提供科学的方法,协助决策者作出正确的决策; 5、有利于实现资源共享; 6、提高人们的生活质量。
第二节 文献信息检索原理 一、文献信息检索原理 二、文献信息存储与检索原理图 三、文献信息检索原理举要
一、文献信息检索原理 1、存储过程 2、检索过程
二、文献信息存储与检索原理图 信息处理人员 原始信息 存储过程 信息分析、 著录和标引 检 索 工 具 检索语言 (主题词/分类号) 检 索 工 具 用 户 检索课题 课 题 分 析 检索语言 (主题词/分类号) 检索结果 检索过程 存储过程
三、文献信息检索原理举要 《新华字典》的编辑和使用过程,实际上是汉字信息的存储和检索过程。《新华字典》首先由编辑人员收集汉字及其注音、释义和用法,将它们一一记录下来(记录的结果称为款目),然后按照汉语拼音为序,编成字典的正文。为了方便使用起见,又以部首笔画为序,排成检字表(又称为部首笔划索引)。这个过程称为字典的编辑过程,实际上就是一个汉字信息的存储过程。 新华字典
我们使用字典时,或者直接在正文中以拼音顺序,或者利用检字索引以偏旁部首顺序,就能找到所需的汉字及其信息。这个过程称为字典的查找过程。实际上就是一个汉字信息的检索过程。 《新华字典》的这两个索引顺序,一个是正文中的汉字拼音,另一个是检字索引中的偏旁部首,它们既是编辑汉字的依据(存储汉字的依据),又是查找(检索)汉字的依据(这种依据称为检索标识,又称检索语言)。
第三节 检索语言 一、检索语言定义 二、专用术语 三、分类法和分类检索语言 四、主题法和主题检索语言
一、检索语言定义 检索语言是根据文献检索需要,用来描述文献信息内容特征、外表特征和表达情报人员提问而创制的一种人工语言。 对信息处理人员来说:检索语言是表达文献信息主题内容,形成文献标识并赖以组织文献的依据。 对检索人员来说:检索语言是表达检索课题要求,借以同检索系统中已经存储的文献标识进行比较而获得所需文献的依据。
二、专用术语 1、内容特征——与文献信息主题内容密切相关的信息。 2、外表特征——与文献信息主题内容没有关系或关系不大的信息。 3、著录——对文献内容和形式特征进行分析、选择和记录的过程。 4、标引——通过对文献的分析,选用确切的检索标识,用以反映该文献的内容的过程。
三、分类法和分类检索语言 1、定义 2、国内分类法 3、国外常用的分类法
1、定义 所谓分类法就是按照文献信息的内容、形式、体裁和读者用途等,在一定的哲学思想指导下,根据科学学科之间的逻辑归属关系,采用层次型或树杈(枝)型结构,列举人类所有的知识类别,并对每一知识分别标以相对固定的分类号,从而形成的分类表。
2、国内分类法 (1)《中国图书馆图书分类法》 (2)《中国科学院图书馆分类法》 (3)利用分类查找文献
(1)《中国图书馆图书分类法》,简称《中图法》。 《中图法》分类表结构:5部22个大类,类号采用汉语拼音字与阿拉伯数字的混合号码,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制的原则。 ①基本部类:马列、哲学、社会科学、自然科学、综合性图书 ②基本大类:22个大类 ③简表 ④详表(主表) ⑤辅助表(复分表) 《中图法》
《中图法》基本大类表如下: A 马克思主义、毛泽东思想、邓小平理论 B 哲学 C 社会科学 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫生 S 农业科学 T 工业技术 TB………一般工业技术 TD………矿业工程 TE………石油、天然气工业 TF………冶金工业 TG………金属学与金属工艺 TH………机械、仪表工业 TJ………武器工业 TK………能源与动力工程 TL………原子能技术 TM………电工技术 TN………无线电电子学、电信技术 TP………自动化技术、计算机技术 TQ………化学工业 TS………轻工业、手工业 TU………建筑科学 TV………水利工程 U 交通运输 V 航空、航天 X 环境科学、劳动保护科学 Z 综合性图书
《中图法》简表:
《中图法》 详表(主表):
《中图法》 辅助表(复分表):
(2)《中国科学院图书馆分类法》,简称《科图法》。 《科图法》分类表结构: 5大部类25个大类 ①基本部类:马列、哲学、社会科学、自然科学、综合性图书 ②基本大类:25个大类 ③简表 ④详表(主表) ⑤辅助表(复分表) 《科图法》
《科图法》基本大类表如下: 00 马克思主义、毛泽东思想、邓小平理论 10 哲学 55 天文学 20 社会科学 56 地质、地理科学 00 马克思主义、毛泽东思想、邓小平理论 10 哲学 20 社会科学 21 历史、历史科学 27 经济、经济科学 31 政治、社会生活 34 国家与法、法律科学 36 军事、军事科学 41 语言、文字学 42 文学 48 艺术 49 宗教、无神论 50 自然科学 51 数学 52 力学 53 物理学 54 化学 55 天文学 56 地质、地理科学 58 生物科学 61 医学、卫生 65 农业科学 71 技术科学 72………力能学、动力工程 73………电技术、电子技术 74………矿业工程 75………金属学、物理冶金 76………冶金学 77………金属工艺、金属加工 78………机械工程、机器制造 81………化学工业 83………食品工业 85………轻工业、手工业及生活供应技术 86………土木建筑工程 87………运输工程 90 综合性图书
《科图法》简表:
《科图法》 详表(主表):
《科图法》 辅助表(复分表):
(3)利用分类查找文献实例: 课题:“特色皮鞋市场”调查 步骤:经济——贸易经济——商品学——轻工业产品——皮革制品;要经过四次概念划分后在轻工业产品内,才有可能找到有关的类目。
(一级) (二级) (三级) (四级) (五级) F0 政治经济学 F1 世界各国经济概况 F2 经济计划与管理 F3 农业经济
3、国外常用的分类法 (1)《杜威十进分类法》(Dewey Decimal classification and Related Index,简称DDC) (2)《国际十进分类法》(Universal Decimal classification,简称UDC) (3)《美国国会图书馆图书分类法》(简称《国会法》)(Library of Congress Classification,简称LC)
(1)《杜威十进分类法》(Dewey Decimal classification and Related Index,简称DDC) 该分类法不仅在美国国内广泛使用,而且在世界上许多国家也有很大影响。它是一部国际上出现最早、流行最广、影响最大的图书分类法。 其类表结构为: 000 总论 100 哲学 200 宗教 300 社会科学 400 语言学 500 纯粹科学 600 技术科学 700 美术 800 文学 900 历史
(2)《国际十进分类法》(Universal Decimal classification,简称UDC) 0 总论 1 哲学、心理学 2 宗教、神学 3 社会科学 4 语言学(已并入第8类) 5 数学、自然科学 6 应用数学、医学、工业、农业 7 艺术 8 语言学、文学 9 地理、传记、历史
(3)《美国国会图书馆图书分类法》(简称《国会法》)(Library of Congress Classification,简称LC) A 总类、著作集 B 哲学与宗教 C 历史:辅助科学 D 历史:世界史 E-F 历史:美洲史 G 地理、人类学、民间传说及其他 H 社会科学 J 政治学 K 法律 L 教育 M 音乐 N 美术 P 语言、文学 Q 科学 R 医学 S 农业及其他 T 工业技术 U 军事科学 V 海军兵学 Z 目录学及图书馆科学
四、主题法和主题检索语言 1、定义 2、主题检索语言的类型 3、检索语言表
主题检索语言是使用词语标识的一类信息检索语言,又称主题法。 1、定义 主题检索语言是使用词语标识的一类信息检索语言,又称主题法。
(1)举例: 《中国财政法》一书, 用主题语言《汉语主题词表》标引, 其标识为“财政法+中国”; 用分类语言《中图法》标引时, 其标识为“D922.2”。 (2)主题语言包括两个内容: 一是指表达文献内容特征的,经过规范化的名词术语(包括词组和短语)。 二是把这些名词术语按字顺排列成主题词表或标题词表,以此作为规范语词标引和检索文献的工具。
(3) 主题词表: 把主题词按照一种便于检索的方式编排起来,(按主题词的拼音顺序编排起来的)就是主题词表。 我国有一部《汉语主题词表》,它是主题标引和检索的主要工具。 主题词表揭示了主题词之间存在的各种同义、近义、反义等语义关系,展开了同一族系中各主题词的语义等级结构,限定了较含糊主题的含义或确定其意义与范围。主题词表提供了按字顺、学科专业及等级结构等多种不同角度查找的途径。
2、主题检索语言的类型 (1)标题语言(Subject heading language) (2)关键词语言(Keyword Language) (3)叙词语言( descriptor language )
(1)标题语言(Subject heading language) 标题语言是指从自然语言中选取,经过规范处理,表示事物概念的名词术语。标题词表是收录全体标题词及其规划的一部词典。 其作用是:对标题词进行规范化和管理;通过参照来显示词的逻辑关系,是标引和检索文献的依据。
(2)关键词 语言(Keyword Language) 关键词编制的检索工具很多,主要有以下三种类型: ①纯关键词索引(Keyword Index,简称KWI) ②题内关键词索引(Keyword In Context Index,简称KWIC) ③题外关键词索引(Keyword out context,简称KWOC)
①纯关键词索引(Keyword Index,简称KWI) 是把从文献的正文、摘要和题名中分析出的一组关键词,依据其字顺轮排,没有修饰词的一种索引。“没有修饰词”是指在索引条目中不包含非关键词。 例如:“纺织设备的钢铁腐蚀评论”这一篇文献,可以抽出5个关键词来表达这篇文章的主题内容: 纺织、设备、钢铁、腐蚀、评论 ●纺织 钢铁 设备 腐蚀 评论 198655C(文献号) ●腐蚀 钢铁 纺织 设备 评论 ●评论 钢铁 纺织 设备 腐蚀 198655C(文献号) ●钢铁 纺织 设备 腐蚀 评论 ●设备 钢铁 纺织 腐蚀 评论 198655C(文献号)
②题内关键词索引(Keyword In Context Index,简称KWIC) 又称“上下文关键词索引”。主要从文献题目中抽选出来的主要关键词,按字顺进行轮排,并分别置于索引的中栏突出位置,作为编排和检索的依据。 例如:“海水对镁的腐蚀”(Corrosion of Magnesium by Sea Water)一文,可抽出3个关键词: 海水——Sea Water 镁 ——Magnesium 腐蚀——Corrosion 索引的编排著录格式如下: ①by Sea Water 海水(对于) /Corrosion of Magnesium /镁的腐蚀 206351 ②Magnesium by 镁(被) Sea Water/Corrosion of 海水/腐蚀 ③/Corrosion of /(对…的)腐蚀 Magnesium by Sea Water 镁被海水
③题外关键词索引(Keyword out context,简称KWOC) 它实际上是上述两种索引编排方法和原理的结合。
(3)叙词语言 (descriptor language) 叙词语言是以规范化科学名词为基础的一种主题法检索语言,是在归纳人类知识基础上,将所涉及的各种概念,以规范的词或词组的形式固定下来,构成主题词表。
3、检索语言表 (1)按文献信息资源的特征划分; (2)按规范化程度划分; (3)按组配方式划分; (4)按内容性质划分。
(1)按文献信息资源的特征划分: ①表述文献 外表特征的语言 (题录引文语言) 书名(刊名、篇名) 著者姓名 号码 引文 检 索 语 言 检 索 语 言 体系分类法语言 (列举式分类法) 组配分类法语言 分类法语言 关键词语言 先组式语言—标题词语言 后组式语言 ②表述文献 内容特征的语言 主题法语言 单元词语言 叙词语言 语义代码语言 结构段语言 其它语言 尚未应用
(2)按规范化程度划分 ① 人工语言 ② 自然语言
①人工语言: 人工语言也叫规范化语言,是人为地对标引词和检索词加以规范,使每个检索词只能表达一个概念。这些语言经过规范化之后,词和事物之间具有一一对应的关系,排除了自然语言中同义词、多义词、同形异义词的现象。 人工语言的优点: 有效避免漏检、误检的查找。
②自然语言 自然语言是指直接从原始信息中抽取出自由词作为检索点的检索语言。该语言对主题概念中的前部同义词或近义词等不加处理,取其自然状态,因此称为自然语言。 自然语言的特点: 造词灵活、使用随意、专指性强、查准率高; 及时反映最新出现的词汇,反映规范词难于表达的特定概念或新概念。 自然语言的缺点: 不规范,缺乏对词汇的控制能力,无法指示概念之间的关系,影响检索效率。
(3)按组配方式划分 ①先组式语言; ②后组式语言。
①先组式语言 先组式语言是指在检索前检索词已先用固定关系组配好 ,并编制在词表中,检索时用户只能根据词表去查找信息资 源而不能任意组配检索词,只能直接利用预先给定的组配好 的检索词去检索文献。 先组式语言的类型: 常见的分类法和标题法。 先组式语言的优点: 直接性和专指性较好。 先组式语言的缺点: 灵活度差。
②后组式语言 后组式语言是指在检索前,检索词在词表中没有被预先组配,检索时用户可以根据不同的检索需求对某些词进行任意组配。 后组式语言的类型: 常见的单元词法、标题词法。 后组式语言的优点: 提供了灵活的组配方式,在计算机检索中得到广泛的应用。
(4)按内容性质划分 ①分类语言; ②主题语言。
①分类语言 分类语言中最常见的是体系分类语言,它按照学科体系从 综合到一般、从复杂到简单、从高级到低级的逻辑次序逐级 展开。 分类语言的特点: 能较好地体现学科的系统性,反映事物的平行、隶属和派 生关系,满足人们从学科角度检索信息资源的习惯,便于随 时放宽或缩小检索范围,能从学科或专业的角度进行族性检 索,达到较高的查全率。 分类语言的缺点: 在标引和检索主题概念复杂的信息资源时不够准确,类目 专指度不是很高,影响查全率; 分类表不能随时修改、补充,对边缘学科和新兴学科缺乏 有效的检索方法。
②主题语言 主题语言是指采用表达某一事物或概念的名词术语来 标引、存储、检索的一种检索语言。 主题语言的类型: 标题词语言、关键词语言、单元词语言、叙词语言。
第四节 检索工具 一、检索工具的概念 二、检索 工 具的 类 型
一、检索工具的概念 制成的二次文献。是人们用来存储、报道和查找文献的工具。 例如:目录、索引、文摘等,其具有存储和检索的功能。 检索工具是指对一次文献(又称原始文献)进行加工整理编 制成的二次文献。是人们用来存储、报道和查找文献的工具。 例如:目录、索引、文摘等,其具有存储和检索的功能。 检索工具必须具备五个基本条件,或者说其必须具备的特点: 1、有明确的收录范围; 2、有完整明了的文献特征标识; 3、每条文献条目中必须包含有多个有检索意义的文献特征标 识,并标明供检索用的标识; 4、全部条目科学地按照一定规则组织成为一个有机整体; 5、有索引部分,提供多种必要的检索途径。 只有具备了上述五个条件,才能称为检索工具。
二、检索工具的类型 1、按检索手段(方式) 2、按出版形式
1、按检索手段(方式): (1)手工检索 (2)计算机检索
(1)手工检索 手工检索即是用人工来处理和查找所需信息的检索方式。 手工检索的特点: 方便、灵活、判别直观,可随时修改检索策略,查准率较高,回溯查找的年份不受限制。 手工检索的缺点: 检索效率低,漏检现象比较严重,不便于进行复杂概念课题的检索。
(2)计算机检索 计算机检索是利用计算机和一定的通信设备查找所需信 息的检索方式。它需要计算机、通信硬件设施、系统软件、应 用软件和数据库 计算机检索的特点: 速度快、效率高、查全率较高。 计算机检索的缺点: 成本高、费用大、回溯年份有限,另外查准率也常常不尽 如人意。
2、按出版形式: (1)印刷型检索工具 (2)缩微式检索工具 (3)机读型检索工具
(1)印刷型检索工具: ①书本式检索工具 ②期刊式检索工具 ③附录式检索工具 ④卡片式检索工具
①书本式检索工具 又称单卷式检索工具。一般以图书形式出版发行,它以 一定专题为内容,累积报道有关该专题的文献,并以特定范 围的读者作为使用对象,有单册和不定期连续出版两种。单 册一般只有一册,不定期连续出版的一般有几册。收集的文 献比较全面、系统,使用价值比较高。 例如:《四库全书总目》 《中国文学史书目举要》等 这些都是属于书本式检索工具。
②期刊式检索工具 它具有科技期刊出版特点,有统一的名称,以年卷为单 位,定期连续刊载。例如《全国报刊索引》、《内部资料索 引》等等。它们报道各种原始文献的线索,报道时间与文献 发表日期保持相应的并行关系,能使科研人员及时掌握当前 学术发展的最新动向,使用范围广。 其特点:定期连续出版,具有时效性强,报道系统完整, 便于使用、便于典藏、便于流通。
③附录式检索工具 附录式检索工具不单独出版,分别附录于图书、期 刊式文章之末,或附在文章间的索引参考项目中。又叫“参 考文献”、“引用书目”。 它的特点是专业性强,引用的参考文献与文章的中心内 容密切相关,而且是从大量的文献中精选出来的,具有重要 的参考价值。
④卡片式检索工具 卡片式检索工具是最常见的一种检索工具,它相当于把 书刊式的检索工具的每一条款目写在卡片上,然后按书名、 著者、分类号和主题词等以一定的编排顺序排列成套。 未实行计算机检索前使用的馆藏目录就是卡片式目录, 检索的途径通常有书名途径、著者途径、分类途径和主题途 径等。
(2)缩微式检索工具 以缩微胶卷形式出版的检索工具。 (3)机读型检索工具 是随着计算机的应用而发展起来的可供计算机 “阅读”的检索工具。如: 《四库全书》光盘 《中国学术期刊(光盘版)》 《中国大百科全书(图文数据光盘)》等。
3、检索工具按著录方式(见p18-20) (1)目录(catalog) (2)题录(bibliographic citation) (3)文摘(abstract) (4)索引(index)
(1)目录(catalog) ① 图书目录 ② 报刊目录 ③ 篇名目录 ④ 作者目录
①图书目录: 图书目录也称书目,是著录图书的书名、著者、出版者 等项目,按一定方式编排的检索工具。主要图书目录有: a)《四库全书总目提要》 b)《民国时期总书目:1911-1949》 c)《全国总书目》 d)《中国国家书目》 e)《全国新书目》 f)《“中华民国”出版图书目录汇编》
《四库全书总目提要》
《民国时期总书目:1911-1949》
《全国总书目》
《中国国家书目》
《全国新书目》
《“中华民国”出版图书目录汇编》
②报刊 目 录 报刊目录是著录期刊、报纸的名称、编者、出版者、 刊期等项目,按一定方式编排的检索工具。主要期刊目录有: a)《全国中文期刊联合目录(1833—1949)》 b)《北京图书馆馆藏报纸目录》 c)《中国当代期刊总览》 d)《乌利希国际期刊指南》(Ulrich’s International Periodicals Directory)
《全国邮发报刊分类目录》
《鼎发报刊目录大全》
《海天华教中文期刊征订目录》
若要了解外国报刊进口情况,可以查中图进出口公司编印的《外国报刊目录》。 若要了解我国当前有多少报刊,哪些报刊与自己的专业有关,可查:《中国报刊名录》 《中国邮发报刊大全》等。 若要了解外国报刊进口情况,可以查中图进出口公司编印的《外国报刊目录》。 目录主要用于报道文献出版和收藏情况,通过查阅目录,我们可以了解到出版单位和收藏单位所拥有的文献情况。 以上介绍的都是综合性目录。各艺术门类的专科目录,接下来将按各艺术门类分别介绍。
(2)题录(bibliographic citation) 题录以内容上独立的单篇文献或书中一部分以 致整个出版物作为其著录和报道单位(按“篇”报道 文献),也只对文献外表特征的描述。 题录通常包括:作者(或含其所在单位)、篇 名和来源出处及文种等,由出处导向原文 题录报道 周期较短,收录范围大,著录较为简单,但没有内容 摘要。
题录的著录格式 中国数控机床的现状及发展趋势/郝安林(安阳大学) 题录的著录格式 中国数控机床的现状及发展趋势/郝安林(安阳大学).——安阳大学学报:综合版,2004(2);21~23。 浅谈数控机床选购时应注意的事项/常正军(兰州理工大学机械厂).——甘肃科技,2004(5);90。 装夹方法——电控永磁夹具/李黎(意大利泰磁公司中国区).——航空制造技术,2004(7);42~43。 注意:题录经常以篇名目录(与目录形式相似)或篇名索引(与索引作用相似)的名称出现。 通过题录可以查阅到期刊杂志中的论文收录情况。
(3)文摘(abstract) 文摘是以单篇文献作为报道单位,同时揭示文献的外部特征和内容特征。文摘的著录项目是在题录基础上增加了内容摘要项即每条文献都是由题录和文摘正文两部分组成。 根据摘要的详简程度,可分为: ① 指示性文摘(原文的简介,在100字左右); ② 报道性文摘(原文的浓缩,在200-300字左右,能反应技术内容,参考价值高。) ③ 评论性文摘(在上述基础上增加评论)
(4)索引(index) 根据一定的需要,把特定范围内的文献资料中的有关款目(如字词、句子、专名、篇名、事项等)摘录出来,注明出处,或附以必要说明,然后把这些款项按一定规则编排起来,这种检索工具称索引。
例如:篇名索引 a)《全国报刊索引》 b)《内部资料索引》 c)《复印报刊资料索引》 d)《台港及海外中文报刊资料专辑》
《全国报刊索引》
4、检索工具的结构 (1)使用说明 (2)目录——目次表 (3)正文(主体部分) (4)索引 (5)附录
《全国报刊索引》-使用说明
《全国报刊索引》-目录
《全国报刊索引》-正文
《全国报刊索引》-索引一
《全国报刊索引》-索引二
《全国报刊索引》-索引三
《全国报刊索引》-附录
第五节 检索步骤(程序) 一、检索步骤定义 二、检索步骤
一、检索步骤定义 文献信息检索是根据课题要求,利用检索工具,按照一定的步骤和方法查找文献的过程。
二、检索步骤 1、明确检索目的 2、正确分析研究课题 3、确定文献检索工具 4、确定检索途径 5、选择文献检索的方法 6、实施检索,记录和阅读文献线索 7、索取原始文献
1、明确检索目的 1)不同的目的决定着对检索结果的不同要求,在检索之前必须 明确是需要该课题系统而详尽的信息,还是最新信息或者只需要某一时间的信息; 2)明确研究课题类型即:课题普查型、研究探索型、研究攻关型。
2、正确分析研究课题 (1)分析研究课题的主要内容,所属学科性质,明 确研究课题所需的信息内容,从而提出能准确反映课题 核心内容的主题概念。 (2)要确定文献类型,如果是理论性探讨,重点查 期刊论文、会议论文;如果是尖端技术,查科技报告; 如果是发明创造,技术革新,重点查专利文献;如果是 产品设计,重点是查标准文献及产品样本。 (3)要明确课题对检索深度的要求,以确定所需文 献是仅要求题录、文摘、或是要求提供全文。 (4)要明确课题的时间要求和范围。
3、确定文献检索工具 在选择检索工具时要考虑下面几个方面: (1)检索工具报道文献的学科专业范围; (2)检索工具所报道文献类型; (3)检索工具所收录文献的语种; (4)检索工具提供的检索途径。
4、确定检索途径 (1)内容特征的检索途径 (2)外部特征的检索途径
(1)内容特征的检索途径 ①分类途径 ②主题途径 ③题名途径 (2)外部特征的检索途径 ①著者途径 ②号码途径 ③其他途径
5、选择文献检索的方法 (1)按照检索工具使用与否区分的检索方法类型 ①直接检索法 ②间接检索法 (2)按照所使用的检索工具区分的检索方法类型 ①追溯法 ②常用法 ③综合法 (3)按照检索文献的时间顺序区分的检索方法 ①顺查法 ②倒查法 ③抽查法
6、实施检索,记录和阅读文献线索 当利用检索工具查到与检索提问相一致的线索时,应仔 细阅读各条线索,若内容切题,则要及时完整地记录下来, 以备进一步索取原始文献。
7、索取原始文献 当文献类型和出版物的全称明确以后,即可利用各种 馆藏目录或联合目录查找所需文献的收藏单位,进行借阅或 复制。或者通过国内终端向国际联机检索系统订购原文。目 前,通过网络数据库检索,也可直接得到原文。
检索方法图如下: ① ② ③ 明确检索目的 分析研究课题 选择检索工具 ④ 咨询课题 确定检索途径 ⑤ 选定检索方法 检索结果 ⑦ ⑥ 索取原始文献 查找文献线索
第六节 检索结果评价 一、检索系统的评价 二、检索效果评价
一、检索系统的评价 1、检索系统的 文 献覆盖范围 2、标引与自然语言检索 3、系统文献信息的更新 4、相关性输出与信息过滤 5、索引体系
二、检索效果评价 果的有效程度。检索效果评价是根据一定评价指标对实施信息 检索活动所取得的成果进行客观科学评价,以进一步完善检索 所谓检索效果(retrieval effectiveness)是指检索结 果的有效程度。检索效果评价是根据一定评价指标对实施信息 检索活动所取得的成果进行客观科学评价,以进一步完善检索 工作的过程。 常用的评价指标有:收录范围、查全率、查准率、响应时 间、用户负担和输出形式等。 其中主要的指标是查全率和查准率。
在检索过程中,检索系统中参加检索的全部文献可分成“有关”、“无关”和“查出”、未查出,四个量。 如果以:a表示查出的“有关”文献; b表示查出的“无关”文献; c表示未查出的“有关”文献; d表示未查出的“无关”文献。 它们之间的关系可用下表表示:
相 关 文 献 无 关 文 献 总 计 检出文献 a(命中的) b(误检的) a+b 未检出文献 c(漏检的) d(应拒的) c+d 总 计 课题相关性 系统相关性 相 关 文 献 无 关 文 献 总 计 检出文献 a(命中的) b(误检的) a+b 未检出文献 c(漏检的) d(应拒的) c+d 总 计 a+c b+d a+b+c+d 分析上表,检出文献(a+b,即从系统中检索出来的文献)以及未检出文献(c+d,即未从系统中检索出来的文献)是从系统相关性观察检索的效率。而相关文献(a+c,即与用户需求相符的文献)以及无关文献(b+d,即与用户需求不相符的文献)是从用户相关性观察检索的效率。任何一次检索结果都必然有这四个量,根据上述表中四种关系,我们可以对查全率和查准率进行定义和计算推导。
查全率(recall ratio)是指检出的相关文献数与库内相关文献总数之比,又称“检全率”、“命中率”,可用下式表示: 查全率= X 100% 即查全率: R= X 100%
查准率(precision ratio)是指检出的相关文献数与检出的文献总数之比,又称“检准率”、“相关率”,可用下式表示: 查准率= X 100% 即查准率: P= X 100%
例:数据库共存储了45000条信息,某个读者通过检索,检索出600篇 文献,其中符合要求的有300篇,而数据库中还有符合要求的100篇论文 没有被检索出来,请计算他的查全率和查准率? 解:已知:a+b+c+d=45000; a+b=600; a=300; b=300; c=100 查全率: R=a/a+c=300/300+100=300/400=3/4=0.75=75% 查准率: p=a/a+b=300/300+300=300/600=3/6=0.50=50% 答:该项目的查全率为75%,其查准率为50%。
对查全率R和查准率P两个公式作下图,可以看出两者之间存在互逆关系。 A 90 查全率 C 70 D 60 B 40 20 40 50 90 P 查准率 查全率(R)和查准率(P)关系曲线图
本章思考题: 2、文献信息检索语言的定义是什么? 3、简述信息检索语言的种类? 4、简述国内主要分类语言的体系结构? 1、试述文献信息检索的原理? 2、文献信息检索语言的定义是什么? 3、简述信息检索语言的种类? 4、简述国内主要分类语言的体系结构? 5、检索工具必须具备的五个条件是什么? 6、按文献信息的著录形式划分,检索工具有哪些类型? 7、文献信息检索的途径是什么? 8、文献信息检索的方法是什么? 9、文献信息检索的步骤是什么? 10、数据库共存储了45000条信息,某个读者通过检索,检索出600篇文献,其中符合要求的有300篇,而数据库中还有符合要求的100篇论文没有被检索出来,请计算他的查准率和查全率?