第三章 信息检索语言 吉林建筑大学城建学院
3.1 分类检索语言 3.2 规范主题检索语言 3.3 非规范主题检索语言
信息检索语言 分类检索语言 主题检索语言 信息检索语言是人们在 加工、存储及检索信息时 所使用的标识符号, 也就是一组有规则的、 能够反映出信息内容 及特征的标识符。 信息检索语言 分类检索语言 主题检索语言
3.1 分类检索语言 郑樵 “人守其学,学守其书,书守其类” “欲明书者,在于明类例” “类例分则百家九流各有条理” “类例既分,学术自明”
3.1 分类检索语言 3.1.1 分类检索语言的基本原理 1 概念分析 将代表各种概念的类目 用号码来标识 分类检索语言即文献分类法,简称分类法 以学科属性为主并加以 系统排列来组织、检索文献 它是按分类途径排检 文献的基本工具和重要依据
又称分面分类法、组面分类法。冒号分类法是组配分类法的一种。 2 类型 体系-组配分类法 体系分类法 组配分类法 又称列举式分类法、枚举式分类法、等级体系分类法。中图法、科图法、人大法均为体系分类法。 又称分面分类法、组面分类法。冒号分类法是组配分类法的一种。 采用体系、组配相结合的方法。国际十进分类法为体系-组配分类法。
3 体系分类法的基本原理 体系分类法是一种直接体现知识分类的等级制概念标识系统,它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类法的主要特点是以分类号为标识,按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献的途径。
主要依据类目的等级划分,显示上下位类目之间的隶属关系。同位类目之间的并列关系,采用相应方法,显示出类目之间的同义、相交关系。 4 体系分类法的标识与组织方式 1 体系分类法中的标识符号又称为分类号。分类号是采用由字母、数字或二者混合的号码体系,作为大小类目的标识符号。 标识符号 2 体系分类表是按科学划分、等级层累的逻辑分类进行编排,能充分揭示事物之间的等级关系和相关关系,便于进行信息检索。 体系编排 3 主要依据类目的等级划分,显示上下位类目之间的隶属关系。同位类目之间的并列关系,采用相应方法,显示出类目之间的同义、相交关系。 类目语义关系
分类表是分类法的主要组成部分,是由众多类目组成的,通过隶属关系、并列、交互参照等方式来显示类目之间关系的一览表。 5 体系分类法的组成 编制说明 分类表是分类法的主要组成部分,是由众多类目组成的,通过隶属关系、并列、交互参照等方式来显示类目之间关系的一览表。 体系分类法 分类表 复分表
3.1.2 中国图书馆分类法 基本大类 中图法 编制说明 简表 详表 通用复分表
基本大类 N 自然科学总论 A 马克思主义、列宁主义、 O 数理科学和化学 毛泽东思想、邓小平理论 P 天文学、地球科学 B 哲学、宗教 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书 A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理
其中T 工业技术的二级类目采用两个字母标识: TB 一般工业技术 TL 原子能技术 TD 矿业工程 TM 电工技术 TE 石油、天然气工业 TN 无线电电子学、电 信技术 TF 冶金工业 TP 自动化技术、计 算技术 TG 金属学、金属工艺 TQ 化学工业 TH 机械、仪表工业 TS 轻工业、手工业 TJ 武器工业 TU 建筑科学 TK 动力工程 TV 水利工程
以经济类为例,列出中图法的各级类目: F 经济 F4 工业经济 F42 中国工业经济 F423 工业计划与管理 F423.1 工业计划
例如要查找“公路斜拉桥”方面的文献: U 交通运输 U44 桥涵工程 U448.27 斜拉桥
3.1.3 国际常用分类法 分类法名称 简称 主编 体系结构 杜威十进分类法 DC/DDC (美)杜威 等级列举式 国际十进分类法 DDC (比)英特勒等 列举组配 复合体系 美国国会图书馆分类法 LC 美国国会图书馆编目组 冒号分类法 CC (印)阮冈纳赞 分面组配式 书目分类法 BC (美)布利斯
3.1.4 国际专利分类法 1 IPC的结构体系 国际专利分类表是根据《国际专利分类法的斯特拉斯堡协定》编制的,是根据世界知识产权组织1994年出版的(第六版)国际专利类表,共9个分册。 A人类生活需要 B作业运输 C化学冶金 D纺织 E固定建筑物 F机械工程、照明 G物理 H电学 使用指南 农业、食品、烟草、个人和家庭用品、健康与娱乐 分离和混合、成形、印刷、运输 化学冶金 纺织和其他类不包括的柔性材料、造纸 建筑物、挖掘、采矿 震动机与泵、一般情况、照明与加热、武器、爆破 仪表、核子学 包括大小类、及大组的索引 部 分部
2 IPC逐级展开原理 A 生活必需品 (部) 健康与娱乐 (分部) A63 体育 竞技 娱乐 (大类) A63H 玩具 (小类) 健康与娱乐 (分部) A63 体育 竞技 娱乐 (大类) A63H 玩具 (小类) A63H3/00 玩偶 (主组) A63H3/36 .零件,附件 (一级分组) A63H3/38 ..玩偶的眼睛(二级分组) A63H3/40 ...会动(三级分组) A63H3/42 ...眼睛的制造(三级分组)
3.1.5 书店图书分类 三家书店分类比较 学人书店分类: 计算机;教育;教育理论;经济;考试;历史;新闻出版;外语;文化;文学;哲学;其他等12大类。大类下还有若干子类。 如计算机大类下分为:办公软件;编程;操作系统;电子电路;多媒体;计算机;计算机读物;计算机维护;数据结构;数据库;图形处理;网络;网页设计;微机原理; 三家书店分类比较 联合书城分类: 马列恩毛;哲学宗教;语言文字;医学卫生;社会科学;生物科学;冶金工业;动力工程;建筑工业;交通运输;计算机类;轻手工业;历史地理;航空航天;化学工业;矿业工程;自然科学;无线电子;武器工业;环境科学;电工技术;工业技术;农业林业;政治法律;金属工艺;教辅教程;工业技术;机械仪表;综合类图书;数理化;原子能技术;军事;石油天然气;经济;青少年必读;艺术;天文地球科学;其它; 共39类。 新华书店分类: 小说;文学;艺术;人文社科;投资理财;管理;经济;少儿;生活;科技;计算机;外语;文化教育;教辅;大中专教材等14大类,每个大类下有若干子类。 如计算机大类下分为:图形图像;网页制作;计算机考试;英文原版书;数据库;编程语言;操作系统;网络技术;软硬件技术;输入法;基础培训;工具书;
1)根据经营特点、品种规模、读者对象、地区情况等 确定类目层次,组织自家的分类体系。 2)根据销售情况调整类目的级别。 书店图书分类的特点: 1)根据经营特点、品种规模、读者对象、地区情况等 确定类目层次,组织自家的分类体系。 2)根据销售情况调整类目的级别。 3)类名的设置使读者更容易理解。 4)确立以陈列宣传为中心的分类原则。 5)结合主题进行分类。 6) 在求新、求变中把握读者心理。
3.1.6网络分类法 1 网络信息的特点 网络信息用户的特点: 用户范围极广; 受教育程度差别极大; 利用网络信息的目的和类型存在明显差异; 用户使用的网络服务不同。 网络信息的特点: 数量巨大而繁杂; 内容范围广泛; 信息类型众多; 动态性高; 超文本链接; 有序与无序。
2 网络信息分类法与传统信息分类法的比较 依据 传统分类法以文献内容的学科属性为主要的聚类标准 分类标记 传统分类法:不可缺少 Stages (4) 分类对象 信息知识范围 分类标记 依据 传统分类法以文献收藏部门为使用对象,文献的出版是受控制的、内容是经过一定筛选的,分类体系具有稳定性。 网络信息分类法以搜索引擎或大型网站为使用对象,网络信息总体上是不受控制的。 传统分类法以文献内容的学科属性为主要的聚类标准 网络分类法以主题为主要标准 传统分类法:不可缺少 网络分类法:用户不需使用,但作为网络分类法的后台运作,需使用。 传统分类法:物理的、实体的文献 ; 网络分类法:信息资源
3 网络信息分类法的功能 1)满足对互联网上各种类型信息组织的需要; 2)满足对互联网上各个知识领域信息组织的需要; 3)具有科学性、实用性,能满足各类用户浏览查询的 动态分类体系; 4)充分揭示信息知识的内容相关性; 5)能对搜索的信息进行有效的控制和过滤; 6)面向最终用户; 7)能与主题检索相互配合; 8)有丰富的信息输出。
共分类63个,以加黑或加红标示重点
共分类64个,以红色标示重点
共分类42个,以黑色标示重点
规范主题检索语言 主题词 3.2 规范主题检索语言 就是我们常说的主题词检索语 言,它所使用的检索标识是将 自然语言中的词汇经过人工规 范化后的语言词汇。所以我们 将主题词检索语言叫做规范主 题检索语言,它是在手工信息 检索和计算机数据库检索中运 用较为广泛的检索语言。 以自然语言为基础,经过标准 化处理的词语。它能直接表达 文献所论及或涉及的事物—— 主题,而不管该文献是从哪个 角度、从什么学科来论述该事 物——主题。自然词汇具有一 词多义和一义多词的现象,如 学名和俗称、简称和全称等。
3.3.1 关键词法 1 原理 3.3 非规范主题检索语言 关键词是指那些出现在文献的 标题、摘要以至正文中,对表 征文献主题内容具有实质意义 的语词,或者说对揭示和描述 文献主题内容是重要的、带有 关键性的那些语词。 关键词语是直接从文献的书名、篇 名、摘要和正文中选取的关键词, 在标引和检索时不需词表。由于所 选的词汇保持了作者的用词原型, 所以同义词、近义词及一词多形态 的词汇都同时并存。每个关键词都 可以作为检索“入口词”。
在选用关键词法建立的数据库时,选择检索词时要将所有反映同一概念的词汇如同义词、近义词及一词多形词都作为检索词,否则将造成漏检。 2 用关键词检索时应注意的几个问题 词汇的选择 应用范围 关键词与主题词 在手工检索工具中,关键词只适合作为用于利用关键词法编制的检索工具检索词,而对于用主题词法编制的检索工具,关键词则不能直接作为检索词使用,需经主题表核对后方能确定是否可以作为检索词。 (1)在文献量较少的情况下,可以用关键词进行全文检索,以扩大检索范围; (2)在文献量较多的情况下,要用主题词检索,并进行检索字段限制; (3)在检索的概念较新时,可用关键词作检索词。 在选用关键词法建立的数据库时,选择检索词时要将所有反映同一概念的词汇如同义词、近义词及一词多形词都作为检索词,否则将造成漏检。
3.3.2 纯自然语言法 2 检索中易出现的问题 1 原理 纯自然语言法是指完全使用 使用纯自然语言 自然语言,即对一条完整的 法,在检索中最 大的问题是误检 索率极高。 纯自然语言法是指完全使用 自然语言,即对一条完整的 信息中任何词汇都可以进行 检索。在检索过程中一般是 采用全文匹配检索,只要文 中有与检索词相同的词即为 命中,不用索引进行检索。 纯自然语言主要是运用在计 算机全文数据库检索和 Internet信息检索。