第一章 主题标引绪论
《信息资源建设与组织》 信息标引 主题标引—侯跃芳 信息组织 分类标引—张浩 信息描述—张浩 信息资源建设—郭继军
信息组织 信息组织的概念: 即信息序化或信息整序,是指利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取、利用及信息的有效流通、组合。
信息组织 文献是记录有信息或知识的载体。 对信息资源的组织主要是对利用价值较高的文献或文献内所包含的信息单元或知识单元的组织。
信息组织的分支 信息标引 也称文献标引,是指分析文献的内容特征和外在特征,并用特定语言表达分析出的特征,赋予文献检索标识的过程。 信息描述 标引的种类:分类标引、主题标引。 信息描述 信息排序
主题标引课程内容 绪论:主题检索语言 标引词表及标引工具书 标引一般原则与步骤 组配原则 特征词
主题标引课程内容 副主题词 主题词标引 中医药文献主题标引 自动标引 主题语言在网络资源组织中的应用
第一章 绪论 主题检索语言: 定义、实质、构建基础、性质与特点、类型、演变、主题标引 MEDLARS检索语言: 第一章 绪论 主题检索语言: 定义、实质、构建基础、性质与特点、类型、演变、主题标引 MEDLARS检索语言: NLM简介、MEDLARS检索语言特点、我国医学文献主题标引
主题检索语言定义 主题法: 以自然语言中的名词术语作为标识符号,并依据这些标识符号的语义和字顺,编排和组织文献信息资源建立各种查询工具和检索系统。 主题法的基本要素: 词语标识、语义脉络、字顺系统
主题检索语言定义 主题法的两种涵义: 指一种用语词标识处理文献信息资源,组织主题检索工具或检索系统的方法 指主题检索语言(主题标引语言) 返回
主题检索语言的实质 实质:词汇控制、句法控制 控制的缘由: 主题检索语言是一种人工语言,非自然语言。自然语言是人类社会在交际中自然演变形成的,存在一义多词、一词多义、词汇表达概念模糊和不确定、词间关系不明晰等缺陷。如果不加以控制,很难满足信息检索系统的多种要求。因此对信息检索系统的基本元素——主题词进行控制是主题法的核心内容。
主题检索语言的实质 主题检索语言的基本成分:主题词 具体体现:各种主题词表 主题词之间存在两种基本关系: 语义关系 句法关系
主题检索语言的实质 词汇控制:根据文献标引和检索的需要,对自然语言中的词汇进行选择、规范并揭示其相关性的过程。 目的:标识准确、单义、相关、适用、兼容 词汇控制的范围:词量控制、词类控制、词形控制、词义控制、词间关系控制、专指度控制、先组度控制等 专指度:检索词与文献的主题概念的切合程度
主题检索语言的实质 句法控制:根据文献标引和检索的需要,通过一定的组词造句规则,对检索语词的组合方式作出规定 句法控制的措施:引用次序(组配次序)、控制符号、句式变换 返回
主题检索语言构建基础 概念逻辑 知识分类 术语学 返回
主题检索语言的性质与特点 性质:概念化、规范化、组配性、 语义性、动态性 特点:直接性、专指性、集中性、 多元性、适应性 返回
主题检索语言类型 体系分类法 分类检索语言 组配分类法 检索语言 体系-组配分类法 先组 标题法 主题检索语言 单元词法 叙词法 后组 分类检索语言 组配分类法 检索语言 体系-组配分类法 先组 标题法 主题检索语言 单元词法 叙词法 后组 关键词法 系统分类 组合时间
主题检索语言类型 依据标识组合时间分类:先组定组式、先组散组式、后组式 (1)先组定组式语言(列举式语言):标识在编表时(标引前)就已固定组合好,标引和检索时不必或较少进行组配的一种情报检索语言。 例:标题法 乙型肝炎—先天性
主题检索语言类型 (2)先组散组式语言: 标识主要供组配使用,标引时将表达主题概念的若干标识组配成标识串的一种情报检索语言。 例:冒号分类法 儿童图书馆:2,61
主题检索语言类型 (3)后组式语言(组配式语言): 标识主要供组配使用,标引时不将标识组配在一起,到检索时才将标识组配起来的一种情报检索语言。 单元词语言、叙词语言 例:乙型肝炎/先天性
主题检索语言类型 依据标识是否受控分类: 受控语言:标题法、叙词法、单元词法 非受控语言(自然语言):关键词法
主题检索语言类型 主题检索语言与分类检索语言比较: 主题:专指性、直接性、组配灵活 分类:系统性、间接性、严密性 趋势:分类-主题一体化 返回
主题检索语言的演变 标题语言 分面分类语言 单元词语言;叙词语言 关键词语言
标题语言 早期类型的主题检索语言 标题法:以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容。 开始:1856年,英国Crestadoro发表《图书馆的编目技术》 形成:1895年出版的《美国图书馆学会标题表》和1911年诞生的《美国国会图书馆标题表》 标题法:以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容。
标题语言 优点: (1)对标题词进行规范,达到词的单义 (2)对标题细分: 带说明语的单级标题,如“十二指肠溃疡” 多级标题,如“胃-溃疡”、“胃-生理”、“胃-肿瘤” 倒置标题,如“肝炎,中毒性”、“肝炎,酒精性”、“肝炎,先天性” 带限定词的标题,如“桔(树)”、“桔(水果)”
标题语言 (3)为集中同一主题的文献,将方面概念作副标题,如“病因”、“诊断”、“治疗” (4)用参照系统显示标题词间等同关系、等级和相关关系 总之,大量采用词组或短语作标题,含义明确、结构稳定、专指度比较高。
标题语言 缺点: 先组式语言,标题固定 不能多元标引和多元检索,不灵活 不能解决文献“集中与分散”的矛盾 20世纪30-40年代,分面分类理论逐步发展,由此产生单元词法、叙词法。
单元词语言 早期的后组式主题检索语言 单元词法:以字面上不能再分的词汇单元——元词作标识,以字面组配表达文献主题。 20世纪50年代初,美国陶伯(M.Taube)等创立 单元词法:以字面上不能再分的词汇单元——元词作标识,以字面组配表达文献主题。
单元词语言 优点: 与标题语言一样,标识受控 将“标题”分解为单元词,通过若干单元词的组配专指地表达主题概念,是后组式检索语言 如:胃+肿瘤+治疗 每个单元词都可作为检索入口,提供多途径检索 可利用单元词的增减扩大、缩小或改变检索范围
单元词语言 缺点: 对词组的分解是字面分解,组配也是字面组配,易导致语义失真及误检 缺乏完善的参照系统,不利于族性检索 字面组配 概念组配 字面组配 概念组配 香蕉苹果 香蕉+苹果 香蕉味食品+苹果 胃溃疡出血 胃+溃疡+出血 胃溃疡+消化性溃疡出血 缺乏完善的参照系统,不利于族性检索
叙词语言 新型的后组式主题检索语言 与单元词出现同期,美国穆尔斯(C. N. Mooers)创造 是对单元词语言的直接继承,但克服了单元词语言的不足,吸收并综合了多种标引语言的原理和方法,是能结合计算机使用的后组式语言,是目前主要的受控语言。
叙词语言 吸收: 以分面组配语言的概念组配代替单元词语言的字面组配 适当采用标题语言的先组式 采用标题语言和单元词语言对语词的严格控制 采用并完善标题语言的参照系统 采用体系分类语言的原理编制叙词分类索引和等级索引 采用关键词语言的轮排方法,编制叙词轮排索引
叙词语言 优点: 概念组配准确,标引能力强 结构完备,词汇控制严格 适合多途径检索,检索效率高 对检索系统的适应性强
叙词语言 缺点: 叙词表编制和管理难度较大 利用叙词语言标引和检索较复杂,使信息报道速度相对较慢
关键词语言 自然语言形式的情报检索语言 随计算机出现,为适应索引编制自动化的需要产生 直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过关键词轮排方法揭示文献主题。关键词表简单,不必设参照,使用禁用词表。
关键词语言 优点: 直接源于自然词汇,专指性优于其它主题语言 标引无需查表,简便易行,节省人力 及时更新词汇,报道信息快 适于计算机自动抽词标引,标引一致性高、标引深度大
关键词语言 缺点: 词语不规范,不能显示词间的等同关系、等级关系和相关关系,查全率、查准率相对较低 返回
主题标引 概念: 根据文献的内容特征,以主题词表、标题表为依据,赋予文献词语标识的过程。
主题标引 作用: 在传统检索系统中:编制主题目录;编制主题轮排;编制主题索引 在网络资源的组织和检索中:建立机读主题目录;建立主题索引文档 组织网络信息资源:少数网络系统利用主题词表,大多用关键词法(搜索引擎)
主题标引质量 1. 标引准确性: 要求标引给出的检索标识与文献内容相符合 有赖于准确的主题分析; 准确地转换标识
主题标引质量 2. 标引适度: 标引的网络度要适中,专指度要适当 二者的综合反映是标引深度 网络度:对文献内容标引的完备程度,具体表现为标引的主题数量多少。取决于主题分析水平、分析深度 专指度:要求检索标识确切揭示文献主题内容 二者的综合反映是标引深度
主题标引质量 3. 标引的一致性 要求对同一文献或相同主题的文献赋予相同的检索标识,也要求对同类型、同学科、同类主题的文献在标引方式、标引深度等方面保持一致。 返回
NLM简介 美国国立医学图书馆(National Library of Medicine, NLM)是世界上最大最著名的医学图书馆之一,创建于1836年 该馆在生物医学信息组织与管理、开发与利用、咨询服务等方面,在理念和技术创新等层面上均取得了举世瞩目的成就。
NLM简介 1879年创建美国《医学索引》(Index Medicus,IM),是目前世界上最权威的大型书本式检索刊。 1954年研制出叙词表《医学主题词表》(Medical Subject Headings,MeSH) 1964年研制成功医学文献分析与检索系统(Medical Literature Analysis and retrieval System,MEDLARS )
NLM简介 1968年成立美国全国生物医学交流中心 1988年创立全国生物技术信息中心(NCBI) 开展了毒物学和环境卫生项目 返回
MEDLARS检索语言特点 构建基础是叙词语言 充分体现主题词的等级结构:树状结构表、款目结构、主题词排序,推动主题分类一体化 设立特征词、副主题词 返回
我国医学文献主题标引 应用的主题语言:叙词语言 依据词表: 美国《医学主题词表》 《中医药学主题词表》 开发: 《中文科技资料目录》(中目) 中国生物医学文献数据库(CBM) 返回