普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编
第3章 信息著录和标引 本章要点 ●介绍信息著录和标引的含义 与作用 ●叙述信息著录和标引的发展 ●介绍元数据的定义与作用 ●比较机读目录MARC和都柏林 核心元数据集DC ●介绍网络信息描述自动处理 方法——自动标引与自动分 类 本章要点 信息著录和标引是使信息序化的过程。它通过揭示信息的内在以及外在特征,将分散无序的信息重组,规范控制信息流向,以便用户有效利用。
第3章 信息著录和标引 3.1.1 信息著录的含义和作用 3.1.1.1 信息著录的含义 3.1 信息著录 的含义和标准 信息著录简称著录,是指在组织检索系统时对文献内容和形式特征进行选择和记录的过程。 著录的对象是信息,包括图书、期刊、文件、网络资源等等。信息著录的结果是款目或称记录。 3.1 信息著录 的含义和标准 备注: 款目是指依据一定的标准和方法,对一种文献或一种信息源的内容、价值和物质形态进行描述而形成的每一条记录。款目是由一条条著录项目组成。著录项目是用于揭示文献内容和形式特征的记录事项。比如,我国国家标准《文献著录总则》规定了9大著录项目,依次为:题名和责任者项、版本项、文献特殊细节项、出版发行项、载体形态项、从编项、附注项、文献标准编号及有关记载项、提要项。每个大项又包括若干个小项。都柏林核心元数据集涵盖了15个元素,包括题名(Title)、创作者(Creator)、主题及关键词(Subject and Keywords)、描述(Description)、出版者(Publisher)、其他贡献者(Contributor)、时间(Date)、类型(Type)、格式(Format)、标识(Identifier)、来源(Source)、语言(Language)、关联(Relation)、范围(Coverage)、版权(Rights)。 准确性和规范化是信息著录的基本要求。准确性要求著录结果要全面、客观、准确地揭示文献或其他信息源的内容特征和形式特征。规范化要求信息著录坚持标准化著录原则,按照统一的著录项目、著录格式、标识符号等进行著录。信息著录的质量在很大程度上决定着输入信息的质量,直接影响到检索效果。比如,在著录的过程中,提供的著录项目不完整,内容不准确都会影响信息检索系统的质量,造成对某些信息的误检和漏检。尤其是在计算机检索过程中,著录直接影响到数据库数据的质量,著录过程中多一个字符或少一个空格,都有可能对检索产生负面的影响。
第3章 信息著录和标引 3.1.1.2 信息著录的作用 信息著录的目的是为了报道和检索信息,通过著录可以浓缩文献信息的特征,起到揭示文献、报道文献,帮助人们快速地了解文献,进而选择自己所需文献的作用。 具体作用如下: 1. 揭示功能 2. 组织功能 3. 检索功能 备注: 信息著录的作用具体如下: (1)揭示功能 发展至今,信息著录已发展成为全面、系统反映文献信息的一整套方法。信息著录主要反映的是文献本身所具有的特征,在对文献全面系统分析、选出最具有代表性的特征后,通过概括而精练地叙述内容特征,以及简略而准确地描述形式特征等,将每一种文献的主要信息浓缩于方寸之间,使读者无须找到具体文献,就可以方便地了解文献的基本信息,如外表特征、内容主题等,并以此来决定对原始文献的取舍。[1] (2)组织功能 信息著录之后所形成的一个个款目或记录,是编制目录的基础,也是组织数据库数据的基本单元。文献编目工作包括信息著录和目录组织两个步骤,信息著录从分析文献的内容特征和外表特征开始,到记录下各种与文献报道和检索有关的信息为止,经过一系列工序、采用多种方式与手段,最终形成记载文献相关信息的款目或记录。目录组织则是将这些款目或记录按照一定的组织规则编排在一起,最终形成相应的检索工具或数据库。信息著录的质量直接影响着目录组织工作的效率,也对目录的质量有着重要的影响。 (3)检索功能 存储是信息检索的第一个阶段,也就是将表达文献特征的具有检索意义的标识加以记录并组织起来形成手工检索工具或计算机数据库,而所有表达文献特征的标识需要通过著录和标引来完成。作为信息著录结果的款目或记录,记载了反映文献特征的可供检索的各个标识。例如,从计算机检索来看,信息的查找是通过对数据库的搜索实现的。建立数据库是信息存储的主要形式,数据库是各种数据的逻辑集合,数据是构成数据库的基本元素,而一个个数据记录则是通过著录形成的,如果没有这些数据,计算机数据库的检索也就成了无源之水、无本之木。 [1]萧新.“文献著录”新议.江苏图书馆学报,1994.6
第3章 信息著录和标引 3.1.2 信息著录的标准 信息著录标准是指在描述信息过程中所要依据的规则和条例,是实现信息著录标准化的前提和根本。信息著录标准包括国际标准和国家标准。 信息著录标准化进程中,近年来受到广泛关注的热点之一,是网络信息资源的描述问题,亦即元数据的记录问题。与传统信息资源相比,网络资源在资源类型、结构、形式、描述环境、描述主体等方面存在这不同,其描述规范也因此呈现多样化。
第3章 信息著录和标引 《文献著录总则》 颁布时间:1983年7月 著录项目:① 题名与责任者项 ② 版本项 ③ 文献特殊细节项 著录项目:① 题名与责任者项 ② 版本项 ③ 文献特殊细节项 ④ 出版发行项 ⑤ 载体形态项 ⑥ 丛编项 ⑦ 附注项 ⑧ 文献标准号及有关记载项 ⑨ 提要项 备注: 1983年7月我国正式颁布了《文献著录总则》,旨在根据各种类型文献的共同特点,确定文献著录原则、内容、标识符号、格式等的统一规定。总则具有指导作用,为信息著录提供原则性的框架,并不作为文献著录的直接依据。不同类型文献的著录在依据总则的基础上,制定有相应的具体条文,作为文献著录的直接依据,如《普通图书著录规则》、《连续出版物著录规则》、《非书资料著录标准》、《档案著录规则》、《古籍著录规则》、《地图资料著录规则》、《检索期刊条目著录规则》、《文后参考文献著录规则》等。它们共同构成了我国比较完备的著录标准体系。
第3章 信息著录和标引 著录级次: 著录级次指著录文献的祥简程度。《文献著录总则》把著录项目分为主要项目和选择项目两种。主要项目包括:题名和责任者项的正题名、第一责任者;版本项;出版发行项的出版发行地、出版发行者、出版发行日期;载体形态项。选择项目包括主要项目之外的所有其余著录项目。 按著录的详略程度分三级:(1)简要级次:款目仅著录主要项目,又称第一著录级次;(2)基本级次:著录主要项目的同时,还著录了部分选择项目,也称第二著录级次;(3)详细级次:著录主要项目和全部的选择项目,也称第三著录级次。
第3章 信息著录和标引 著录格式: 指款目中各个著录项目的排列次序和表达方式。分为卡片式款目著录格式和书本式款目著录格式两种。 正题名=并列题名:副题名及说明题名文字[文献类型标识]/第一责任者;其他责任者.—版次及其他版本形式/与本版有关的责任者.—出版发行地:出版发行者,出版发行日期(印刷地:印刷者,印刷日期) 页数或卷册数:图;尺寸或开本+附件.—(丛编名/责任者,国际标准连续出版物编号;丛书编号.附属丛编) 附注 国际标准编号;中国文献标准编号(装订):价格 提要 Ⅰ.书名 Ⅱ.著者 Ⅲ.主题 Ⅳ.分类号 图3-1 卡片式款目著录格式
第3章 信息著录和标引 图3-2 书本式款目著录格式 正题名=并列题名:副题名及说明题名文字[文献类型标识]/第一责任者;其他责任者.—版次及其他版本形式/与本版有关的责任者.—出版发行地:出版发行者,出版发行日期(印刷地:印刷者,印刷日期).—数量及其单位:图及其他形态;尺寸或开本+附件.—(丛编名/责任者,国际标准连续出版物编号;丛书编号.附属丛编).—附注.—国际标准编号;中国文献标准编号(装订):价格 提要 备注: 目前,在多数信息机构并存着两种目录,一种是传统的卡片式目录,如书名目录、著者目录、分类目录。另一种是机读目录。在上个世纪80和90年代,国内信息机构开始从传统的卡片式目录向机读目录过渡,例如,北京大学图书馆的卡片式目录的收录时间跨度为:自北京大学图书馆的前身京师大学堂藏书楼成立至1995年9月5日期间进入北大图书馆的所有藏书的目录。对于1990-1995年9月5日期间入馆的图书,既建立了机读目录数据,又制作了传统的卡片目录。自1995年9月5日起,不再制作传统的卡片目录,只建立机读目录数据,供读者通过计算机进行网上查询。 图3-2 书本式款目著录格式
第3章 信息著录和标引 3.2.1 机读目录 机读目录(MARC)即机器可读目录的简称,来自英文Machine-Readable Catalogue,是利用计算机识读和处理的目录。机读目录是描述文献著录项目的国际标准格式,是实现计算机处理书目信息及资源共享的基础。 3.2 机读目录 与元数据 备注: 机读目录的发展历史: 机读目录最早产生于美国,1963年,美国G.W.金等人发表关于美国国会图书馆书目系统自动化的报告。1966年1月,产生了《标准机器可读目录款式的建议》,制订了MARCⅠ格式。1967年经过调整和改进,推出了MARCII格式。1968年7月开始了正式的MARC计划,1969年3月向全国发行MARCⅡ格式的英文图书机读目录磁带,称为美国机读目录格式USMARC。1977年,为了进一步协调、促进国际交流,统一各国机读目录格式,国际图书馆联合会在USMARC基础上主持制订了“国际机读目录通信格式”,即UNIMARC。到80年代末,英国、联邦德国、法国、加拿大、丹麦、意大利、挪威、瑞典、澳大利亚、日本以及拉丁美洲和非洲共20多个国家和地区进行了机读目录的研究和开发,建立了机读目录系统,生产和发行机读目录产品。中国机读目录研制于二十世纪70年代,1979年成立了北京地区机读目录研制小组,依据UNIMARC格式和《文献目录信息交换磁带格式》(GB2901-82),根据我国实际情况,编制了《中国机读目录通讯格式》讨论稿,1992年正式出版了《中国机读目录通讯格式》,即CNMARC。
第3章 信息著录和标引 中文文献的著录主要采用的是CNMARC,以共享我国图书馆和信息部门的中文书目记录;西文文献的著录则采用USMARC,以共享国外权威的西文书目记录。这里重点介绍CNMARC。 CNMARC 记录 记录头 标区 地址目 次区 数据字 段区 记录分 隔符 注:各字段数据元素及其标准详细情况参见教材P47-51
元数据的英文为Metadata,意为关于数据的数据。 第3章 信息著录和标引 3.2.2 元数据 元数据的英文为Metadata,意为关于数据的数据。 在Internet中,元数据是指描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据,以协助对网络资源的识别、描述、指示其位置。
第3章 信息著录和标引 1. 定位和检索 3.2.2.1 元数据的作用 元数据具有描述、定位、搜寻、评估、选择等多种功用,可以连贯有效地描述、管理、编目网络资源,以便用户更方便地找到资源,并找到更多的相关资源。 1. 定位和检索 2. 著录和描述 3. 资源管理 4. 资源保护与长期保存 备注: 鉴于元数据的上述作用,如果对于网络上所有资源(网站、网页、文档、服务)都用相同的元数据元素进行描述,对每个网络资源形成一条由这些元数据元素组成的元数据记录,将这些元数据记录集中管理起来,那么将在很大程度上较好地解决网络资源的可检索性、可管理性、可交换性等问题。因此,国际上和很多国家、地区和行业都在致力于元数据标准的制定与完善。其中影响最为深远、使用最为广泛的是国际标准都柏林核心元素集(Dubin Core Elements Set)。
3.2.2.2 都柏林核心元素集(Dublin Core Elements Set) 第3章 信息著录和标引 3.2.2.2 都柏林核心元素集(Dublin Core Elements Set) 都柏林核心元数据集(Dublin Core Elements Set)是一种跨领域的信息资源描述标准,其应用的资源类型没有根本性的限制。 注:DC的十五个元素及其定义与详细解释见教材P52-53 备注: 都柏林元数据核心集中的15个元素都是可选择、可重复和可扩展的。也就是说,不同国家、地区、行业、文件类型在应用时可以根据需要挑选其中的部分和全部元数据元素,也可以增加其他必要的元数据元素。目前世界上有很多国家和部门都将都柏林元数据核心集作为一项基础标准。我国图书馆学界较早认识到元数据标准的重要性,是较早开发元数据标准的领域。1997年中山市图书馆开始了“数字式中文全文文献通用格式”的研究,该标准全部采纳了国际标准都柏林元数据核心集(DC)的15个元数据项目,并增加了记录控制号(record),共16个元数据项目。[1]1997-2000年开展的国家重点科技项目“中国实验型数字式图书馆”,强调了要采用国际标准,其中包括都柏林核心元数据集。 [1] 莫少强.数字图书馆元数据和资源共享的研究与实践.图书情报工作.2002.1
第3章 信息著录和标引 3.2.3 都柏林核心元数据和机读目录的比较 DC与MARC的比较 1. 著录的对象不同 2. 数据的形式不同 3. 著录的主体不同 4. 著录的详简程度不同 5. 标识的方法不同
第3章 信息著录和标引 3.3 信息标引 3.3.1 信息标引的 的含义和步骤 含义和质量控制 3.3.1.1 信息标引的含义 信息标引是指在分析文献内容的基础上,用某种检索语言把文献主题以及其他有意义的特征标识出来,它是文献存储与检索依据的一种文献处理过程。 信息标引 分类标引 主题标引
第3章 信息著录和标引 3.3.1.2 信息标引的质量 控制 信息标引质量的优劣,直接影响到计算机的查全率和查准率,影响到用户利用检索系统的效率。尤其是随着大型数据库的开发和利用,对于海量的数据,必须组织大规模的集体标引才可能完成任务因而,关于信息标引的质量控制就显得尤为重要。 影响标引质量的因素 标引深度 专指度 一致性
第3章 信息著录和标引 3.3.2 信息标引的步骤 信息标引的步骤包括主题分析和概念转换,也就是先要对文献的内容进行分析,明确文献的主要内容和主题概念,然后用分类法或主题法将其充分、准确地表达出来。 3.3.2.1 主题分析 (1)单主题和多主题 (2) 显性主题和隐性主题 1. 主题类型和结构 备注: 主题类型划分依据不同标准有不同分发: (1)依据主题数量的多少可以分为:单主题和多主题 单主题是指一篇文献只研究一个事物(对象),或一个事物(对象)的一个方面或几个方面,如“信息检索导论”、“情报学概论”均是单主题。在单主题文献中,根据其主题概念的数量和关系,又可分为单元主题和复合主题。只需要一个基本概念就可以概括的主题称为单元主题,如“生物学”;包含两个或两个以上基本概念的主题称为复合主题,如“生物科学发展战略”。 多主题是指同时研究两个或多个独立的事物(对象)。如“广播、电视简明技术手册”、“汽车和拖拉机的维修与使用”这两篇文献就是多主题。 (2)依据主题的显露程度可以分为:显性主题和隐性主题 显性主题是指文献明确阐述表达的主题。如“中国经济体制改革”这篇文献明确包括“中国”和“经济体制改革”两个概念。而隐性主题则是指在文章篇名中没有直接用语词加以描述,而是隐含在正文中。例如,“加压素治疗休克引起冠心病”这一文章,除了休克、加压素、冠心病这些直接的主题概念外,还隐含着致病化学因素、药物副作用等主题概念。
第3章 信息著录和标引 主题因素 五方面 主体因素 文献类型因素 通用因素 时间因素 位置因素 备注: 在主题结构中,各个基本主题因素之间的相互关系主要表现为这样一些:应用关系、影响关系、从属关系、比较关系、因果关系等。这些关系在分类标引和主题标引过程中应给予正确的处理。
第3章 信息著录和标引 2. 主题分析方法 主题分析方法一般有两种: 一种是先找出文献论述的对象,再进一步查明是论述了对象哪个方面的具体问题,可以按照事先设计好的主题结构模式提炼相关主题要素,分析主题要素之间的关系。 另一种是先找出文献所涉及的各种概念,并查明它们之间的相互关系。文献中包含哪个因素就分析哪个因素,有的因素不只一个就要全部分析出来,以便筛选和进行匹配,然后,再将各个因素按照主题结构模式进行分析。
第3章 信息著录和标引 3.3.2.2 概念转换 主题概念转换是以主题分析为基础,将确定的主题概念赋予检索标识的过程。 主题概念转换按其复杂程度可以分为两种: (1)直接转换:这种转换比较简单,标引人员从词表中直接选择与主题概念对应的分类号或主题词即可; (2) 分解转换:将复杂的主题概念首先进行分解,然后再选择相应的主题词或分类号。 概念转换结束后,还要进行标引结果的审核,即审核文献的分类或主题检索标识是否正确,包括文献主题分析的正确性、充分性,检索标识的正确性等。
第3章 信息著录和标引 3.4 分类标引 和主题标引 3.4.1 分类标引 文献分类标引是指依据一定的分类检索语言,对文献内容的学科性质及其有检索意义的形式特征进行分析、归纳,赋予文献分类检索标识(分类号)的过程。目前,国内主要依据《中国图书馆分类法》来进行分类标引。
第3章 信息著录和标引 3.4.1.1 分类标引的基本原则 1 学科属性原则 2 专指性原则 3 实用性原则 4 系统性原则 5 一致性原则
第3章 信息著录和标引 3.4.1.2 各种类型主题文献的分类标引规则 1. 单主题文献的分类标引规则 2. 多主题文献的分类标引规则 3. 相关关系主题文献的分类标引规则 注:具体规则参见教材P58-59
第3章 信息著录和标引 3.4.2 主题标引 主题标引指依据一定的主题词表,对文献的内容先进行主题分析,再赋予文献语词标识的过程。目前,国内主要采用《汉语主题词表》及其相关的专业词表进行主题标引。 选词规则 组配规则 备注: 选词规则和组培规则: 1.选词规则 (1)文献主题标引应选用词表中的正式主题词标引。词表中的非正式主题词只起指向正式主题词的作用,本身不得直接用于标引。如:《全国高等学校图书馆工作会议文集》标引为:院校图书馆——图书馆工作——中国——文集(在《汉语主题词表》中,“大学图书馆”用(Y)“院校图书馆”)。 (2)文献主题标引应该首先选取与文献内容主题概念相对应的、最专指的主题词。如:《心电图诊断技巧》标引为:心电图——诊断,不能标引为:电诊断。 (3)文献内容的主题概念在词表中没有相应的最专指的主题词时,可选用与其最直接相关的、最邻近的主题词进行组配标引。如:《石英电子钟表修理大全》标引为:石英钟——电子钟——维修——手册。 (4)文献内容的主题概念在词表中没有恰当的主题词组配,可考虑选用一个最直接的上位主题词进行上位标引,或近义的主题词进行靠词标引。当文献内容的主题概念采用上位主题词、近义主题词或组配标引都不合适时,可增补新的专指主题词进行标引。如,《视听新潮流:家庭影院》标引为:家庭影院 (5)新增词应遵循一定的原则,必须是词形规范、概念明确、具有较重要的检索意义、或具有较广泛的组配作用, 如“远程教育”、“光盘刻录机”;新增词应是比较成熟、稳定、具有生命力的主题概念,如 “因特网”;新增词应是词表中明显漏收的重要主题概念,如“电力电子学”等。 (6)各类名称主题词可直接作为正式主题词来使用,如地理名称、个人名称、机构名称、作品名称、会议名称、节目(栏目)名称、产品、设备、仪器、仪表等名称、大型系统名、数据库名、应用程序名、计算机语言名称等。[1] 2.组配规则 在主题标引过程中,将两个或两个以上的主题词按照一定的逻辑关系加以组织以表达文献主题的,称为组配标引。组配标引是主题标引中准确揭示文献主题的一种基本的标引方法。组配标引能以较少的主题词完整确切地表达主题概念,提高标引的专指性,并提高检索效率。组配标引的关键是解决好主题词之间的组配问题,主题词的组配应遵循一定的规则。 (1)主题词的组配必须是概念组配,而不是字面组配。组配的主题词之间,存在着概念限定或概念交叉的关系。例如:“熊猫洗衣粉”这一主题,应该用“熊猫牌商品”和“洗衣粉”组配,而不能用“熊猫”和“洗衣粉”两词组配。 (2)当表达一个复杂主题概念有几种组配形式可选择时,应优先采用交叉组配法。只有不能进行交叉组配时,才可使用限定组配法。如:《介质光波导》应标引为:介质波导——光波导,而不能标引为:介质——光波导。 (3)应选用与主题关系最密切、最邻近的主题词进行组配,不能选用泛指的主题词越级组配。如:《中国人民解放军财务史》标引为:中国人民解放军军史——军队财务,而不能标引为:中国人民解放军——军队财务。 (4)主题词组配标引的结果,必须概念清楚、确切,具有单义性。如:《知识经济浪潮》应直接增补“知识经济”一词,标引为:知识经济——概论,而不能标引为:知识——经济——概论。 (5)当一个标题中的主题词涉及到不同主题因素时,主题词的组配次序一般按照“主体因素—通用因素—空间因素—时间因素—文献类型因素”确定。当一个标题中同时出现多个主体因素主题词时,一般按对象、方法、材料、过程、条件等次序排列。如:《压力容器焊后热处理》标引为:压力容器——焊后处理——热处理。 [1] 中文文献主题标引规则http://www.calis.edu.cn/calis/lhml/lhml.asp?fid=FA0309&class=2 2004年3月15日访问。
第3章 信息著录和标引 主题词组配标引的形式 概念 交叉 组配 概念限 定关系 组 配 连接 关系
第3章 信息著录和标引 3.5 自动标引 自动标引指直接通过计算机的操作处理,赋予检索标识的活动。 3.5.1 自动标引概况 自动标引指直接通过计算机的操作处理,赋予检索标识的活动。 在网络环境下,传统的手工标引已经无法适应信息存储的需要,自动标引由于具有较强的处理能力,能够适应信息数量迅速增长的需要,处理速度快,可以在一定程度上克服手工标引人员由于主观因素而导致的标引误差,增强标引结果的一致性,标引成本相对较低等优点,呈现出明显的优势,逐渐被广泛应用。 3.5 自动标引 备注: 自动标引的发展历程: 自动标引的发展起始于20世纪50年代末。1957年,美国IBM公司的卢恩(H.P.Luhn)发表了两篇文章,首次将计算机技术引入文献标引领域,开创了自动标引的先例。在上世纪60年代,卢恩等研制的以计算机为编制手段的关键词索引法,曾广泛应用于《化学题录》等大型专业索引刊物的编制。此后,二十世纪70年代美国国防部文献保障中心(Defense Documentation Center)采用的机助标引系统,90年代美国NASA宇航信息中心使用的机助赋词标引系统等,都是结合自动标引研究成功建立的人机结合的实用系统。 我国研究人员70年代末开始研究汉语文献自动标引问题,在TK-70计算机上建立了一个试验系统,借助词典对文献题名进行切分,然后使用一套组词规则,将切出的小词组成专指的关键词输出。90年代中期以后,就开始逐步出现供实际使用的自动标引系统。1996年中国医科院情报所就采用人机结合的方式建立生物医学文献数据库,随着计算机技术的发展,自动标引技术得到了很大发展,并取得了显著进展。 自动标引有多种形式,从标引深度来分,有全文自动标引和题名自动标引;从选用的标引词来分,有叙词自动标引和关键词自动标引;从标引方式来分,有自动赋词标引和自动抽词标引;从标引形成标识来分,有主题自动标引和分类自动标引。 全文自动标引指对文献的全文进行自动标引,标引方式包括单词标引、短语标引和语义标引等。题名自动标引是指以题名作为标引源,比如,我国一些档案部门就主要采用了题名关键词自动标引。 自动赋词标引指在计算机自动标引过程中,使用的标引词选自预先编制的词表,而不是来自文献本身。自动抽词标引是指用计算机从文献文本中抽出标引用词(即能表达文献主题概念的词)的一种自动处理过程。 在网络环境下,传统的手工标引已经无法适应信息存储的需要,自动标引呈现出明显的优势。自动标引系统具有较强的处理能力,能够适应信息数量迅速增长的需要。而且处理速度很快,可以在一定程度上克服手工标引人员由于主观因素而导致的标引误差,增强标引结果的一致性,标引成本相对较低。
JAKS标引法、WorldViews标引法和MedIndEx标引法 第3章 信息著录和标引 3.5.2 自动标引方法 统计标引法 语言分析标引法 人工智能标引法 词频统计法 加权标引法 n-Gram标引法 统计学习标引法 句法分析标引法 语义分析标引法 JAKS标引法、WorldViews标引法和MedIndEx标引法 备注: 加权统计标引法包括以下几种方法。 ①逆文献加权标引法 这种方法在标引时,不仅考虑词在一篇特定文献中的出现频率,而且考虑在整个文献集合的文献频率。标引词的权重与其出现频率一致,与其文献频率成反比。词的出现频率是针对文献集合中某确定的文献,词的文献频率则是对整个文献集合而言。在一篇特定的文献中,特征词[1]的出现频率越高,说明它与该文献的主题相关的程度越高。在一个文献集合中,非特征词的文献频率一般较高,几乎出现在所有的文献中,而特征词的文献频率一般较低。 ②词区分值加权标引法 这种方法的基本思想是从词区分文献的能力出发来设计标引词的权重,标引词的权重与其区分值成正比。词区分值显示了对文献的“分离”能力,如果一个词能够较好地反映出文献集合中各文献的差异,那么这个词区分文献的能力就较强,否则这个词区分文献的能力就较弱。 逆文献频率加权标引和词区分值加权标引主要依赖于词的频率特征和词的区分能力,它们的主要缺陷是与用户的相关性无关。 ③词相关性加权标引法 这种方法根据检索结果给出的相关性反馈来确定标引词权重。 ④价值测度加权标引法 这种方法还要考虑相应的效益和费用。 词相关性加权标引法和价值测度加权标引法在考虑词在一特定文献或整个文献集合中的频率特征的同时,还考虑了标引词在相关文献集合和无关文献集合中的频率特征,以及检索结果的效益值。 [1] 特征词指能反映文献主题内容的词;非特征词指不能反映文献主题内容的词,只是为了语法或写作风格上的需要才出现的,如“的”、“地”等。
第3章 信息著录和标引 3.5.3 自动分类 自动分类是指由计算机系统自动提取信息的特征项,依据一定的算法,将信息按内容或属性归到一个或多个类别的过程。 自动分类 自动归类 自动聚类 主要区别 是自动聚 类不需要 事先定义 好分类体 系,而自 动归类则 需要确定 好类别体 系
第3章 信息著录和标引 3.5.3.1 自动 归类 自动归类是指计算机系统按照一定的分类标准,将待分信息划归到不同类目的过程。 选择一种分类体系。利用现有分类法,形成归类底表。 抽取关键词,与预先设计的“分类号 关键词” 所形成的矢量空间模式进行匹配,找出每个关键词涉及的分类号。 把所有分类号进行逻辑运算、整理,结合复分表索引库,得出每个分类号的权值级别。级别最高的类,即为该文献应归的类。 基于词的归类技术 基于知识的文本自动分类方法主要依赖于一个明确的知识库,其显著特点是需要手工建造的知识库, 基于知识的归类技术 3.5.3.1 自动 归类 自动归类是指计算机系统按照一定的分类标准,将待分信息划归到不同类目的过程。
第3章 信息著录和标引 3.5.3.2 自动聚类 自动聚类指的是由计算机系统按照被考察对象的内部或者外部特征, 按照一定的要求将相近、相似或者相同特征的对象聚合在一起的过程。 聚类实现方法的四个步骤: (1)网页表示 (2)相似度计算 (3)聚类 (4)给出聚类的标识
第3章 信息著录和标引 思 考 题 1.信息著录的含义和作用是什么? 2.信息著录的标准有哪些? 3.什么是机读目录?试说明CNMARC的结构。 4.什么是元数据?元数据有哪些作用? 5.试比较CNMARC和元数据。 6.简述信息标引的含义和步骤。 7.分类标引应坚持哪些原则? 8.主题词组配标引的形式有哪几种? 9.自动标引的主要方法有哪些? 10.如何评价自动分类?
Thank You!