第三讲文献检索语言2
体系分类语言 分类语言 组配分类语言 描述文献 内容特征 混合分类语言 的语言 关键词语言 标题词语言 主题语言 叙词语言 检索 语言 单元词语言 题名语言(书名、刊名、篇名) 描述文献 外表特征 的语言 著者语言(个人或团体著者、译者、编者) 出版事项语言(出版社) 代码/序号语言(ISBN号、专利号、 报告号、标准号)
主题语言 主题检索语言:是采用描述文献主题的语词排列主题标识,提供各种检索词语的途径。一般由主题词表及其编制和使用规则组成。
主题检索语言的基本类型 (1)标题词语言 (2)单元词语言 (3)叙词语言 (4)关键词语言
(1)标题词语言:是指从文献的内容或题目中抽选出来,经过规范化处理,用以描述文献内容特征的词或词组。标题词由标题词表控制,标题词表由标题词按照字母顺序排列组成,使用时,直接按照标题词表所规定的标题词进行查找,如同查字典一样。 例如:一篇文章用“微型计算机”这个术语来叙述它的研究对象,另一篇文章用“微型电脑” 来叙述,第三篇文章用“微机” 来叙述,虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作标题词,这三篇文章都必须用“微型计算机”作标题词(根据主题词表决定)。
例如:“计算机”、“软件”、“固相”、“相”。 (2)单元词语言:是从文献正文、摘要或题目中抽取出来的、最基本的、不可再分的词。它一般未经规范,也无词表,检索时根据检索课题的内容特征,选取恰当的单元词进行组配检索。 例如:“计算机”、“软件”、“固相”、“相”。 用较少的词量反映较多的主题概念,具有灵活性和专指性。
(3)叙词语言(主题词) 为了适应计算机检索的需要,叙词语言于20世纪60年代产生,它是在标题词语言、单元词语言和分类语言的基础上发展起来的一种新型的检索语言。它既吸收了分类语言的优点编制了叙词分类索引和等级索引,又吸收了标题词语言的优点编制了参见著录项目。因此,叙词语言既适用于手工检索,又特别适用于计算机检索。
叙词语言(主题词):是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。 例如:在叙词语言的检索系统中用“计算机”这个词进行检索,即使题名字段没有“计算机”这个词(如有同义词“电脑”)的文章,也可以被检索出来,不必进行同义词替换即可查全。
常用的叙词表 国内的:《汉语主题词表》、《化工汉语 主题词表》、《机械工程主题词表》、 《电子技术汉语主题词表》、《国防科学 技术叙词表》等。 国外的:《INSPEC叙词表》、《工程索 引叙词表》、《工程与科学叙词表》等。 4页
《汉语主题词表》是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持, 1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个 。 它的主要作用是对文献进行主题标引、目录组织、计算机检索等。由于选定的主题词都是以表述图书资料的主题内容、且组配能力较强的词 ,所以图书文献的题名都能很好地用主题词来体现。
(4)关键词语言:未经规范化处理,直接从文献题名、原文或文摘中选取的能反映原文主题内容的自由词汇。 例如:《国际联机检索概论》中的“国际联机检索”、“国际联机”、“联机”、“检索”都是能描述这篇文献主题的关键词,都可以作为检索词。
关键词一般是个人选定,会因词性不同、拼法不同或近义词、同义词等原因检索不到文献;主题词可以很好地避免漏检,提高检全率。 主题词与关键词的区别在于主题词是经过人工规范的词汇,而关键词是没有经过规范的自然语言词汇。 如:遥感和地理信息系统用于监测热带雨林: 关键词: 热带雨林 遥感 监测 GIS 主题词: 环境遥感 环境监测 森林遥感 GIS-应用 遥感-应用 关键词一般是个人选定,会因词性不同、拼法不同或近义词、同义词等原因检索不到文献;主题词可以很好地避免漏检,提高检全率。
由于关键词是表达信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。应用更为广泛。 用关键词检索时,务必要在分析课题的主题概念中掌握课题的内容实质,概括出能最恰当地代表主题概念的关键词。它决定了检索策略的质量和检索效果的好坏。
(1)关键词的四种变化 上位词(教育) 下位词(成人教育) 关键词(高等教育)同义词(大学教育)近义词(高校教育)
①同义词:某种明确概念,可以有不同的表达词。 引起同义词的原因包括:缩写、全称、简称、学名、俗名、简繁体、不同语言说法、不同地区说法(美语英语)、不同时代说法(古今、代差)、别称、全角半角、大写小写、错别字、网络通假字、敏感词通假…… 例如,“飘”、“乱世佳人”、“随风而逝” 例如,“鳜鱼”、“桂鱼”、“桂花鱼”、“季花鱼”、“花鲫鱼”。
②上位词:指概念上外延更广的检索词。 例如,“花”是“鲜花”的上位词, “植物”是“花”的上位词 对关键词来说,一个关键词所表达概念的任何一种属性、任何一种归类方式,都可以是它的上位词。 例如,“鲜花快递”的上位词可以是“鲜花”、“快递”、“网上购物”、“鲜花礼仪”、“鲜花店”、“礼品公司”。
③下位词:指概念上内涵更窄的检索词。 例如,“鲜花速递”的下位词包括“上海鲜花速递”、“深圳鲜花速递”、“网上鲜花速递”。
④近义词:指与检索词具有某种相同属性的词。与关键词有同一个上位词的都是同类词。 推算一个关键词的同类词,可以从这个关键词的某个上位词开始反推。 以关键词yahoo为例,“yahoo、sina、sohu”是作为“中文门户”属性的近义词。
(2)关键词的选择 在确定检索词时,要考虑反映主题概念的同义词、近义词等相关词,还要考虑到被选用检索词的缩写词及不同拼法的词,以便在编制检索式时考虑到这些因素,避免漏检有关的信息。
①选择最核心词汇,不加修饰词,可扩大查找的范围,检索到更多结果。 在检索前要明确自己的目的,要得到关于某一事物的相关所有信息,就要把关键词范围放大,不加修饰词,只输入核心词。 例如,知识产权 知识产权保护or知识产权研究”
②选择概念表达最确切的词语。 要查找具体的某一确切的事物,应该把具体的确切的名称输入,以便于直接得到查询结果。 例如“中国近阶段社会保险体系的发展趋势研究”,核心词是“社会保险”。 确切关键词的选择不仅从课题名称中分析,更要从学科专业和检索目的的角度,概括出能够反映课题实质内容的检索词,需从概念内涵的深浅程度、概念的属分、整体与部分等,选择最切合实际要求的词作为检索词,以便提高检索的切题程度,如“茶”和“铁观音”、“鲜花”和“玫瑰花”等。
③同义词的判断和选择:在同一概念的范畴内,从语言角度选择不同的名称、拼写方法和单复数形式等。 例如,学名和俗名:激光(镭射)、马铃薯(土豆); 简称和全称:TV(television)、WTO(世贸组织); 英式和美式:catalog(catalogue)、color(colour)等。 单复数问题,如woman、women
④近义词的判断和选择:在相近概念的范畴内,从概念的微小区别、概念的多义性、概念的相近性等。 例如,合同纠纷(合同争议)、 国际矛盾(国际冲突)、 跨国公司(跨国企业)、 法律监督(司法监督)。
⑤选择通用性的术语。切忌使用国际上并不通用的术语, 如“第三世界”、“下岗”等查找国外数据库,通常不能达到预期的效果。在选用关键词检索的过程中要尽量使用本学科在国际上通用的、国外文献上出现过的术语,并尽量避免使用冷僻词和自选词。
检索:例如关于网络营销领域的风险承受心理分析。 (6) 概念为单位,构成组面检索词。 检索:例如关于网络营销领域的风险承受心理分析。 关键词:网络营销、风险承受心理分析。 例如:关于经济领域的诈骗行为的心理分析。 关键词:经济诈骗、诈骗心理(分析)。 这里有个概念的重叠和拆分问题,如果关键词用“经济领域诈骗行为心理分析”,显然没有达到简洁、切题的要求。 例如:家庭、婚姻裂变和青少年犯罪的内在联系。 关键词:离婚(不完整家庭、单亲家庭)、青少年(未成年人)犯罪。 这里有个常用概念、相近概念需要考虑,如果关键词标引为“婚姻裂变青少年犯罪”,检索结果的查全率一定会大大降低。
(7)通过调整关键词的专指和泛指来提高查准率和查全率 为了提高查准率,不用泛指,而用专指 如:服装(泛指),西服(专指) 为了提高查全率,避免专业词汇而使用大众化的词汇, 如不用“移动电话”,而用“手机“
(8)使用地理位置 如果地理位置很关键,则把它加入关键词组。例如,检索天气预报,地名就是一个很有用的关键词
分类语言与主题语言对照 比较项目 分类语言 主题语言 概念 作用 表现形式 特点 适用性 用分类号表达学科体系的 各种概念,按学科性质进行系统排列如:O151.21(矩阵论) 用语词表达文献主题概念,按字顺编排的检索语言。如:矩阵论 作用 指导从学科或专业途径检索文献 指导从主题途径检索 文献 表现形式 分类表(分类法) 主题词表 特点 系统性强、不受文种限制 直指性强、专指度高、灵活 适用性 适用于族性检索,将相关的内容全部集中在一起。 适用于特性组配检索,交叉复合概念检索
分类检索语言与主题检索语言的特点比较 主题检索语言规范化的名词术语直接作为文献主题标识,直观性较好;而分类检索语言的类号是规范化的,类目名称却不经过严格规范。 主题检索语言按字顺序列排检标识,检索者较易使用;而分类检索语言按知识系统排列,用号码表达概念,有一定的间接性。 主题检索语言按主题集中文献信息,对有关某一事物的检索效率高;而分类检索语言以学科专业为线索集中文献。 主题检索语言用参照系统及其他方法间接显示文献概念之间的关系,其系统性较差;分类检索语言能够直接显示概念关系。 主题检索语言接近自然语言。容易与自然语言结合使用。
分类法和主题词的适用性 分类法适于找某一学科和专业方面的图书(检索的是一类图书资料),检索者在检索前对图书的书名及内容并不清楚; 主题词途径适于检索者在检索前对所要找的资料涉及到的主题事物很明确。
End!