计算机医学信息检索 一、 基 本 原 理 下一页
1、计算机检索发展简史 1951年人们首次利用计算机进行信息检索实验。从1954年美国海军兵器中心使用IBM701型电子管计算机建立了世界上第一个计算机检索系统以来,计算机信息检索共经历了五个阶段: 上一页 下一页
脱机检索阶段(20世纪50年代中至 60年代中) 联机检索阶段(20世纪60年代中至70年代) 光盘检索阶段(20世纪80年代中期) 网络检索阶段(20世纪90年代) 上一页 下一页
2、计算机信息检索系统的构成 硬件(主机、外围设备、数据处理、数据传送有关的其他设备。) 软件(系统软件、应用软件) 数据库(是衡量检索系统规模大小的重要标志) 通讯线路(电话、数据、卫星通讯网) 检索终端 上一页 下一页
3、数据库的类型与结构 上一页 下一页 (1)类型 书目数据库:存储文摘、题录、目录等书目数据的一类数据库,又称为二次文献数据库。 数值数据库:为用户提供能够直接使用的数值类信息,无需再追查原文。 事实数据库:存储描述人物、机构、事物的等非文献信息源的数据库。 全文数据库:存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。 上一页 下一页
记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。 (2)结构 数据库 文档 记录 字段 组成记录的数据项目 若干个记录构成的信息集合称为文档。大型的数据库分割成若干文档。 记录是构成数据库的完整的信息单元,每条记录描述了原始信息的外部特征和内部特征。 上一页 下一页
上一页 下一页 (3)我国常见的生物医学数据库 MEDLINE数据库 荷兰《医学文摘》数据库(EM) 《生物学文摘》数据库(BA) 化学文摘数据库(CA) 《科学引文索引》数据库(SCI) 上一页 下一页
中国生物医学文献数据库(CBMdisc) 中文生物医学期刊数据库(CMCC) 中国学术期刊数据库 万方数据库 中医药文献数据库 上一页 下一页
4、计算机信息检索的检索过程 检索需求的分析和表达 检索方法的制定 检索式的编制 检索结果的反馈调整 检索结果的输出 上一页 下一页
检索需求的分析和表达 用户的检索需求大致分为3类: 新:及时获得最新的内容,对查全没有过高要求。 准:要解决研究中的具体问题,要求检出的文献有针对性,对查准要求较高。 全:要全面了解某一特定领域的发生、发展和现状,是一种回溯性检索,对查全有较高要求。 上一页 下一页
检索方法的制定 根据课题的学科专业范围、主题内容,选择合适的数据库,确定检索途径。 对检索需求进行概念分析,根据数据库的词表,把主题内容转换成检索系统采用的检索标识和检索词,并准备若干自由词。 上一页 下一页
计算机检索系统的检索词分为两种: 主题词:主要来自于主题词表、叙词表等,是经过规范化的。 自由词:来自于文献的篇名、文摘或正文,是一种没有规范化的自然语言。 原则上首选主题词检索。 上一页 下一页
检索式的编制 常用的运算符: 布尔逻辑运算符 逻辑“与” 文字表示为“and”,符号表示为“*”。检索词A与检索词B用and组配,提问式可写为: A and B 或者 A * B 上一页 下一页
A B 表示检索结果中每条记录必须同时含有A和B检索词,增强检索的专指性,缩小检索范围,提高了查全率。 上一页 下一页
Insulin(胰岛素)and diabetes(糖尿病) 上一页 下一页
A or B 或者 A + B 逻辑“或” 文字表示为“or”,用符号表示为“+”。检索词A与B用or组配,提问式可写为: 表示包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B 的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。 上一页 下一页
Cancer(癌)or tumor(瘤) A B 上一页 下一页
A not B 或者 A - B 逻辑“非” 用文字表示为“not”,用符号表示为“-”。检索词A与检索词B用not组配,提问式可写为: 上一页 下一页
Hepatitis B virus not human (乙肝病毒) (人类) 上一页 下一页
在一个检索式中,如果含有两个或两个以上的布尔逻辑运算符,运算符的优先次序是: NOT﹥AND﹥OR 上一页 下一页
查找有关肿瘤引起的贫血的非英文文献 neoplasms/complications(并发症) anemia/etiology(病因学) English #1 1687 NEOPLASMS/complications #2 179 ANEMIA/etiology #3 23867 English in LA(LA=English) #4 20 (#1 and #2) not #3 上一页 下一页
上一页 下一页 截词符 后截断,将截词符号放在一个字符串的右方,以表示其右的有限或无限个字符不影响该字符串的检索。例如: hyperthyr*可查到hyperthyre、hyperthyreosis、hyperthyroid、hyperthyroidosis、hyperthyroidism等。 hypertensi??可查到hypertension、hypertensive。 涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。 上一页 下一页
前截断,将截词符号放在一个字符串的左方,以表示其左的有限或无限个字符不影响该字符串的检索。例如: *sighted,可查到farsighted 与nearsighted。 前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。 上一页 下一页
中截断,将截词符号放在一个检索词的中间的一种截词方式。只允许有限截断,用于检索词的单复数或英美式不同拚法。例如: wom?n,可查到Woman,Women。 defen?e ,可查到defense,defence。 上一页 下一页
上一页 下一页 限制符 检索系统中,缩小或约束检索结果的方法成为限制检索。常用的有特定字段的限制检索,限制符为“in”和“=”。例如: Hypertension in TI,表示高血压一词在题名字段Title中出现。 限制符还有其他形式: py<2000表示检索2000年前发表的文献记录。 上一页 下一页
上一页 下一页 位置算符 要求原始记录中检索词之间的相互位置满足某些条件时要使用位置算符,常用的位置算符有with、near等。 表示此算符两侧的检索词在命中记录中必须出现在同一字段中,即同时出现于篇名或文摘中等,但前后位置可以颠倒。 上一页 下一页
near算符 表示此算符两侧的检索词的距离最近。A near B 的检索结果是A与B必须同时出现在一句话中,无论语序,二者之间最多可相隔n-1个单词。 A near B表示命中记录中左右两个检索词出现在同一句子中。 上一页 下一页
检索结果的反馈调整 检索结果主要通过查全率、查准率两个指标来进行评价。 查全率:系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。 查准率:系统中检出的相关文献量与检出的文献总量的比率。 上一页 下一页
上一页 下一页 提高查全率的方法: 降低检索词的专指度,选出一些上位词和相关词补充到检索式中。 调节检索式的网罗度,减少逻辑“与”的组配面。 进行族性检索,可采用分类检索,或用一组同义词、近义词和相关词,用“或”连接在检索式中。 采用截词技术,取消某些限制过严的限制符。 上一页 下一页
上一页 下一页 提高查准率的方法: 提高检索词的专指度,换用专指度较强的规范词或自由词。 增加“与”连接,进一步限定主题概念。 限定检索词所在的可检字段,用位置算符控制检索词的词间顺序与位置。 限制输出文献的外部特征,如限制年限、语种、文献类型等。 用逻辑“非”限制与提问不相关的文献的输出。 用主题词检索,不用或少用自由词检索。 上一页 下一页
检索结果的输出 检索结果的输出是整个检索过程的最后一步,用户可以要求检索系统按照一定的格式输出检索结果。输出格式通常有题录、全文或整个网页。 返回 上一页