Download presentation
Presentation is loading. Please wait.
1
医学文献信息检索 第二章 信息检索基本知识 胡德华 副教授
2
第二章 信息检索基本知识 第一节 信息检索概述 1 第二节 信息检索原理 2 第三节 检索途径与技术 3 第四节 检索策略 4
3
二、信息基本知识 1.信息 知识 文献 文献的类型
4
按信息资源的存在形式分类 1、 口头信息资源、实物信息资源、文献信息资源、 网络信息资源 2、按信息资源传递信息的内容分类
可分为文化、历史、经济、军事、商业、市场、教育、语言、自然、科技、遗传、医药卫生等。 3、按信息资源的行业分类 工业型、商业型、农业型、林业型、科研型信息资源等。 4、按信息资源传递信息的加工层次来分类 零次信息资源、一次信息资源、二次信息资源、三次信息资源。
5
文 献 的 类 型 一、根据文献载体形式划分 1.手写文献 2.印刷型文献 3. 缩微型文 4.视听型文献 5. 机读型文献(电子文献)
1.手写文献 2.印刷型文献 3. 缩微型文 4.视听型文献 5. 机读型文献(电子文献) 二、根据文献编辑出版的特征和范围划分 1正规文献( 1)图书( 2 )期刊(3)报纸 2非正规文献 ( 1)会议资料 ( 2 )学位论文(3)内部刊物 (4)档案文献 (5)政府出版物 三、根据文献的加工程度划分 1.一次文献 2.二次文献 3.三次文献 4、零次文献
6
一次文献 、二次文献、三次文献、零次文献 1.一次文献: 指以科学研究、工作实践中的新成果、新知识和经验总结为依据而创作产生的文献。这是最基本的文献信息源。主要包括学术专著、报刊论文、文学作品、科研报告等。 2.二次文献。指根据实际需要,按照一定的科学方法,将特定范围的分散的一次文献进行加工整理而形成的文献。它能较为全面系统地反映某学科某专业的线索,是检索一次文献的工具。 主要包括书目、索引、文摘、图书馆目录等。《中国旅游文献书目选编》 3.三次文献:指通过二次文献提供的线索,选用一次文献内容,进行分析综合后而编写的文献。包括综述研究和参考工具两类。综述研究类如专题述评、动态综述、进展报告等;参考工具类有百科全书、年鉴、手册等。(维基百科) 4.零次文献:指未向社会公开和正式报道,只供一定范围内使用的比较原始的素材、手稿、实验记录、设计草稿、网络私人聊天等内容,具有内容新、直接、不成熟、非存储检索等特点。
7
二、信息检索概述 1.概念 广义的信息检索包括信息的存储和检索两个过程(Storage and Retrieval)。
信息存储是指将大量无序的文献信息集中起来,根据信息源的形式特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统. 信息检索是指运用编制好的检索工具或检索系统,查找出满足用户需求的特定信息。 狭义的信息检索是指根据用户的需求,利用检索工具或检索系统,查找出符合用户特定需要信息的过程。
8
2.类型 检索手段 手工检索 计算机检索 联机检索 光盘检索 网络检索 8
9
第二节 信息检索原理 一、信息检索工具 定义:又称信息检索系统,是指累积文献信息并提供检索途径的工具。 类型: (一)印刷型检索工具
第二节 信息检索原理 一、信息检索工具 定义:又称信息检索系统,是指累积文献信息并提供检索途径的工具。 类型: (一)印刷型检索工具 (二)计算机检索工具
10
(一)印刷型检索工具 参考工具书 目录检索工具 题录检索工具 文摘检索工具 类型:
11
(二)计算机检索工具 系统构成 逻辑构成:信息选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统 。
物理构成:硬件、软件、数据库、通讯网络 。
12
文献数据库:文献的有序集合 1.定义:文献数据库是指包含书目及与文献有关数据的机读记录(Record)的有序集合。(美国著名信息检索专家ME‧威廉姆斯(M. E. Williams)) 2.数据库的结构 Database Flies (数据库) File Records (文档) Record Fields (记录) Field Searching Entry (字段) (检索入口)
13
3.文献数据库的建立 收集原始信息。 提取、标注原始信息的特征,并进行规范化 处理。 把每个特征录入到对应的字段(field)中。
14
信息源(原始信息) 提取特征 特征1 特征2 特征3 特征4 特征5 特征n
15
数据库中文献的记录方式 标注特征 规范化处理 中国 图书馆分类法 字段名 格式规范 医学 主题词表(MeSH)
16
两大外文保障中心 外文文献 CASHL 中国高校人文社会科学文献中心 NSTL 国家科技图书文献中心 16
17
三大中文数据库 中国知网 维普 万方 www.cnki.net cstj.cqvip.com www.wanfangdata.com.cn
17
18
书目型数据库 全文型数据库 事实型数据库 数值型数据库 多媒体数据库 类型 4.文献信息数据库 18
19
(1)书目型数据库 书目型数据库(bibliographic database): 是二次文献数据库,主要存贮相关主题领域的各类文献资料的书目信息,包括机读版的文摘、题录、目录、索引等。用户可从大量文献记录中筛选出有参考价值的文献源,并依据记录提供的来源指示获取一次文献。 举例:中国生物医学文献数据库、PubMed、EMBASE等。
21
(2)全文型数据库 全文型数据库(Full-text Database): 收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。 优点:能直接获取文献原文,集文献检索和全文提供于一体;提供全文字段检索。 举例:中国学术期刊网络出版总库(CNKI)、万方数据资源的数字化期刊、OVID全文数据库、Elsevier Science的SDOS等。
24
(3)事实型数据库 事实型数据库(Fact Database):提供有关事物、人物、机构等方面的事实性信息。
举例:Clinical Trials(临床试验数据库)是通过对自愿接受试验患者的临床研究,观测药物、诊断方法、疫苗和其他治疗方法对某一种疾病或症状是否安全和有效。
26
(4)数据型数据库 数据型数据库(Numeric Database):提供数值性信息,包括各种统计数据、科学实验数据、各种测量数据等。
举例:WHOSIS:可以获取以下统计数据和资料:疾病负担统计、死亡原因统计、世界卫生报告年度统计、卫生从业人员统计、人口统计、HIV/AIDS信息与数据、精神病死亡率统计、免疫接种统计等统计数据,以及疾病负担计划、国际疾病分类法及WHO术语信息系统、卫生系统成就、全球酒精数据库(Global Alcohol Database)等与卫生和卫生统计有关的资料。 美国疾病控制与预防中心(CDC)的Data and Statistics等。
29
(5)多媒体数据库 多媒体数据库(Multimedia Database) :是数据库技术与多媒体技术相结合的产物,是文本、图像、声频、视频等多媒体信息的集合。 举例:NLM的可视人计划(The Visible Human Project),哈佛大学医学院的全脑图谱(The Whole Brain Atlas),Utah大学的病理学图谱(WebPath)等。
32
二、信息检索效率 信息检索效率是评价一个信息检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的全过程。
衡量信息检索效率的指标:查全率、查准率、漏检率、误检率。 理想的检索效果是查全率和查准率同时达到100%。 但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比。
33
第三节 检索途径与技术 一、检索途径 二、检索技术
34
一、检索途径 自由词检索 主题词检索 题名检索 著者检索 机构检索 刊名检索 默认检索 分类检索 引文检索 ……
35
二、检索技术 1.布尔逻辑检索 逻辑与(A AND B) 逻辑或(A OR B)A 逻辑非(A NOT B) 布尔逻辑检索示意图 A B A
36
1)布尔算符 AND 的含义及应用 (1)含义:AND又称为逻辑“与”,表示“相交”关系,用于缩小检索范围(查准率)
B (2)应用:表示形式:A AND B 例如:用CBM查找干扰素治疗白血病的文献 检索式为:干扰素 AND 白血病
37
例1 在CBM中干扰素治疗白血病的结果 白血病 篇 干扰素 篇 干扰素 AND 白血病 篇
39
(1)含义:“OR”又称为逻辑“或”,表示“并列”关系,扩大检索范围(查全率)
(2)应用 表示形式:A OR B A B 例如:用CBM查找1978年以来有关艾滋病的文献 检索式为:艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征
40
例1:用CBM查找1978年以来有关艾滋病的文献 AIDS 5574篇 爱滋病 469篇 艾滋病 19869篇
爱滋病 篇 艾滋病 篇 艾滋病 OR 爱滋病 OR AIDS OR 获得性免疫缺陷综合征 篇 40
41
要点:提高查全率如何确定检索词归纳成 以下几个方面
要点:提高查全率如何确定检索词归纳成 以下几个方面 全称、简称及缩写同时使用; 规范词兼顾自由词(其中勿忘了 同义词、近义词); 查上位词时勿忘下位词; 注意外来词译写变化。
42
例2:用CBM查找2006年乳腺肿瘤的检索结果
43
(1)含义:NOT又称为逻辑“非”,用于 排除不需要的检索结果 (2)应用 表示形式:A NOT B 例如:白血病治疗 NOT 放疗
44
用CBM查找除放疗外的有关白血病治疗的文献
45
4、运用“布尔算符”的注意事项 布尔逻辑运算符运算顺序为: NOT→AND→OR 1)运算符遵循数学运算法则;
识可以交换; 3)检索式中有NOT时前后检索词不能交换。 备注: ( )必须在半角和英文状态下输入
46
2.截词检索 作用:表示不确定字符的检索运算符,用于扩大检索范围。 包括: “*” 无限截词符 “?”有限截词符(通配符)
47
应用举例(一) “*”的应用 2、immun*: 可检出immune、 immunity、
如:1、急性*胰腺炎:可检出急性胰腺炎、急性重症胰腺 、急性出血坏死型胰腺炎、急性 胆源性胰腺炎、急性出血性胰腺 炎等急性胰腺炎的所有文献。 2、immun*: 可检出immune、 immunity、 immunology、 immunohistochemical 等所有含immun前缀的检索词的文献。
48
检索结果 急性胰腺炎、急性重症胰腺、急性胆源性 胰腺炎、急性出血坏死型胰腺炎等急性胰腺炎
49
使用MEDLINE(06/7-06/10)查找免疫相关的文献结果
50
应用举例(二) “?”的应用 例如:拉米?定:可检出含拉米夫定和拉米呋定 注:“?”必须在半角或英文状态下输入 定的文章;
Protein?:可检出含 Proteins 和 Protein的所有文章 注:“?”必须在半角或英文状态下输入
51
3.限定检索 作用:对特定字段的限定检索, 包括:in、=、[]、.等 表现形式:检索标识 限定符 字段名
实例:PY=2003; 石京山 in 著者(作 者=石京山); shi j s[au] shi j s.au
52
实际演练(CNKI)
53
实际演练(PubMed)
54
总结:提高查准率从以下几个方面着手 检索结果多时采用“AND”缩小检索范围 检索下位词时不使用上位词 使用 “NOT” 将不需要的检索标识排除 将“AND”改为更精确的狭隘的位置符 使用限定符限定检索标识所在字段
55
4.相关反馈检索 相关信息反馈检索,是将与已检结果存在某种程度相关的信息检索出来的检索技术,多由检索系统自动进行检索。
如PubMed的“Related Articles” CNKI的“相似文献” Google(
56
举例(PubMed)
57
举例(CNKI)
58
5.跨库检索 跨库检索(cross database searching、One-stop searching)是一次对多个数据库同时进行检索的技术。 跨库检索能为用户提供统一的检索接口,将用户检索需求转化为不同数据库的检索表达式,并发地检索本地和广域网上的多个分布式异构数据库,并对检索结果加以整合,以统一的格式将结果呈现给用户。
59
举例(万方数据)
60
举例(Entrez)
61
第四节 检索策略 一、检索策略的涵义 广义的检索策略是指用户根据检索需求选择相应的数据库、确定检索方式、检索途径及相应检索表达式进行检索的一系列操作或方案,是用户检索目标的体现。 狭义的检索策略仅指用户确定检索表达式进行检索的系列操作。
62
检索策略的重要性
63
二、检索策略的构建 分析课题,明确实质需求 选择合适的检索工具或数据库 概念分析并转换成系统检索词 拟定检索提问式和检索途径
修正调整检索策略 获取原文,完成 检索 检索结果是否满意 NO YES 流程图
64
1.分析课题,明确实质需求 指在着手查找文献信息前对课题内容进行分析,明确文献检索的目的需求。
◆分析课题:要求明确课题对查新、查全和查准的要求,主要包括信息的内容需求和形式需求。 ●内容需求指检索课题涉及的学科范围、主题内容和有关的主题词、分类号等,以及它们之间的逻辑关系。 在此基础上,确定检索主题,根据其结构、类型、专业范围、性质等,提取主题概念、尤其注意挖掘隐含的主题概念,形成若干能代表信息而且有检索意义的主题概念。 ●形式需求包括所需文献的类型、数量、语种、年代等。
65
2.选择合适的检索工具或数据库 选择检索工具时要考虑是否与文献需求紧密结合、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的工具以及检索系统的检索功能是否完善等。 根据检索需求,选择数据库: (1)强调“准确”:这类检索需求的针对性强,多是解决某个具体问题,此时应选择提供的数据比较准确、权威的数据库。 (2)强调“全面”:这类检索需求要求全面了解某一特定领域的基本知识、现状及发展趋势,因而应选择覆盖文献年限长、收录某一特定领域文献较多的数据库,必要情况下还需要选择多个相关数据库。
66
(3)强调“全文”:可选择全文数据库或提供全文传递服务的数据库。
(4)强调“新颖”:即需获取最新的信息,检索年限不要太长,应选择数据更新快、包含最新信息的数据库。 (5)强调“深入”地获取某数据库信息,应选择单库检索,强调“广泛”地获取某方面的信息,应选择跨库检索,对多个数据库同时进行检索,节省检索时间。 (6)强调“类型”:即用户想获取某一特定类型的文献,如期刊论文、学位论文、专利文献、循证医学证据,应根据需求灵活地选择包含相应资源的数据库。
67
3.概念分析并转换成系统检索词 ☆检索词是表达信息需求和检索课题内容的基本单元,选择恰当与否,会直接影响检索效果。检索词可分为四类:
表示主题的检索词,包括经过人工规范化处理的标题词、单元词、叙词(将有稍后叙述)和未经规范化处理的自然语言关键词。 表示作者的检索词,包括作者姓名及机构名称。 表示分类的检索词,如分类号等。 表示特殊意义的检索词,如专利号、标准号、分子式等。 ☆检索词的选择与确定要注意两个原则: 根据检索课题所涉及的学科专业和技术内容选词; 对检索词进行处理,一个概念可以用不同的词来描述,不同的角度反映了同一概念的不同内涵,具有不同的切题深度和广度,因此要注意比照,选用规范词汇,尽量使用通用术语。
68
4.拟定检索提问式和检索途径 检索式是检索策略的具体体现,是检索策略构造中的关键环节,其优化与否决定了检索的质量,对检索结果产生决定性作用。
检索式由检索词和和各种布尔逻辑算符、位置算符、截词算符及其它链接组配符号组成。 类型 简单提问式:如SARS,舒喘灵;夏家辉 in au; “Transplantation/psychology”[MeSH]。(1976篇) 复合提问式:含两个或两个以上的检索词,有布尔算符或位置算符相连接。如acute near3 pancreatitis and (mice or mouse); 检索式可一次完成,也可分步完成,检索式的表达对一个课题不是唯一的,有多种选择、组配、限定。
69
拟定好检索式后,就要选择检索途径或检索入口或检索字段,常用的检索入口有题名、著者、主题词、关键词、引文、文摘、全文、出版年、分类号等。
检索途径正确与否决定着检索结果的数量和质量,如使用全文检索,结果数量大,但相关性差;使用题名或文摘检索,结果数量少但较准确。
70
三、检索策略的调整与修正 检索过程是一个动态的随机过程,需要随时根据反馈的检索结果进行评估,针对与检索目标相差甚远或不理想的结果,反复调整检索式,直到得到满意的结果。
71
优化检索策略的方法 扩检:对检索数量比较少的结果,扩大检索范围,提高查全率。 缩检:对检索数量过多的结果,缩小检索范围,提高查准率。
增加补充检索词及近义词、同义词、上位词、缩写、全称等; 扩大概念组配范围,变逻辑“与”为逻辑“或”; 取消或放宽检索限定,如年限或核心刊与否; 增加或修改检索途径,如改题名检索为文摘检索或全文检索等。 缩检:对检索数量过多的结果,缩小检索范围,提高查准率。 细化主题与分类,更多地采用下位词或下位类; 通过浏览结果选择更专指的词; 缩小概念组配范围,利用and,not,with,near等加以限制或排除; 指定检索字段,及从年代和地理及语言,文献类型上进行限制。
72
实习布置 综合课程设计 综述
73
Click to edit company slogan .
Thank You ! Click to edit company slogan .
Similar presentations