图书馆咨询与技术部 王丽(wangli@nwnu.edu.cn) 电子资源检索入门 与本科生相比研究生教育更注重培养学生的研究问题和分析问题的能力 图书馆咨询与技术部 王丽(wangli@nwnu.edu.cn)
知识是积累性的,人类历史上每一次突破性的重大发现在很大程度上都是前人研究成果的继续延伸。 —引自Yale Bulletin and Calendar 2000年29 (34)卷 数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客观世界产生影响的数据。 (2)信息 (1nformation) 是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识。 (3)所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。 “站在巨人的肩膀上”
信息资源在科研工作中的比重 据美国科学基金会、凯斯工学院基金委员会和日本国家统计局的调查数据,一个研发人员的研发工作时间是这样耗费的: 据美国科学基金会统计,一个科研人员花费在查找和消化科技资料上的时间需占全部科研时间的51%,计划思考占8%,实验研究占32%,书面总结占9%。由上述统计数字可以看出,科研人员花费在科技出版物上的时间为全部科研时间的60%。
海量信息资源 丰富的电子资源 网络免费 机构购买 资源共享 电子图书、报纸、期刊、学位论文 专利 科技报告 标准文献 会议论文 搜索引擎 学科门户 开放获取资源 搜索引擎 学科门户 开放获取资源 网络免费 全文数据库 参考数据库 事实数据库 机构购买 资源共享 馆际互借、文献传递 北师大资源
网络免费资源的获取-搜索引擎 Google整合全球范围的信息 ,搜索引擎中排名第一; Google支持多达132种语言,主要的搜索服务有:网页搜索,图片搜索,视频搜索,地图搜索,新闻搜索, 雅虎是全球第一家提供因特网导航服务的网站,中国雅虎宣布停止,于2013年9月1日零时起,不再提供资讯及社区服务。原有团队将专注于阿里巴巴集团公益事业的传播 百度:全球最大的中文搜索引擎。 360:安全实用的上网导航,提供一站式的实用工具查询入口,是将多个搜索引擎页面集成在一个浏览页面中,用户只要输入一次关键字就可以完成多次搜索。 搜狗:是搜狐公司推出的互动式搜索引擎,搜狗以搜索技术为核心,音乐搜索小于2%的死链率。、新闻和互联网热点事件的看热闹首页,地图搜索的全国无缝漫游系统,能够很好的满足日常需求。 有道:网易旗下搜索引擎,主要提供网页、图片、热闻、视频、音乐、博客等传统搜索服务,同时推出海量词典、阅读、购物搜索等创新型产品。 搜索引擎已经成为我们上网查询资源、获取信息的必备工具,只需输入几个关键词,就会将散落在各个角落的千千万万网页的检索结果呈献在我们面前。 Google新推出的学术搜索引擎(Google Scholar),更是与众多的科学和学术出版商进行合作,能够从网络上获得学术文献。Google还启动了Google Print计划,与哈佛大学是美国最古老的图书馆,也是世界上藏书最多、规模最大的大学图书馆 ,密西根大学,斯坦福大学,牛津大学以及纽约公共图书馆合作数字化这些图书馆的数百万馆藏书,人们可通过google直接查找阅读。
网络免费资源的获取-学科门户 http://www.resip.ac.cn/ 是将特定学科领域的网上信息资源、工具和服务集成到一个整体(独立的或分布集成的信息门户网站)中,为用户提供一个方便的信息检索和服务入口学科内容和资源类型覆盖全面 通过对信息资源和信息服务过程的整合提供集成化的信息服务功能
网络免费资源的获取-Open Access OpenDOAR开放获取仓储检索系统 http://www.opendoar.org/ SpringerOpen斯普林格开放获取期刊平台 http://www.springeropen.com DOAJ(Directory of Open Access Journals) http://www.doaj.org/ 开放获取是一种新型的学术交流方式,通过开放获取可以促进学术信息的交流与传播,提高信息资源的利用率。开放获取可以通过开放获取知识库、开放获取期刊和个人网站来实现。
丰富的电子资源 网络免费 机构购买 资源共享 电子图书、报纸、期刊、学位论文 专利 科技报告 标准文献 会议论文 搜索引擎 学科门户 开放获取资源 网络免费 全文数据库 参考数据库 事实数据库 机构购买 资源共享 馆际互借、文献传递 北师大资源
囊括了经济、金融、会计实证与投资研究所需的绝大部分数据。
电子资源检索方法 与技巧
电子资源的检索 比较通用的检索功能主要有: 浏览:由系统提供一个树状结构的概念等级知识体系,用户可以沿着这棵“树”进入不同的分支,到达叶子节点,并在节点看到检索结果列表。 简单检索:为用户提供一个简单的检索界面,页面上通常只有一个检索框。 二次检索(精确检索):在检索结果内进一步检索,使检索结果更精练、准确。 复杂检索(高级检索):为专业用户、资深用户提供的比较复杂的检索界面,可以构建比较细致的检索式,帮助用户进行精确检索。
丰富的电子资源 网络免费 机构购买 电子图书、报纸、期刊、学位论文 专利 科技报告 标准文献 会议论文 搜索引擎 学科门户 机构知识库 开放获取资源 网络免费 全文数据库 参考数据库 事库数据库 机构购买
搜索引擎检索-Google学术搜索
检索语言概览 Google检索运算符 AND(空格) OR NOT(-) + 通配符 * “ ” Google检索语法 site: 默认算符,要求多个检索词同时出现在文章中 OR 检索词中的任意一个或多个出现在文章中 NOT(-) 后面所跟的词不出现在文章中 + 表示包含运算符后面的词,与“”作用相同 通配符 * 检索中文取代单个字或多个字,英文取代单词中的任意个(0,1,2…)字母 “ ” 双引号界定多个检索词,可以查到各个单词按相同顺序在一起出现的网页 Google检索语法 site: 限定在某个领域或站点中进行检索 filetype: 限定检索结果为某一类文件或图片 link: 搜索链接到某个URL的网页 intitle: 把搜索范围限定在网页标题中
“与”运算
“OR”运算
“-”运算
“” 运算
*通配符
site语法
filetype语法
Google学术高级搜索
丰富的电子资源 网络免费 机构购买 电子图书、报纸、期刊、学位论文 专利 科技报告 标准文献 会议论文 搜索引擎 学科门户 机构知识库 开放获取资源 网络免费 全文数据库 参考数据库 事实数据库 机构购买
全文数据库检索-CNKI
在文本检索过程中如果只使用关键词匹配技术往往会遇到词汇不匹配。这是因为存在表达差异。关键词匹配检索模式往往基于这样一种基本假设:仅在一个文档含有与查询完全相同的词汇时,它们才相关。这种相关性匹配实际上是基于表层的匹配(Surface-Based Matching)。然而,人类的自然语言中,随着时间、地域、领域等因素的改变,同一概念可以用不同的语言表现形式来表达。因此即使对于同一概念的检索,不同的用户可能使用不同的关键词来查询,它属于自然语言范畴。例如当用户查询“计算机”和“电脑”两个词的时候其实是在查询同一件事情。而基于表层的匹配不可能检索到同一概念的多种语言表达形式。因此,词汇不匹配将导致系统的查全率降低。说明自然语言处理和信息检索在技术上没能很好地融合[1]。这一问题的产生有很多方面的因素。从根本上说是目前机器对自然语言不能完全理解。从目前技术状况来看,尽管我们付出了大量努力,但是要达到使计算机对自然语言完全理解这一目标差得还很远。对于解决上述问题在目前可能达到的目标也许只能是通过机器学习对原始语料中概念之间的语义关联进行挖掘,对这些语义关联给出合理的表示,从而产生一些常识性的概念语义。 主题是指按文献内容进行的检索,一般包含了题名、摘要、主题词和关键词等与内容相关的字段。 主题词指能代表文献内容实质的经过严格规范化的专业名词术语或词组,因此其特点是具有唯一性,多个相同概念、名词术语、同义词等在索引中只能用唯一一个术语表达,目的是使内容相同或相近的文献更加集中、更具有专指性,避免同义词的多次检索
外文数据库检索-Elsevier 通过图书馆链接进http://www.sciencedirect.com 浏览期刊3387种 按主题、学科
按学科浏览
按学科浏览
文章全文PDF 文档存盘
检索Search 快速检索(Quick Search ) 高级检索(Advanced Search) 专家检索( Expert Search )
快速检索Quick Search ontology
精确检索Refine Search 二次检索 按时间或相关度排序
快速检索Quick Search
快速检索(Advanced Search)
高级检索(Advanced Search) 检索字段 资源类型 学科范围 时间范围
专家检索( Expert Search ) 组合检索式输入框,运用布尔逻辑符以及位置运算符组成比较复杂的检索式进行检索
检索范围字段 检索模式: Field_name (search_term) 常用检索字段 字段名(Field_name) 字段全称 简写编码 所有字段 all 题名/摘要/关键词 title-abs-key tak 标题 title ttl 摘要 abstract abs 关键词 keywords key 作者 authors aut 特定作者 specific-author aus 参考文献 references ref 期刊/图书名 srctitle src 作者机构 affiliation aff
构造需求描述 检索式构造: title-abs-key(“digital library”) tak(“risk analysis”) 字段名和布尔逻辑符均不区分大小写 字段名既可以用字段全称, 也可以用简写编码
同一个词有不同翻译方法, 用OR连接同义词, 用AND表示并且关系, OR优先级高于AND (布尔逻辑算符大小写均可) 同一个词会有不同的形式, 使用通配符可以保证检索全面: addict-addicts-addicted-addiction-addicting… depend-dependence-depending-dependency…
检索语言概览 AND OR AND NOT 通配符 * 通配符 ? W/nn PRE/nn “ ” {} ( ) 作者检索 默认算符,要求多个检索词同时出现在文章中 OR 检索词中的任意一个或多个出现在文章中 AND NOT 后面所跟的词不出现在文章中 通配符 * 取代单词中的任意个(0,1,2…)字母 通配符 ? 取代单词中的1个字母 W/nn PRE/nn 两词相隔不超过N词,词序不定 两词相隔不超过N词,词序一定 “ ” 宽松短语检索,标点符号、连字符、停用字等会被自动忽略 {} 精确短语检索,所有符号都将被作为检索词进行严格匹配 ( ) 定义检测词顺序,例:(remote OR satellite) AND education 作者检索 先输入名的全称或缩写,然后输入姓,例: r smith ; jianhua zhang 临近符可以用于作者检索,raymond W/3 smith 可检索到 Raymond Smith, Raymond J. Smith and Raymond J.
布尔逻辑 AND AND为默认算符,即如果要求多个检索词同时出现在文章中,可使用AND连接,也可用空格或连字符分开单词。 例:检索同时出现heart和attack的文章,以下3种形式将得到同样结果: heart AND attack heart attack heart-attack OR 检索词中的任意一个或多个出现在文章中。 例:kidney OR renal (肾) AND NOT 后面所跟的词不出现在文章中。 例:tumor AND NOT malignant 51
临近检索 W/n 两词相隔不超过n个词,词序不定。 PRE/n 两词相隔不超过n个词,先后次序固定。 使用多个临近符检索 例:pain W/15 morphine PRE/n 两词相隔不超过n个词,先后次序固定。 例:behavioural PRE/3 disturbances 使用多个临近符检索 当检索式中包含多个临近符时,最后一个n值将取代所有的n值 例:检索 coronary W/2 circadian W/5 rhythm 系统会自动将其转化为以下检索式进行检索 coronary W/5 circadian W/5 rhythm 但在检索结果界面,检索式依然是您最开始输入的形式。 两种临近符不能同时使用
ttl(grey w/3 water)
ttl(grey pre/5 water)
通配符 通配符 * 例: h*r*t 可以检索到包含以下单词的文章 通配符 ? 两种通配符可以同时使用 取代单词中的任意个字母(0,1,2…) 例: h*r*t 可以检索到包含以下单词的文章 heart, harvest, homograft, hypervalent… Behav* 可以检索到包含以下单词的文章 behave, behavioural, behavioral, behaviour, behavior… 通配符 ? 取代单词中的1个字母 例: gro?t 可以检索到包含以下单词的文章 grout, groat… 两种通配符可以同时使用
of grey water {of grey water} 停用词 停用词只有在使用{}或“ ”之中才能被检索,否则系统将自动忽略 of grey water {of grey water}
短语检索 宽松短语检索"" 要求检索词相邻,“ ”中的标点符号、连字符、停用字等会被自动忽略,通配符可以正常使用。 例: "C++"与 "C",“heart-attack”与“heart attack”检索结果相同. “criminal* insan*” 将检索到 “criminally insane”和“criminal insanity”. 精确短语检索{} 停用字、标点、特殊符号等都将被作为检索词进行严格匹配。 例:{C++}与{C} 将检索到不同的文章 检索{health care?}, ?将作被视为一个特殊的字符, 而非通配符.
检索优先级 默认检索顺序 1. OR 使用( )限定检索次序 2. W/n | PRE/n 3. AND 4. AND NOT 例:treatment AND NOT grey AND water 使用( )限定检索次序 例:(treatment AND NOT grey) AND water
ttl((treatment AND NOT grey) AND water )
电子资源检索策略的制定 分析检索课题,根据检索要求确定检索词(用几个词来表达检索意图) 选择检索系统和数据库(注意数据库所收录文献的学科、文献类型、起止年代、语种等) 构造检索式,选择检索入口 根据检索结果对上面的检索步骤进行调整 输出检索结果 查阅大量外文文献,然后从文献的文献再去查找,如此往复循环,你的idea不知不觉中就被启发开来。我们老板说过,看文献,最重要,最有权威,也最有深度的是什么,就是你查找的文献的文献。 读文献一定要注意文章后面列出的参考文献,按图索骥,就很易找到更多文献,而且被引次数越多的越重要!!通过搜索参考文献的作者,期刊目次找到更多该领域的文章.
调整检索策略 检索结果过少,漏掉了相关文献 放宽检索要求,提高检全率 放宽检索范围:学科领域、时间、文章类型,关键词出现的字段等; 将描述检索主题的词想全,包括同义词、近义词、缩写形式; 减少用“AND”或“NOT”算符联结,增加用“OR”联结检索词; 采用截词检索法 好的检索策略不是一蹴而就的,而是“与时俱进”的!“变”是检索策略永恒的主题。它会随着对课题理解的深入而改变,“检索→阅读→策略修改→再检索……”,不断调整,不断完善。查找和筛选文献线索---提高查全查准率 当经历了前面一系列检索得到结果时,通过 阅读文摘,往往会发现检索结果并不尽如人意,或相关性较差,或检索结果太多或太少了,这时需要进一步调整检索策略了
调整检索策略 检索结果过多,很多文献不相关 进一步限定检索,提高检准率 严格限定检索范围:学科领域、时间、文章类型,关键词出现的字段等 选择与检索主题密切相关的词和专业术语,避免使用过于宽泛的词汇 使用词组检索或位置检索; 在检索结果的基础上进行二次检索; 增加用“AND”或“NOT”算符联结
检索结果评价 评价指标主要有: 查全率:从数据库内检索出的相关信息与总信息量的比率 查准率:从数据库内检索出的相关信息与检索出的信息总量的比率 检索时间:主要指完成检索任务所需要的时间 检索成本:主要指检索费用
谢 谢