网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕.

Slides:



Advertisements
Similar presentations
主讲人:许珍 王国硕 网络信息检索与采集 —— 中文数字资源库. 中文数字资源库(实训课) 1. 电子图书数据库 2. 中文综合信息数据库 3. 利用 opac 搜索资源 4. 国外文献数据库介绍.
Advertisements

计算机检索基本方法 贾芳华 QQ: 青岛理工大学图书馆信息部 青岛理工大学图书馆 2017/2/25.
网络科技信息 检索方法与技巧 武汉大学信息服务中心 李云华.
中华传统文化 ——礼俗、宗法.
图书馆60分钟专题培训 搜索改变生活 ——学术搜索引擎及网络搜索引擎的使用技术与技巧 图书馆参考咨询部 2010年4月.
英文数据库的检索与原文的获取 吴 贤 奇.
第四讲 活用检索功能,组配构造表达 《现代信息查询与利用》课程组.
计算机检索的原理与 步骤 主讲人:董宁.
学位论文开题前的文献调查与检索.
2011计算机类教研活动 陈国久.
怎样利用搜索引擎检索网络资源 1. 网络的基础知识
A Leading Provider of Academic Databases
大学计算机基础 六、计算机网络应用 6.2 信息检索.
计算机检索技术 及中文数据库使用方法 职工专题培训 主讲 段晓玲.
计算机医学信息检索 一、 基 本 原 理 下一页.
Retrieval and Utilization of Foreign Language and Literature
图书的特征: 除书名外,还有出版社、出版地、图书的总页数(PP),有时还有国际标准书号(ISBN).
目次 第1章 绪 论 第2章 信息检索基础 第3章 搜索引擎 第4章 事实和数值型信息检索 第5章 图书信息检索 第6章 期刊信息检索
北京协和医学院 博硕学位论文库
数字参考咨询服务与数据库检索技巧.
信息检索教材配套讲稿--邓发云.
2.3 网络域名及其管理.
西南石油大学 校级学习中心学员使用手册 2013年10月29日.
信息检索基础知识(三点) 1 信息素养 2 信息与信息源 3 信息检索 该章补充开放存取的概念。.
ScienceDirect 教育訓練 Update: Jul
第四次大作业 登陆学校图书馆网站的电子数据库
中青国信科技(北京)有限公司 空间域名邮局价格表.
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
1.关键词组合 深圳 深圳 志愿者 深圳 大运会 志愿者.
有机所文献利用快速指南 平台入口: 图书馆网站 文献、数据检索:
PRESENTED BY OfficePLUS
The Principles and technology of Social sciences Information Retrieval
如何使用CiteSpace分析Derwent专利数据
IEEE/IET Electronic Library
第二讲 检索技术与检索技巧.
美国DIALOG信息检索系统 简 介.
搜索引擎的使用技巧.
EBSCO数据库检索 信息检索与利用 杨国立 lib.ujs.edu.cn
姜義臺 蓋夏圖書館參考組 社工系碩士班圖書館資源研習 姜義臺 蓋夏圖書館參考組
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
数据库检索指南 ACM数据库.
免费资源PubMed介绍 南方医科大学 顾萍 May 25, 2005.
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
ScienceDirect高级检索功能及使用视频、说明发现路径
指导老师:John Doe 报告人:宝藏PPT
ScienceDirect高级检索功能及使用视频、说明发现路径
网络信息检索的基本方法.
请在此位置添加你的论文名称 指导老师:PPT教授 报告人:清风素材.
新PQDT论文全文库提交平台.
ScienceDirect 教育訓練 唐允中 Simon Tang Elsevier 台灣愛思唯爾
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
ASP New and other UIs: Medical Videos Searchasaurus
数据库使用指南 Nature全文数据库.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
普通高等教育”十一五”国家级规划教材 信 息 检 索 教 程 王立清 主编.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
ES 索引入门
本节内容 Win32 API中的宽字符 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
1小时 教你熟用电子资源 图书馆信息服务中心 李云华
ScienceDirect 教育訓練 Update: Jul
毕业论文写作过程中 文献资料的查找与利用 杜少霞 2015年3月25日.
电子资源检索入门 杜少霞 2015年9月17日.
北京中科进出口有限责任公司 PQDT论文全文库检索平台.
目录 01 选题背景和意义 02 论文结构 03 研究方法 04 分析讨论 05 主要结论 06 参考文献.
学习目标 1、了解基本运算符 2、运算符优先级.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
用户指南.
The 15th National Conference on Computer Chemistry of China
Presentation transcript:

网络信息检索与采集 ——检索方法 主讲人:许珍 王国硕

检索方法 布尔逻辑检索 邻近检索 短语检索 截词检索 字段限制检索 括号检索 自然语言检索 多语种检索 模糊检索 区分大小写检索

1.布尔逻辑检索(Boolean Logic)

一个班级内, 喜欢篮球的30人, 喜欢足球的20人, 喜欢足球并且喜欢篮球的有5人, 问:1.喜欢篮球或喜欢足球的有多少人? 2.喜欢篮球但不喜欢足球的有多少人?

逻辑与 具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。 检索词A和检索词B用“与”组配,检索式为:    A AND B,或者 A * B  它表示检出同时含有A、B两个检索词的记录。

逻辑或 计算机运算符为:A or B 或A+B 检出记录中含有检索词A或检索词B的文献

逻辑非 计算机运算符为:A not B 或A and not B或A-B 在含检索词A的记录中,去掉含检索词B的记录

检索词A和B 的逻辑组配关系:

(1)“计算机” AND ”文献检索” (2)“计算机” OR “文献检索” (3)“计算机” NOT “文献检索” 1.CNKI 上实训操作。 2.百度上实训操作。

() - * + 网络舆情AND (监测 OR 分析) 网络舆情AND 监测 OR 分析

CNKI :布尔逻辑选项 百度: AND:_ OR: _|_ NOT: _-(***)

布尔逻辑的强化与推广应用

构造检索式

(1)胰岛素治疗糖尿病

(2)北京地区或上海地区的大气污染

(3)动物的乙肝病毒(不要人的)

(4)工业模具设计与制作

(5)因特网之外的计算机相关文献

(6)因特网之外的计算机的ppt文档

查找有关电脑病毒的信息。

布尔逻辑练习题

例子: q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… 哪些文档会被检索出来? 

想查关于今年中国好声音16进4比赛的新闻,用布尔模型怎么构造查询?

参考: (2014 OR 今年) AND 中国好声音AND (16进4 OR 十六进四 OR 十六 AND 进AND 四) 表达式相当复杂,构造困难!

2、临近检索(位置检索) 多在商业数据库中使用 例: Dialog系统,最复杂 世界上最强大的国际联机检索系统

(1)(W)与(nW)算符: (w)两侧的检索词必须按先后顺序出现在记录中,在两词之间不允许插入其他词; (nW)中的n表示两侧的检索词中间允许插入的词量少于或等于n个 .

如:building(W)construction 命中: building construction ; building-construction

building(1W)construction 命中:building and construction ; building under construction ; building construction ; building-construction

building(2W)construction 命中: building design and construction ; building code and construction ; building in composite construction

(2)(N)与(nN)算符 N是near的缩写,(N)表示其两侧的检索词位置可以倒置,在两词之间不能插词; (nN)中的n表示允许插词的词量少于或等于n个。

information (1N)retrieval 命中:information retrieval ; retrieval of information

cross (1N) section 命中: cross section section of cross

(3)(F)算符 (字段内词间与运算) 要求在F算符两侧的检索词出现在同一字段中,词序可变,字段类型用字段标识作后缀。 如:online (F) retrieval/ DE, TI

(4)(S)算符 “(S)”中的“S”算符是“Sub-field/sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。 Solar(S)heat

(5)(L)算符 L是link的缩写,表示其两侧的检索词之间有主从关系,前者为主,后者为副。L可用来连接主、副标题词,它们被列在记录的规范词字段( SU, DE)。 如: air pollution(L)control 命中:air pollution-control

(6) NOT Not W Not N Not S Not F Not L

A. Sichuan university B. Sichuan-university C. university at Sichuan D. Sichuan Normal University  E. university,Sichuan 检索式: 1. Sichuan(W)university 2. Sichuan(2W)university 3. Sichuan(N)university 4. Sichuan(2N)university

Dialog.

3、短语检索 “” 精确检索又称之为字符串检索、短语检索。 几乎所有的搜索引擎读支持精确检索

适用短语检索的情况: 机构名称、人名、地名、专业术语等检索 四川文化产业职业学院 世界贸易组织 乔治·华盛顿 峨边彝族自治县 知识产权

查找与文化产业职业学院信息的微博数量,学校名称要求精确。 搜索平台:百度

Txt:四川文化产业职业学院 site:weibo.com

4、截词检索 截词(truncation) 用“?”号(有些系统中用“*” 或“#” )加在检索词的词干或不完整的词形后(或中间),用以表达一组概念相关的检索词。

截词检索与截词检索算符 一般仅允许有限截断 economic 无限截断 economics 后截断 如: economic* economicst 有限截断 economicalism economic 如: economic?? ? economics 前截断 如: ?lish economicst 有限截断 无限截断 中截断 sulfur woman 一般仅允许有限截断 如:wom?n sul*ur women sulphur 前后截断 如: ?computer?可检出: computer、computers、 computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers March 17, 2017

(1)非限制性截词 是在词干后面加上一个“*”号,表示允许在词干后出现的字符数不限 。 如:comput* 命中包含下列词的文献: compute;computed;computer;computing;computers;computable;computations;computerize; computerization

相当于检索式为: compute or computed or computer or computing or ….. 用途: (1)提高查全率; (2)提高检索效率

(2)限制性截词 是对词干后或词中间出现的字符数的限定,用“?”号的个数表示允许出现的字符个数。 如: analy?e? 命中:analyzer ; analyses

再如:work??? 命中:work”、“works”、“worker”、 “workers”及“working work? □? 命中:work”和“works” 注意:适用于自由词检索

physic 药品,给药 physical 物理的,物质的 physician 内科医生 physicians 内科医生 physicists 物理学家 physics 物理学 physicalism 物理主义 physicochemistry 物理化学

5、字段限制检索 字段限制检索(field limiting) Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。

搜索引擎常用字段 Domain:域名:指定域中搜索主页。 Host:主机名 :指定主机中搜索主页。 Image:文件名:搜索包含指定图像文件名的主页。 Link: 搜索包含指定链接的主页。 Text:文章 :搜索包含指定文本的主页。 Title:文本:搜索标题中包含指定文本的主页。 url:文本 :搜索URL 中包含指定文本的主页。

百度支持: inurl 与 site domain

文献数据库常用字段 标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报告号、ISBN、ISSN

文献数据库常用字段 英文名称 代码 中文名字 英文全称 Title ti 标题 Journal jn 期刊名称 Abstract ab 文摘 Source so 来源出版物 Keywords kw 关键词 Language la 语种 Subject、Topic su 主题词 Document Type dt 文献类型 Author au 作者 Publication Year py 出版年代 Full-text ft 全文 Document No dn 记录号 Corporate Source co 单位/机构 Country 出版国

Title(ti): Sichuan University url:gov.cn Py>=2009 La=english Link: whitehouse.gov admission AND site:www.harvard.edu AU=Wang li AND (CS=wuhan Univ.)

例如: (minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=English 这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者个人电脑的英文文献,并要求“微电脑”一词在命中文献的叙词字段、标题字段出现,“个人电脑”一词在命中文献的自由词字段出现。

输入“金庸 古龙 site:sina.com.cn” (1)限定网站 【实例】 搜索包含“金庸”和“古龙”的中文新浪网站页面。 输入“金庸 古龙 site:sina.com.cn”

(2)限定网页 【实例】查找MIDI曲“沧海一声笑”。 “inurl:midi 沧海一声笑”

“inurl:security windows2000 site:microsoft.com” 【实例】 查找微软网站上关于windows2000的安全课题资料。 “inurl:security windows2000 site:microsoft.com”

(3)限定文件类型 filetype的用法: filetype:格式 关键词 OR 关键词 filetype:格式 例如: 服务器安全 filetype:doc filetype:doc 服务器安全 搜索包含“策划方案”关键词的Office 文件。 关键词:“策划方案 filetype:doc OR filetype:ppt”。

6. 括号检索 改变运算先后顺序。 cnki

7 自然语言检索(Natural Language) Could you please give me some information on English literature? 特别适合不熟悉网络检索技术的用户 EXCITE ASKJeeves

8. 多语种检索

AltaVista提供20余种语言的查询服务,使用专门的语言识别技术,使不同语言的网页资料保存在同一个资料库中,从而以一个庞大的搜索引擎,提供各种语言的搜索。其主页面为英文。

9 模糊检索(Fuzzy Search) 概念检索 相关检索 检索→检索,搜索,查找,寻求…….

计算机

10 区分大小写检索(Case-sensitive) china--china,China,CHINA Windows, windows windows AND design

加权检索、音形一致的检索、词根检索