Presentation is loading. Please wait.

Presentation is loading. Please wait.

第七讲 internet资源检索与利用.

Similar presentations


Presentation on theme: "第七讲 internet资源检索与利用."— Presentation transcript:

1 第七讲 internet资源检索与利用

2 Contents 1 搜索引擎的概念及其工作原理 2 搜索引擎的分类 3 搜索引擎检索技巧 4 网络资源的评价

3 5.1搜索引擎的概念及工作原理 概念:(Search Engine)从广义上讲是用来对网络信息资源管理和检索的一系列软件,在Internet网上查找信息的工具或系统。

4 5.1搜索引擎工作原理 自动搜索程序如spider、robot等 抓取网页 在索引数据库中排序 建立索引数据库 输入关键词
提取网页信息 URL 抓取网页 在索引数据库中排序 建立索引数据库 对关键词进行标引 DB 输入关键词 检索程序在索引数据库中查找 将检索结果返回给用户

5 Google的工作过程:

6 搜索引擎的组成 ★ 搜索程序(如spider、crawler、robot,采集 新出现的信息)
★ 检索数据库,(记录标引和逻视软件采集的信息) ★ 检索代理(用来处理用户的检索请求)

7 5.2搜索引擎的分类: 根据工作方式 类型 特点 典型 目录式分类搜索引擎
将信息进行归类,适合那些希望了解某一方面信息但又没有明确目的的用户;查准率较高,查全率较低 Yahoo、Sohu、Open Directory 全文搜索引擎 能够对网页中的每个单字进行搜索;搜索范围较广,提供的信息多,但缺乏清晰的层次结构,重复链接比较多 Google、百度 元搜索引擎(Metasearch Engines) 调用独立搜索引擎的引擎 C4、Dogpile、 MetaFind 、SavvySearch 、MetaCrawler

8 5.31 基本语法 1)布尔逻辑: 逻辑”与”:AND.(注关键词之间的空格默认为逻辑与) 如:墨攻 AND 鸡犬不宁
逻辑”或”:OR, | (注:不可以用小写的or,否则被忽略) 如:墨攻 OR 鸡犬不宁 逻辑”非”:-(注:-前面有空格,后面没有空格;不用NOT或not,否则被作 为检索的一部分) 如:张艺谋 –大红灯笼高高挂 2)短语搜索: “to be or not to be” “beijing university of technology” 3)通配符:* 如:beijing * university 4)英文大小写不敏感

9 5.32 限定条件 1)link:含某个链接的网页如:link:http://www.bjut.edu.cn
2)site:域名中包 如:site:edu.cn 3)Intitle:标题搜索. 如:intitle:休斯顿火箭队 4)Intext:正文检索.如:intext:像素 600万 5)Inurl:搜索url.如: inurl:mp3 6)filetype:文件格式. 如:filetype:pdf

10 5.33搜索策略 选择合适的关键词 利用高级检索功能(包括布尔算符,限定文件类型、时间、语言等)

11 下面是一篇文章的题目:Compressive behavior of concrete at high strain rates
使检索目标具体化(“ ”) 下面是一篇文章的题目:Compressive behavior of concrete at high strain rates 试试以下两种不同的检索方法,体会一下两者的不同: 1) 2)

12 尝试不同的搜索方法和搜索引擎 例如:智能控制的翻译西班牙语

13 使用目录式搜索引擎 有目标范围,但是没有确定目标信息时适用

14 举例: 想了解“法国戛纳电影节”,目标较为具体,用全文式搜索引擎,快速而准确

15

16 想了解世界电影节的情况,具体有哪什么电影节并不清楚。 用目录式搜索引擎可以获得较多的提示。

17 一、从分类找到”电影”:

18 二、找到电影节

19 三、可以看到这么多电影节,挑你感兴趣的了解吧
不过,不一定所有的电影节都列在了这里,比如威尼斯电影节就没有,所以目录式搜索引擎搜索的范围还是有限的

20 如果用google直接搜索呢?我们来对比一下

21

22 用google搜索,结果多,但杂乱、结构不清晰,需要耐心地挑选一阵子

23 帮助文件对学习搜索引擎有很大的好处

24 帮助文件对学习搜索引擎有很大的好处

25 学术搜索引擎: 学术搜索引擎对网上的信息进行了过滤,更适合搜索学术文章.

26 相当于逻辑”与” 精确检索 相当于逻辑”或” 相当于逻辑”非” 限制项

27 其他设置

28 图书 搜索结果 在参考文献中找到 全文(一般为PDF格式)

29

30 高级搜索

31 其他设置

32 检索结果

33 帮助系统

34 识别从网上得到的信息: 网页来源(有时可判断出该网页出自哪个国家,什么机构) 内容大小 网页更新日期

35 统一资源定位器(URL:Uniform Resource Locator): 协议类型/服务器名/文件路径
超文本传输协议 ftp:// 文件传输协议 telnet:// 计算机远程登陆方式 gopher://  wais:// news:// 

36 协议类型/服务器名/文件路径 域名: 计算机在internet上的名字,标识团体、组织或个人在internet上的地址
常见的标明组织机构类型的“一级域名”: .com --商业机构(commercial organizations)地址 .edu --教育(education)及研究机构地址 .gov --政府机构(government agencies)地址 .net --主要网络服务机构地址 .org --专业团体组织(organizations) .mil --用于军事领域 新出的域名: .aero -- 航空运输业 .museum -- 博物馆的专用顶级域名 .coop -- 商业合作社 .biz --可以替代.com的通用顶级域名,适用于商业公司 .info --可以替代.com的通用顶级域名,适用于提供信息服务的企业

37 国家代码: .cn - China .au - Australia cl - Chile .br - Brazil de - Germany .ca - Canada eg - Egypt .ch - Switzerland jp - Japan .mx - Mexico nl - Netherlands .nz - New Zealand uk - United Kingdom

38 如:http://www.bjut.edu.cn/department/odp/aycg.htm 北京工业大学 教育机构 中国 文档路径
超文本传输协议 北京工业大学的服务器 文档路径 教育机构 中国 北京工业大学

39 推荐学习网址:中文搜索引擎指南网 http://www.sowang.com

40 通过图书馆主页可免费访问的网络整合资源有:本校网络资源导航

41

42 国家科技图书文献中心整合资源

43

44 网络资源的评价 作者: 作者具有撰写这一主题文章的专业水平吗? 出版年代:这篇文献所包含的信息是最新的吗?
出版者:是什么样的机构?执行什么样的出版政策?出版目的? 他人对文章的评论:对于你查到的这些资料,人们是怎么评论的呢? 内容:你所找的资料适合你的研究吗?这篇文献对你的研究有多大参考价值呢?


Download ppt "第七讲 internet资源检索与利用."

Similar presentations


Ads by Google