Presentation is loading. Please wait.

Presentation is loading. Please wait.

网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源.

Similar presentations


Presentation on theme: "网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源."— Presentation transcript:

1 网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源

2 1. 因特网基础知识

3 1.1 我国因特网的发展 CNNIC最新统计:截至2008年底,我国互联网普及率以22.6%的比例首次超过21.9%的全球平均水平。同时,我国网民数达到2.98亿,宽带网民数达到2.7亿,国家CN域名数达1357.2万,三项指标继续稳居世界排名第一。

4 CNNIC历次调查我国网民总数 年中国网民规模与增长率

5 1.2 因特网的互联原理 TCP/IP协议——通信的保证机制 IP地址——地址的标识技术 客户机/服务器系统——运作的基本模式

6 地址的标识技术——IP地址 识别主机的身份证,唯一性 形式:四组小于256的十进制表示。 如:202.38.185.67
北京邮电大学图书馆技术部一台主机。 字符型的IP地址,即域名(DN)域名的地址格式为: lib. jiangnan. edu cn 主机名 机构名 网络类型 最高域名

7 常用网络类型代码 com 商业机构 org 非营利组织 edu 教育机构 gov 政府部门 net 网管组织 int 国际组织
mil 军事部门 info 信息机构

8 1.3 因特网提供的主要服务 环球网(WWW/Web) 电子邮件( ) 远程登录(Telnet) 文件传输(FTP)等

9 环球网(World Wide Web) 1990年诞生于瑞士全欧原子物理研究室。
是通过超文本(Hypertext)方式来进行互联网上信息查询的网络工具。 超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接 超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。 基于超文本传输协议:http(Hypertext Transfer Protocol)

10 环球网(World Wide Web) 统一资源定位器(URL,网址) 是信息在网上的地址,用来定位和检索WWW上的文档。
例如: content.htm

11 博客-你的网络日记

12 Blog与BBS的区别 Blog集原创文章、评价、链接、网友跟进于一体 BBS没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。

13 RSS聚合 是在线集成、共享互联网内容,随时获取网页更新信息的一种简易方式(真正简易聚合,Really Simple Syndication)。 网站提供RSS输出,有利于让用户获取网站内容的最新更新。 用户通常在时效性比较强的内容上使用RSS订阅能更快速获取信息。 网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站更新内容。例:SharpReader 、看天下、 FeedDemon、 NewzCrawler。流行的在线聚合器: Bloglines ;My Yahoo!

14 2. 网络检索工具基础

15 我们若能更妥善地搜寻资料,实在已经改变世界
且慢,让我先Google一下 我们若能更妥善地搜寻资料,实在已经改变世界

16 2.1 网络检索工具的原理 网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过Internet来提供服务,通常又称搜索引擎。

17 网络检索工具的原理 主要由五部分构成: 数据采集(robot/spider):负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中 数据分析与标引(indexer):负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容——网页关键词、网页的分类类别等,并对关键词进行权值计算;

18 网络检索工具的原理 数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构
数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用户需要WWW信息 信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用

19 2.2 搜索引擎类型 按工作原理划分 按检索内容划分

20 按工作原理划分 独立检索工具 主题指南/目录/网站查询(Directory)
由人工采集网站并进行分类,建成树状等级目录.保证了查准率,但查全率降低。 如:ODP(Open Directory Project) 、 Yahoo! 搜索引擎/网页搜索 通过Robot自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。 如:Google,All the Web

21 按工作原理划分 元搜索引擎(集成搜索引擎)
自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。Vivisimo、Ixquick、Mama、搜星、万纬搜索等。

22 按检索内容划分 通用检索工具 是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。
如:Google、百度、 Altavista、ODP、Yahoo! 学术或专业检索工具 是学术或专业信息机构,根据需求,将Internet上资源进行筛选整理、重新组织而形成学术或专业信息检索系统,针对性较强。 如:Scirus、HealthWeb、BIOMED

23 2.3 搜索引擎的检索特性 I. 单词检索 II. “词组/短语检索” (“精确检索”)
检索结果必须含有与提问式完全一样 ( 包括次序 ) 的字串。在搜索比较专指的文献时,就要使用双引号(“”)进行词组检索。如:防震建筑材料和 “防震建筑材料 ” 有一些专用语尽管没有加引号,仍可作为专用语处理。例如:mother-in-law

24

25 III. 布尔逻辑检索 逻辑”与”: 关键词A AND(或空格)关键词B 例:查找胰岛素治疗糖尿病 胰岛素 AND(空格) 糖尿病
逻辑”或”:关键词A OR(|)关键词B(|前面必须有空格) 例:查找电脑 电脑 OR(|)计算机 逻辑”非”:关键词A NOT(-)关键词B(减号前面必须有空格) 例:查找佳能的产品(相机除外) 佳能 NOT(-)相机

26 III. 布尔逻辑检索 注意: 中文搜索引擎查询时一般不需要使用“AND”,因为搜索引擎会在关键词之间的空格处自动添加“AND”;有的中文搜索引擎不支持“OR”的搜索,无法接受“或者包含词语A,或者包含词语B”的网页 大多数搜索引擎都可用“+”表示必须包括某词,“-”表示必须排除某词。

27 例:分别输入 “防震建筑材料” +保温;"防震建筑材料" -保温的结果

28 IV. 限定搜索 Intitle(在GOOGLE中是allintitle)
intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。 格式:关键词B intitle:关键词A(多个个关键词中最重要的词放此)[只适用在百度中] allintitle:关键词A[用于GOOGLE中] 例:查找有关温总理访日融冰之旅方面的信息 温家宝 融冰之旅 与intitle:温家宝融冰之旅

29 又例:查找圆明园的历史 由于“圆明园”这个词非常关键,如果选择”圆明园 历史“这个搜索式不如选”历史 intitle:圆明园“(结果是:在所有标题中包含”圆明园“这个词的网页中寻找出现”历史“这个关键词的结果)

30 Inurl(在GOOGLE中是allinurl)
url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。 格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开) 例:图书馆 inurl:lib

31 SITE site是限定在某个网站内搜索关键词A 格式:关键词A site:xxx.com(即某个域名/网站) 例:在新浪网中查找有关融冰之旅的信息 融冰之旅 site:sina.com

32 FILETYPE filetype 是限定搜索结果的文件类型。互联网上,存在大量非网页格式的资料,如word文件、pdf文件等。格式:关键词A filetype:文件格式后缀名 例:入党申请书 filetype:doc,搜索结果全都是word文件。

33 V 词间位置限定检索 搜索引擎中较少使用, 仅AltaVista, MSN Search等少数搜索引擎可用NEAR进行位置限定
VII 二次检索 多数搜索引擎都有“缩小搜索”或“在结果中搜索”功能,在已获得的检索结果中进行“二次检索” VIII截词检索 多用于国外搜索引擎。一般用词干法或前方一致。有的中文搜索引擎不使用“词干法”,也不支持“截词符”(*)搜索

34 2.4 搜索引擎的检索策略 分析检索的主题 选择合适的搜索引擎 抽取适当的关键词 正确构造检索式 及时调整检索策略

35 分析检索的主题 了解查询目的和要求,确定需要的 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等)
查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间

36 选择合适的搜索引擎 要选择合适的检索工具时,就要先了解所要使用的搜索引擎 GOOGLE www.google.cn
特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。

37 选择合适的搜索引擎 雅虎 Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。

38 选择合适的搜索引擎 百度 www.baidu.com
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。

39 选择合适的搜索引擎 搜狐分类目录 http://dir.sogou.com/ 50,000主题分类,500,000优选网站,人工精选分类
搜狐分类目录 50,000主题分类,500,000优选网站,人工精选分类 Google 网页目录 Google 的网路目录内容是依据『Open Directory』,经由全球各地的义务编辑人员精心挑选,再由 Google 著名的『网页级别』技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。  网易搜索分类目录 一个由网上的志愿人员编辑的分类网站目录。 新浪搜索分类目录 由新浪搜索专业编辑挑选和分类的网站结果。

40 抽取适当的关键词 如何抽取关键词: 使用名词或物体做关键词 检索式中使用2-3个关键词
要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、 web 、www 、the net 对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worle wide web”

41 及时调整检索策略 扩大检索范围:检索结果为0或太少时,就需要扩大检索范围 使用同义词、近义词或相关词
减少最不重要的概念词,或使用较普遍的词,或改用上位词。 利用某些搜索引擎的自动扩检功能进行相关检索。 使用多个搜索引擎。

42 及时调整检索策略 缩小检索范围:如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。 使用布尔逻辑 使用词组检索 使用高级检索语法

43 3. 搜索引擎实例

44 3. 通用搜索引擎实例:Google 3.1 Google的概况 3.2 Google的特色 3.3 Google的搜索模块
3.6 Google学者Scholar 3.7 Google使用偏好设置 3.8 其他检索引擎

45 Google主页(

46 Google与数字图书馆 Google源自DLI1(Digital Library Initiative 1)的一个项目。
1994年在读研究生Larry Page和Sergey Brin参与了斯坦福大学主持的Infobus项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为“BackRub”的搜索技术,其核心就是Pagerank技术,这就是Google的前身。 1997年他们发表了论文并建立了试验性搜索网站, 次年Google公司宣告正式成立。 当年Altavista,Infoseek,Exite甚至包括Yahoo!(当时Yahoo!搜索引擎还用的是Inktomi)风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。 没有美国数字图书馆先导研究计划,就不会有Google。

47 3.1 Google的特色 检索响应速度极快,0.5秒内应答
PageRank专利网页级别技术与超文本匹配分析,客观评价网页的重要性,以提供相关性较高的搜索结果 智能化的“手气不错”功能,直接连接到可能最符合要求的网页 “网页快照”从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。——百度 最好用的图像搜索工具。 主页检索框右侧可设定“Preference(使用偏好)”,将检索界面设为中文

48 3.2 Google的搜索模块

49 3.2 Google的搜索模块 Google 服务: 网页搜索 新闻搜索:阅读搜索新闻 新闻快讯:定制实时新闻,直接发至邮箱 论坛搜索
网页目录:按主题学科分类浏览网站 图片搜索 网页搜索特色:计算器、股票查询、英汉互译等小窍门

50 3.2Google的搜索模块 Google 服务: Google 工具: 本地搜索:查找本地公司与服务 大学搜索:搜索特定大学的网站
学术搜索:搜索学术文献 Google实验室 图书搜索 Google 工具: 工具栏 翻译 桌面搜索

51 3.3 Google主要检索方式 关键词检索 高级搜索 网页目录查询

52 3.3.1 Google关键词检索规则 必须检索:无需and,两词间空格默认and匹配。 例:aspirin stroke;白血病 骨髓移植
或者检索:OR必须大写。 例:mri OR magnetic resonance imaging 排除检索:用-表示,但减号之前必须留一空格。 例:hepatitis -animal(不能用NOT) 短语检索:"robotic endoscopy was invented by" 对大小写不敏感

53 3.3.1 Google关键词检索规则 检索词出现位置限定: 文件类型限定:filetype:文件名后缀
标题:allintitle;网址:allinurl; 内文:allintext 链接:allinanchor 例:allinurl:ncbi搜索网址内含单词ncbi的网页 文件类型限定:filetype:文件名后缀 支持13种非HTML文件的搜索:pdf, doc, rtf, ppt, xls, swf, ps等 例: "chronic low back pain" "lumbar surgery" filetype:pdf

54 3.3.1 Google关键词检索规则 禁用词(Stop Words):
最常用的字符以及数字和单个字母等高频词,在检索时系统自动忽略不作检索。如果必须检索禁用词时可用+,或“ ” 如:of, is, by, i, 的, 为, “http”, “.com”,3 等…… 例:“diabetes i”

55 Google关键词检索结果 检出网页总数 检索式 网页标题 文件类型 网页摘录 网页网址

56 3.3.2 Google 高级搜索

57 Google 高级检索实例 例:高级检索查找2008年我国农村互联网普及率 包含以下完整字句:互联网普及率为 搜索网页语言:中文简体
包含全部字词:2008 农村 包含以下完整字句:互联网普及率为 搜索网页语言:中文简体 网页更新日期:过去一年 网域: 仅 cnnic.net.cn(仅在卫生部网站中搜索) 信息需求类型:直接查找具体数值,权威发布源

58 Google 网页高级搜索界面

59 Google网页高级检索结果

60

61 Google 高级检索实例 信息需求:查找相关专业的重要网站 例:查找与美国国立卫生研究院类似的网站。
在Search by URL区域,Find web pages similar to 后输入 点击右侧search by URL 按钮。 例:查找含有美国国立卫生研究院链接的网页。 在Search by URL区域,Find web pages that link to 后输入 信息需求:查找相关专业的重要网站

62 Google网页高级检索结果 翻译网页 网页字节数

63 3.3.3 Google的网页目录查询

64 3.3.3 网页目录查询 网站:一个机构/个人在网上提供浏览或服务的站点,一个网站包括多个页面/网页 网页目录可按学科主题浏览相关网站
例:查找生物学研究机构的网站 依次点击类目:生物学、机构可得相关网站

65

66 关键词检索、目录比较 关键词检索:目标明确、主题较狭窄、知识点、事实数据、文献等网页查找。
目录检索:目标模糊、主题较宽泛、查某专业重要网站。

67 3.5 Google Scholar 学术搜索 含期刊论文、学位论文、图书、预印本、文摘、技术报告等学术文献,文献源自学术出版物、专业学会、预印本库、大学及网上学术论文。 按相关度排序,考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文的方法 了解有关某一领域的学术文献 ;某一作者的著述,并提供书目信息

68 3.6 Google Scholar 学术搜索 例:检索有关”大豆蛋白接枝共聚物研究”的文献 包含全部字词:大豆蛋白
包含确切词语:接枝共聚物

69 3.6 Google Scholar 学术高级搜索

70

71

72 3.6 Google 使用偏好设置

73 3.7 其他搜索引擎 中国人自己的搜索引擎,中文搜索之王。 http://www.baidu.com
检索、对搜索结果自动进行分类功能 亚马逊书店的“杀手锏”,图书、网页、黄页和地图服务

74 新浪爱问 iASK 中国人的参考咨询网站,用户自助式答问题。

75 其他搜索引擎 Yahoo! http://search.yahoo.com
Altavista 新浪 搜狐 雅虎中文

76 4.免费学术或专业信息资源

77 4 网络相关学术信息资源 免费期刊全文数据库 相关专业网站 综合学术门户(学术引擎) SCIRUS

78 4.1 网络免费电子期刊 HIGHWIRE 其他网络免费期刊

79 HighWire概述 HighWire Press是全球两大提供免费全文的学术文献出版商之一。由美国斯坦福大学图书馆创立于1995年,最初仅出版著名的周刊“Journal of Biological Chemistry”,很快“Science”和“Proceedings of the National Academy of Sciences”也加入其中 可检索到361种顶尖期刊的全文 –其中有42种 属于全球引用最多的百种期刊。还可检索到 Medline 中的所有信息。

80 HighWire概述 为全球最大的免费生物信息资源检索系统。包括718,238篇免费全文。还可使用用户名/密码, 浏览所有你订购的期刊
网址为

81

82 HighWire 的检索 有浏览检索、快速检索和高级检索几种方式。可在所有的期刊或选择的期刊中检索;也可选择学科范围检索;
浏览检索(Browse) 快速检索(主界面上直接检索) 高级检索(More search options) 可用“*”表示截词,布尔逻辑算符“AND”, “OR” “NOT”,词组检索“”

83 高级检索界面 (PVA OR “Polyvinyl alcohol”) AND “activated sludge” AND wastewater AND treat*

84 检索结果如下:

85 刊名字顺列表

86 图书馆收集的网络免费期刊

87 4.2 相关专业网站 美国国家生物技术信息中心 http://www.ncbi.nlm.nih.gov/
美国国家生物技术信息中心 中国科学院资源环境科学信息中心 资源环境门户网站 中国环境资源网 用于检索化学物质的物化性质,CAS 登记号 环境科学信息资源中心(CESI)

88 食品专业网站 FDA美国食品与药品管理局 http://www.fda.com
美国国家农业图书馆 英国农业、食品专业网站AGRIFOR 国际食品信息服务社(IFIS,现为FOODSCIENCECENTRAL) 美国油脂化学会

89 美国国家生物技术信息中心(NCBI) 成立于1988年,为美国国家分子生物学信息中心 出版基因组序列分析软件、生物医学及生物学文献信息数据库
其数据库PubMed, 可检索到 MEDLINE的 11,000,000种 生物医学期刊文献的题录;PubMed Central 可免费检索到140多种生命科学期刊 的全文

90

91 数据库检索界面

92

93

94 4.3 学术信息门户 学科信息门户是将特定学科领域的网上信息资源、工具和服务集成到一个整体(独立的或分布集成的信息门户网站)中,为用户提供一个方便的信息检索和服务人口。 学科信息门户与搜索引擎最大的不同在于: 针对专业研究型用户 信息资源经严格选择

95 化学学科信息门户 ChIN — The Chemical Information Network 化学信息网 [URL] 化学学科信息门户是中国科学院知识创新工程科技基础设施建设专项“国家科学数字图书馆项目”的子项目,化学学科信息门户建设的目标是面向化学学科,建立并可靠运行Internet化学专业信息资源和信息服务的门户网站,提供权威和可靠的化学信息导航,整合文献信息资源系统及其检索利用,并逐步支持开放式集成定制。

96

97 化学学科信息门户  ChIN的检索方式 浏览方式:既可以按照资源类型浏览,也可以按照学科分类浏览。 对所有内容进行全文检索的【站内检索】
简单检索:输入关键词,可检索的范围包括资源的名称、主题/关键词 高级检索:可选择信息资源类型 输入关键词(支持布尔检索) 选择时间段

98

99 检索到的包含”表面活性剂“的资源:

100 资源环境信息门户

101

102

103

104 生物化学信息门户 chembiofinder.com

105 4.4 学术搜索引擎 SCIRUS http://www.scirus.com
SciSeek (科学探索网) 专注于科学搜索引擎与目录,还包括一些科学杂志以及其他的工具等。 Find Articles(论文搜索网) . 论文搜索网提供多种顶极刊物的上百万篇论文,涵盖艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面的内容。

106 学术搜索引擎 Google学术搜索 chmoogle(化学信息搜索引擎) 或 OJOSE(在线期刊搜索引擎) OJOSE (Online Journal Search Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,能查找、下载或购买到近60个数据库的资源

107 SCIRUS 目前互联网上最全面、综合性最强的科技文献门户网站之一,由荷兰Elsevier科学出版社开发
索引包括90,000,000个网页, 12,800,000条MEDLINE文摘;1,600,000篇ScienceDirect全文;900,000项USPTO的专利;657,000篇Beilstein文摘;248,000篇IDEAL全文;10,310篇NASA技术报告等 Scirus索引每月更新 基本检索和高级检索两种方式

108 基本检索:可选择检索结果的来源,如来自于期刊或来自于网络
高级检索 :支持逻辑检索符的应用。“AND“, ”OR“, ”ANDNOT“.在检索词前加上适当的符号可以缩小检索范围:”+”表示检索结果中必须包括该关键词;“-”表示检索结果中一定不出现该关键词。使用双引号,则检索结果一定与引号内的检索词完全匹配,从下拉菜单中选择以下的操作方式来缩小检索范围 可进行个性化检索设置,包括限制检索结果的信息类型(如网页、文摘、专利等)、信息来源(期刊资源和网络资源)、检索学科与主题范围、检索年限、每屏显示的检索结果数等

109 基本检索界面

110 高级检索界面

111


Download ppt "网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源."

Similar presentations


Ads by Google