文献检索与利用 青海大学图书馆 季拥政
第五章 Internet信息资源及其检索 第一节 Internet网络信息资源概述 一、Internet概述 1.从网络互联的角度来看 2.从网络通信的角度来看 3.从提供信息资源的角度来看 4.从网络管理的角度来看
1.TCP/IP协议是Internet的核心 TCP:Transmission Control Protocol 传输控制协议TCP是一种面向连接(连接导向)的、可靠的、基于字节流的运输层(Transport layer)通信协议。 TCP协议提供的是可靠的、面向连接的传输控制协议;端到端的通信;全双工方式传输;采用字节流方式;紧急数据传送功能。
IP协议,全称Internet Protocol(因特网协议) 主要用于负责IP寻址、路由选择和IP数据包的分割和组装。目前,我们常用的IP协议是IP协议第四版本,即IPv4,是互联网中最基础的协议。网络中的计算机都有一个惟一的因特网地址,又称IP地址。IP地址如同居民身份证编码具有惟一性。 IP地址 :166.111.4.100 域名 :www.tsinghua.edu.cn
2.Internet实现了与公用电话交换网的互联 3.Internet是一个用户自己的网络 Internet来源于ARPAnet网,现代计算机网络的许多概念和方法都来源于它。
2009年11月2日举行的“2009中国互联网大会”上获悉,截至9月末,我国互联网用户到达3. 6亿,普及率达到27 2009年11月2日举行的“2009中国互联网大会”上获悉,截至9月末,我国互联网用户到达3.6亿,普及率达到27.1%,移动互联网用户已达1.92亿,境内网站达到320万个,宽带用户达9933万。互联网基础资源规模不断扩大,IP地址达到1.23亿个,为全球第二;CN域名注册量达500万,为全球第一。IT、制造业、软件与数字内容业产值超过2000亿元。我国互联网发展已处于关键时期。
(四)中国Internet的发展 1994年我国全面开通了Internet服务,建立了四大网络体系。 中国科技网CSTnet 1994年该网实现了与Internet网的联接。CSTnet主要是提供科学数据库服务、网络信息服务及超级计算服务等,其服务是非商业性的。 中国科技网网的网址是: http://www.cstnet.net.cn,其主页如下图:
中国教育科研网CERNET 中国教育科研网的全称是China Education and Research Network,它是国家教委主持的国家重点工业性研究项目。于1994年启动,1995年12月正式开通运行,并实现与Internet的全方位连接。 CERNET网分为主干网、地区网、和校园网三个层次。中国教育科研网的网址是:http://www.edu.cn,其主页如下图:
CERNET当前的拓扑结构如下图:
中国公用计算机互联网CHINANET 中国公用计算机互联网是我国第一个全国性商业网,它由中国信息产业部经营管理,于1994年开始启动。CHINANET为社会提供方便的网络服务,开办代理业务,发展网络用户,建立中文信息站点为网络用户提供多种信息服务,包括电子文件、商业信息、天气预报、娱乐休闲、旅游指南等。 中国公用计算机互联网的网址是: http://www.chinanet.cn.net/,其主页如下图:
中国金桥信息网 中国金桥信息网CHINAGBN是三金工程(金桥工程、金关工程、金卡工程)之一, 也称中国经济网,于1996年开始建设,它是国家经济信息通信网,提供Internet网络商业服务。 中国金桥信息网的网址是:http://www.gb.com.cn,其主页如下图:
二、Internet网络信息资源概述 (一)网络信息资源的概念 网络信息资源,由称电子信息资源、因特网信息资源、WWW信息资源,是将文字、图像、声音、动画等多种形式的信息,以数字化形式存储,并借助计算机与网络通信设备发布、收集、组织、存储、传递、检索和利用的信息资源。
(二)网络信息资源的特点 (1)从内容方面看,网络信息资源信息类型丰富,信息量大,开放性强、增长快、更新快。 (2)从存放位置看,信息广泛分布在不同的服务器上,而服务器上的操作系统、数据结构、字符集、处理方式并不相同。 (3)从其利用方式看,网络信息资源不受时空限制,跨时空、跨行业传播。
(4)从其组织方面看,网络信息资源分布离散化。 (5)从其质量方面看,信息发布有很大的自由度和随意性,缺乏必要的过滤、质量控制和管理机制。 (6)从时效性方面看,网络信息资源时效性强,在互联网上能得到最新的资料以及某个学科和某项科研的最新动态,能检索到最近的(甚至当日的)文献。随机变化大,更新消亡无法预测。 网络信息资源还具有开放性、交互性、通用性等特点。
三、Internet信息检索 (一)WWW与信息检索 1.WWW的概念 环球信息网WWW(World Wide Wed)也称Web或万维网,它是一个基于超文本(hypertext)方式的信息检索查询工具。欧洲粒子物理实验室(CERN)的Tim .Berners-lee等人在1989年为了满足世界各地进行粒子物理研究的科学家能利用计算机网络交流研究成果,开发了World Wide Web,简称WWW。
3.WWW的构架 2.什么是超文本与超媒体 (1)HTML是Hyper Text Markup Language的缩写。 (2)主页(homepage) (3)HTTP (4)URL(Uniform Resource Locator,统一资源定位器)用来定义访问文件的名称、位置、访问的方式。
4.WWW浏览器 5.www采用的是客户机/服务器结构
第二节 搜索引擎 (一)搜索引擎(Search engines)的概念 (二)搜索引擎的发展历史 (三)搜索引擎工作原理 一、搜索引擎概述 (一)搜索引擎(Search engines)的概念 (二)搜索引擎的发展历史 (三)搜索引擎工作原理 (四)搜索引擎的特点
第二节 搜索引擎 一、搜索引擎(Search engines)的概念 二、搜索引擎的发展历史 三、搜索引擎工作原理 四、搜索引擎的特点
五、搜索引擎的检索结果 1.标题:网页的标题。 2. URL :该网页对应的“访问地址”。 3.摘要:网页内容的摘要。
搜索引擎基本结构
六、搜索引擎的检索技术 1.布尔逻辑检索 (1)逻辑“与” (2)逻辑“或” (3)逻辑“非” 逻辑与 逻辑或 逻辑非
在许多搜索引擎中用空格、逗号、括号、 “&”、“∣”、“﹗”表示布尔逻辑符。空格、“&”的作用与逻辑“与”(and)相同,比如google自动使用“and”进行查询。逗号(,)、“∣”的作用类似于逻辑“或”(or)。 2.位置算符(proximity search) 位置算符检索用诸如“w”、“n”的符号表示词与词之间的位置关系,如information n system表示system出现在information之后,information n system表示与前后关系无关。
3.截词检索(truncation/wildcats) 截词方式主要有右截断、左截断、左右截断、中间截断(中间屏蔽)四种。搜索引擎中的截词符通常采用“*”和“?”。 4.字段限制检索(field limiting) Title:、ubject:、Keyword:、Summary:、Image:、text:、Applet:、host:、anchor:、domain:、site:、url:、from:等。
5.精确检索(exact search) 精确检索又称之为字符串检索、短语检索。 几乎所有的搜索引擎读支持精确检索,并且都采用“ ”来表示。 6.模糊检索(fuzzy search) 7.自然语言检索(natural language search) 8.区分大小写的检索(case-sensitive) 又称为大小写敏感检索,这主要针对检索词中含有人名、地名等专有名词而言的。
9.加权检索(term weighting)、 连接符有加号(+)和减号(-)。即在检索词前置加/减(+/-)号,作用相当于AND/NOT运算。 10.多语言检索(multilingual search) 11.相关性排序 检索结果通常是根据相关程度按从大到小的顺序降序排列。几乎所有的搜索引擎都提供了“对检索结果按其相关性大小排序的功能。”
七、搜索引擎使用方法 (2)关键词 1.基本使用方法 (1)分类法 目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则,确定要查找的内容或网站应该在哪个分类,然后逐级单击寻找。 (2)关键词 这是搜索引擎必备的功能。直接在输入框输入关键词即可进行的检索。
2.使用技巧 (1)选择合适的搜索工具 每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。 (2)使用正确的搜索词 就目前而言,多数搜索引擎不支持容错查询。所以,一定要注意不写错别字。 (3)正确使用布尔检索 正确使用布尔检索方式可以减少搜索结果的返回数。
八、搜索引擎的分类 1.按搜索机制分类 (1)目录型搜索引擎 (2)关键词型搜索引擎 (3)混合型搜索引擎 2.按搜索引擎提供的搜索内容来划分 (1)综合型搜索引擎 (2)专业型搜索引擎
(3)特殊型搜索引擎 3.按搜索引擎在采集信息的方法及对外提供的服务方式划分 (1)机器人搜索引擎 (2)目录搜索引擎 (3)元搜索引擎
二、主要中文搜索引擎介绍 (一)Google 1.概述 (1)网页标题 (2)网页快照 (3)手气不错 (4)类似网页 (5)中英文字典
(2)Google支持多达132种语言,包括简体中文和繁体中文。 (1)数量庞大 Google目前发展为搜索80亿网页;10亿图片;10亿Usenet信息。 (2)Google支持多达132种语言,包括简体中文和繁体中文。 (3)Google速度极快,它每秒钟能够回应几千次查询,而回应每项查询,Google都要走过30多亿个网页。
Google原名Googol,意思是10的100次方,是个巨大的数字。
(4)Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果。 (1)基本检索 (2)高级检索
4.Google Scholar学术搜索引擎 (1)Google Scholar的特点 学科覆盖广泛全面,学科专业性强 2004年11月24日Google推出了世界上第一个针对学术期刊、论文、著作、摘要的免费学术搜索引擎一一Google Scholar;2006年1月11日,Google推出了面向中文用户的中文版Google学术搜索。 (1)Google Scholar的特点 学科覆盖广泛全面,学科专业性强
①生物学、生命科学、环境科学(Biology,Life Sciences,and Environmental Science);②商业、管理、金融与经济(Business,Administration,Finance,and Economies);③化学与材料科学(Chemistry and Materials Science);④工程、计算机科学和数学(Engineering,computer Science,and Mathematics);⑤医学、药学和兽医学(Medicine,Pharmacology,and Veterinary Science);
检索功能强大,搜索服务实行一站式 (2) Google Scholar检索方法 基本检索 高级检索 ⑥物理学、天文学、天体科学(Physics,Astronomy,and Planetary Science);⑦社会科学、艺术和人文科学(Social Sciences,Arts,and Humanities)。 检索功能强大,搜索服务实行一站式 (2) Google Scholar检索方法 基本检索 高级检索
高级检索界面
(3)检索结果 检索结果中每条信息内容都包含:文献的题名、著者、出版物、出版年月、摘要、被引用次数、网页搜索等。
学术搜索使用偏好
(二)百度 “百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”。 (二)百度 “百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”。 1.百度的基本功能 (1)百度快照 (2) MP3搜索 (3)“ 超链分析” 技术 (4)高级搜索
白度空间
更多
2.百度的检索技术 百度支持“与”、“或”、“非”。在关键词之间插入“空格”、“| ”、“ - ”, 可指定查询串中各关键词间“与”、“或”、“非”的关系。百度不支持AND”、“ + ”等符号的使用。
(三)雅虎(http://www.yahoo.com.cn) 雅虎(www.yahoo.com)是全球第一门户搜索网站,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。1999年9月,中国雅虎网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。 中国雅虎(www.yahoo.com.cn)将全球领先的互联网技术与中国本地运营相结合,成为中国互联网界位居前列的搜索引擎社区与资讯服务 提供商。为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。
(1)分类目录检索(http://site.yahoo.com.cn/)
双引号带来的精确结果 在查询词适当的位置加个空格,可以帮助您找到更精确的结果。 空格+减号,帮我们去掉无用信息。 在搜索结果页下方的搜索框中,重新输入一个查询词,然后点击“在结果中找”来缩小搜索范围。 不必担心英文的大小写
(四)搜狐(http://www.Sohu.com) 1.简介 搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名为www.sogou.com。 搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、新闻、地图领域提供垂直搜索服务;桌面应用则旨在提升用户的使用体验:搜狗工具条、拼音输入法、PXP加速引擎。
直通车
高级检索
2.检索方法 基本搜索 进一步的搜索 搜索不区分大小写 检索技术 使用双引号进行精确查找 使用多个词语搜索 减除无关资料 在指定网站内搜索 :其格式:查询词+空格+site:网址 文档搜索 :搜索语法:查询词+空格+Filetype:格式
(五)网易(http://so.163.com或 http://search.163.com/) (1)网易搜索引擎的特点 ①网易搜索引擎提供多语言检索 ②拥有全国最大的开放式管理目录 ③网易搜索结果包括相关目录、相关网站、相关网页和相关新闻 ④网易搜索引擎是模糊的搜索方式
1.简介 网易公司于2007年12月日前正式对外发布:旗下自主研发搜索引擎“有道”(www.yodao.com)正式版问世。 “有道”搜索类型包括网页、博客、图片、新闻、海量词典等。 有道阅读:通过在线RSS订阅,开启快捷的资讯阅读之道。包括资讯阅读、收藏分享、阅读助手和一站式服务。 桌面词典:免费中英文翻译软件
分类检索
(六)新浪爱问(http:// www.iAsk.com) 新浪爱问搜索类型包括网页、新闻、博客、音乐、图片、视频、地图、知识人、资料、百事通。
(七)中国搜索(http://www.zhongsuo.com)
高级检索
(八)MSN中文搜索 (http://beta.search.msn.com.cn)
(九)TOM搜索引擎
中文搜索引擎分布
三、主要英文搜索引擎介绍 (一) Altavista搜索引擎 Altavista 是由前DEC 公司于1995 年开发的,是Internet 上最大的搜索引擎,在它的搜索数据中包含了2,200 万个主页、3,000 万个URL 和13,000 个新闻组的全文信息。Altavista的搜索范围非常大,就连一些鲜为人知的偏僻站点也能找到,因此它的搜索结果十分丰富。所以,使用Altavista 时,用户需要花更多的时间在搜索结果中寻找自己想要的信息。 网站地址:http://www.altavista.com
1.分类目录搜索 用户可以根据要查找内容在分类目录中选择相应的类目,点击后出现该类目所包含的子类,这样只要逐级点击相应的类目便可检索到所需的信息。例如,要检索有关Intranet 技术的站点,可依次选择:Directory→Computer&Internet→Network&Communication→Intranet→Technology, 最后一级目录中的“Technology”链接项,就会列出一系列有关Intranet 技术的站点链接。
使用简单检索方式,只需直接在检索文本框中键入检索词,检索词可以是单词、词组或短语,然后点击“Find”按钮或按回车键。 2.简单搜索 使用简单检索方式,只需直接在检索文本框中键入检索词,检索词可以是单词、词组或短语,然后点击“Find”按钮或按回车键。 简单检索可以满足一般用户的需求,除检索网页外,还可检索图片、MP3、视频、新闻等。 返回目录
输入检索词
使用简单检索方式,用户可以对检索的内容加以限制: 限制检索某种语言网站 限制检索词中的大小写字母 限制检索词出现情况(“+” 、“―”) 2.简单搜索 使用简单检索方式,用户可以对检索的内容加以限制: 限制检索某种语言网站 限制检索词中的大小写字母 限制检索词出现情况(“+” 、“―”) 限制与检索词相同词根单词出现情况(“*”) 对搜索结果进一步细化 (“Require”、“Exclude” 或“Refine Again” ) 返回目录
3.特殊搜索 Domain:域名:指定域中搜索主页。 Host:主机名 :指定主机中搜索主页。 Image:文件名:搜索包含指定图像文件名的主页。 Link:URL :搜索包含指定链接的主页。 Text:文章 :搜索包含指定文本的主页。 Title:文本:搜索标题中包含指定文本的主页。 url:文本 :搜索URL 中包含指定文本的主页。 返回目录
(二) Excite搜索引擎 Excite 是Internet 上的一个经典的搜索引擎,也是最受欢迎的搜索引擎之一。它收集了5000 万个网页信息,其网页索引是一个全文数据库。Excite 最大的特点是提供概念检索,即搜索引擎不仅查找包含关键词的主页,还查找包含与关键词有关的概念的主页。 网站地址:http://www.excite.com
1.分类目录搜索 Excite 支持分类目录检索方式,在该主页中部列出了分类目录。用户可以根据查找内容的类别在分类目录中选择相应的类目,系统会显示该类目中包含的所有子类。经过多次选择后,就可以访问到包含查找内容的站点。 返回目录
Excite不仅可以检索网页,还可检索图片、声频、视频、新闻等。 2.关键词搜索 Excite关键词搜索在检索文本框中键入关键词,然后点击“Search”按钮,Excite 在数据库中查找与关键词相匹配的记录,然后进入搜索结果显示页。 Excite 与其他搜索引擎类似,可以使用“+”与“-”指定或排除某个单词,也可以使用布尔逻辑运算符AND,OR,NOT 以及括号构成复杂的检索表达式。 Excite不仅可以检索网页,还可检索图片、声频、视频、新闻等。 返回目录 输入检索词
(三) Lycos搜索引擎 Lycos 创立于1995 年,是Internet 上资格最老的搜索引擎之一。它的特点是功能强大,搜索范围广。Lycos 几乎覆盖了Internet 上90%的主页,可以进行包括WWW、FTP 与Gopher等多种服务的搜索。由于Lycos 的学术背景,它可以搜索到其他搜索引擎找不到的偏僻站点,比如一些面向教育或非赢利组织的站点。 网站地址:http://www.Lycos.com
1.TOP 50 Websites 主题目录 Lycos 提供了一种很有特色的服务—TOP 50 Websites 主题目录,它是Internet 中最早而且最优秀的主题目录。TOP 50 Websites 主题目录中所列的站点是由专家精心挑选的各类优秀站点,它是浏览和查询专业站点的最佳途径。 主题目录 返回目录
满足检索条件的分类目录(Categories); 满足检索条件的站点链接(Web Sites); 2.关键词搜索 使用关键词检索的方法是,在Lycos 主页上部的“Search for”检索文本框中键入关键词,然后点击该框右侧的“Go Get It!”按钮。在检索结果显示页中,分别显示四类结果信息: 满足检索条件的分类目录(Categories); 满足检索条件的站点链接(Web Sites); 满足检索条件的新闻与媒体(News&Media); 满足检索条件的Web 页面(Web Pages)。 输入关键词 返回目录
四、其他英文搜索引擎简介 InfoSeek搜索引擎 AOL搜索引擎 HotBot搜索引擎 Netscape搜索引擎 MSN 搜索引擎 Scirus搜索引擎 返回目录
新浪搜索分类目录(http://dir.iask.com)