网络信息检索基础 文献学教研室 冯勤 2004.10
Internet简介 Internet历史与发展 (因特网、国际互联网) 1. ARPANet (1969年,美国国防部研制) 2. NSFNet(1985年美国国家科学基金会建立,1989年取代ARPANet) 3. Internet(1990年后迅速普及)
国内与Internet直接联网的 四大网络 1.中国教育科研网(CERNET) http://www.cernet.edu.cn 2.中国科技网(CSTNET) http://www.cstnet.net.cn 3.中国公用计算机互联网(CHINANET) http://www.chinanet.net.cn 4.中国金桥信息网(CHINAGBNET) http://www.gb.com.cn
Internet的入网方式 1.通过局域网方式 2.通过ISP接入( ISP是提供Internet入网服务的机构) 拨号接入:计算机、Modem、电话线、ISP 帐号。 (ADSL) 专线接入:租用数据专线或光缆、DDN等以及配套网络设备。
ADSL (Asymmetrical Digital Subscriber Line,非对称数字用户环路):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。 ADSL素有“网络快车”之美誉,因其下行速率高、频带宽、性能优、安装方便、不需交纳电话费等特点而深受广大用户的喜爱,成为继Modem、ISDN之后的又一种全新的、更快捷、更高效的接入方式。
Internet 的管理 1.TCP/IP协议:是计算机网络协议中最核心的两个协议。
Internet 的管理 2.IP地址: 是Internet上每台主机和用户终端的识别标识。 IP地址在全球范围内都是唯一的。 IP地址的表示:211.83.48.13 3.域名系统(DNS): 例:lib.lzmc.edu.cn 结构为:主机名.机构名.网络名.最高域名
Internet 的管理 常用网络名: com(商业机构)、edu(教育机构)、 mil(军事部门)、gov(政府部门)、 org(非盈利组织)、net(网络服务商) 最高域名: cn(中国)、uk(英国)、jp(日本) 美国享有国家域名默认权。
Internet 的管理 4.客户机/服务器(client/server)模式 服务器:是指向全球Internet用户提供信息和服务的高性能计算机,包括Web服务器、邮件服务器、文件传输服务器。 客户机:是指连接在服务器上的工作站(网络终端)。客户机通过有关程序(如浏览器等)向服务器发出指令或请求,服务器进行处理后将结果返回。
Internet 提供的主要服务 电子邮件服务( E-mail) 文件传输服务(FTP) 远程登录(Telnet) 电子论坛( Electronic Forum ) 信息查询服务( Archie、Gopher、WAIS,WWW)
Internet 提供的主要服务 1.电子邮件服务( E-mail) 用户名@电子邮件服务器名 如:lyqbs7209@163.com 常用电子邮件软件:Outlook Express, Eudora, Foxmail等,可管理多个邮件帐号,直接收发邮件。(将邮件pop到本地)
Internet 提供的主要服务 2.文件传输服务(File Transfer Protocol,FTP) FTP是Internet上文件传输的各种规程的集合。通过FTP,用户可将本地文件上载给远程主机(upload),更多情况是从远程主机上下载 (download)文件。(包括文本、图像、声音、多媒体、软件或数据文件等)
Internet 提供的主要服务 3.远程登录(Telnet) 随着 www的普及, Telnet已少有使用。
Internet 提供的主要服务 4.电子论坛( Electronic Forum ) 是Internet用户在网上讨论交流的一种形式,又称新闻组(Newsgroop)或专题讨论组(Usenet)。 电子公告版(Bulletin Board System,BBS)与专题讨论组功能相似,但其规模小得多,且BBS上的观点只留在本地服务器上。
Internet 提供的主要服务 5.信息查询(检索)服务 在E-Mail、FTP和Telnet基础上开发的,比较知名的工具有Archie、Gopher、WAIS等,目前大多数INTERNET用户通过WWW浏览和WWW信息检索工具查询和使用网络信息资源。
WWW概述 万维网(World Wide Web,WWW) 又称环球网、全球网,起源于1989年欧洲粒子物理研究中心,采用HTTP(超文本传输协议)在Internet上提供全球范围的多媒体信息服务。 1993年1月,因特网上约有50个WWW服务器在工作,1999年高达300万个。现在WWW有等同于Internet的趋势。
WWW概述 超文本(Hypertext) 包含两个含义: 其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件; 其二是网页文件内部包含链接(link)。
WWW概述 超文本标记语言 (Hyper Text Markup Language,HTML)是制作Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。 HTML编辑器:Frontpage、DreamWeaver、Netscape Composer
WWW概述 统一资源定位器 (Uniform Resource Locator,URL) 用来描述信息资源的类型和在网上的位置,即网址。 http://www.lzmc.edu.cn/zhaosheng/yjs/index.html ftp://lib.lzmc.edu.cn 协议://文件所在服务器名/目录路径和文件名
WWW概述 浏览器(Browser) 是使用WWW资源的客户软件。 常用的浏览器有: 网景公司的Navigator Communicator 微软公司的Internet Explorer(IE)
Web检索工具 是指提供万维网信息查询的计算机系统。 工作原理: 1.信息采集:利用网络自动搜索软件Robot或Spider,以一个URL清单为向导,定期对Internet上的网页进行扫描搜索,记录下网页的有关事项。 2.数据标引:对采集到的网页信息数据, Robot等会自动抽取表达网页主题意义的词作为关键词来构建数据库索引。有的网络检索工具同时采用人工标引。
Web检索工具 3.数据组织:标引后的网页数据形成检索工具数据库中的一条条记录,每条记录对应于一个网站或一个网页。记录内容包括网页标题、摘要或关键词、网址、网站网页与输入关键词的相关程度等 。 4.检索功能:布尔算符检索(AND + 、OR | 、NOT -),截词检索,词组检索 ,自然语言检索、概念检索、分类浏览,检索限定,语种翻译,自动排序等。
Web检索工具的类型 1.搜索引擎(search engine) 2.目录型检索工具(Web directory,catalog) 自动搜索采集网页信息,自动标引,数据量大,关键词检索功能强,查全率高,查准率低。典型:Google 2.目录型检索工具(Web directory,catalog) 以分类目录检索为主,接受网站推荐,人工参与网页信息的筛选标引,查全率低,查准率高。代表:Yahoo!、搜狐 多数检索工具同时具有关键词检索和目录浏览功能。
Web检索工具的类型 3.多元搜索引擎(metasearch engine) Metacrawler、Turbostart等; 天网搜霸:强大的搜索引擎集成工具。 飓风搜索通:整合近百个各类搜索引擎,包含简体中文,繁体中文,软件,音乐,股票,新闻等类别的全方位互联网信息检索工具。
国外著名通用搜索引擎 Yahoo!(http://www.yahoo.com) Google(http://www.google.com) Lycos(http://www.lycos.com) Excite(http://www.excite.com) AltaVista(http://www.altavista.com) Infoseek(http://www.go.com) HotBot(http://hotbot.com)
Yahoo! http://www.yahoo.com Yahoo!的两位创始人大卫·费罗(David Filo) 和杨致远(Jerry Yang),美国斯坦福大学电机工程系的博士生,于1994年4月建立。 Yahoo!(雅虎)是最早最著名的目录型检索工具,在全球共有24个网站,12种语言版本。(参见雅虎中国)
检索途径: 分类浏览:分为14个大类,每个大类下又分若干子类。 专题链接:与Shopping、Yellow Pages、 Maps News、Sports等专题信息链接。 简单检索:直接输入检索词 高级检索
Google http://www.google.com Google 的释义 Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。
关于 Google 两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。 Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要提供 2 亿次查询服务。
Google 特点: 运算符: 空格表示逻辑“与”;减号“—”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。 界面非常简洁,速度极快;检索网页数量达24亿,搜索引擎中排名第一; 支持多达132种语言;包括简体和繁体中文; 具有“手气不错”、“网页快照”、图片搜索、新闻组搜索等功能。 运算符: 空格表示逻辑“与”;减号“—”表示逻辑“非”;“OR”表示逻辑“或”;对短语或句子搜索时必须加英文引号。
中文通用搜索引擎 百度(http://www.baidu.com) 搜狐(http://www.sohu.com) 新浪(http://www.sina.com.cn) 网易(www.163.com)
百度(Baidu.com,Inc) 于1999年底成立于美国硅谷,它的创建者是资深信息检索技术专家、超链分析专利的唯一持有人――百度总裁李彦宏,及其好友――在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。 百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空、西部时空、重庆热线等。
使用搜索引擎注意事项 分类体系的差异 关键词标引 高级搜索中运算符的使用 不同的查询服务: 类目设置和划分不一:如教育大类,新浪分出44个下位类;搜狐有34个;网易只有24个。 类名表述的不同:如新浪用“计算机”;网易用“电脑”。 关键词标引 高级搜索中运算符的使用 空格(AND)、&(AND)、 —(NOT)、|(OR)、( ) “ ”表示一个整体单元。 不同的查询服务: 网站、网页、新闻、软件等 特殊的:图片、多媒体
网络信息资源的获取 Web检索工具(搜索引擎) 网络数据库(文摘数据库、全文数据库) 专业网站 电子期刊、电子图书 虚拟图书馆 学科专业导航库
国内主要数据库资源 维普《中文科技期刊数据库》 http://www.tydata.com 中国知网(中国期刊网)(CNKI) 维普《中文科技期刊数据库》 http://www.tydata.com 中国知网(中国期刊网)(CNKI) http://www.cnki.net 国家科技图书文献中心http://www.nstl.gov.cn 万方数据 http://www.wanfangdata.com.cn
国内医学搜索引擎和门户网站 眼科搜索 三九健康网 迈搏搜索 中国导医网 中国金卫网 37℃医学网 中国医药信息网 http://www.cpi.ac.cn/ 中国中医药信息网http://www.cintcm.ac.cn/ 中国药网http://www.chinapharm.com.cn/
学科专业导航库 CALIS重点学科导航库 (北大、复旦等) 国家科技图书文献中心导航库
国外医学数据库网站 National Institute of Health (美国国立卫生研究院)http://www.nih.gov National Library of Medicine (美国国立医学图书馆)http://www.nlm.nih.gov NCBI(美国国家生物技术信息中心) http://www.ncbi.nlm.nih.gov AAMC(美国医学院协会) http://www.aamc.org
常用医学搜索引擎 Medscape http://www.medscape.com Medical Matrix http://www.medmatrix.org Medwebplus http://www.medwebplus.com BioMedNet http://www.biomednet.com
Medscape(医景) : http://www.medscape.com/ 美国公司Medscape公司1994年研制,1995年6月投入使用,由功能强大的通用搜索引擎AltaVista支持,可检索图像、声频、视频资料,至今共收藏了近20个临床学科25000多篇全文文献,是Web上最大的免费提供临床医学全文文献和继续医学教育资源(CME)的网点。 提供目录浏览和站点检索功能,在Medline、DrugInfo、MEDSCAPE内可进行字段限定检索,同时还可浏览每日医学新闻,免费获取CME各种资源,免费获取“Medpulse”,同时网上查找医学词典和回答用户咨询,提供根据疾病名称、所属学科和内容性质(会议报告、杂志文章的全文或摘要等)的英文按26个字母顺序进行分类检索。
Medical Matrix (医源) http://www.medmatrix.org/Index.asp Medical Matrix 是一种目录型的免费全文智能检索工具,包括4600多个医学网址,1994年由堪萨斯大学创建,现由美国Medical Matrix LLC主持,是目前最重要的医学专业搜索引擎。提供了关键词搜索和分类目录搜索,最适合临床医师使用。 分类目录搜索是它的主要特色,按各种医学信息分为专业(Specialties)、疾病种类(Diseases)、临床实践(Clinical Practice)、文献(Literature)、教育(Education)、健康和职业(Healthcare and Professionals)等8大类。
其它医学搜索引擎: