大学计算机基础 六、计算机网络应用 6.2 信息检索
通过信息检索我们可以做些什么? 访问虚拟图书馆和虚拟博物馆 查检图书馆联机目录 获取电子出版物 获取科研、学习资料(访问各种数据库) 咨询各方面专家 接受远程教育 获取全球最新政治、财经、商业、教育、科技消息 购书、预订机票和车票 查找旅游、度假等资料 上网聊天、玩网络游戏、发电子邮件及贺卡等
6.2 信息检索 信息检索:是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 6.2 信息检索 信息检索:是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 信息检索包含信息储存和信息查找两个过程。 20世纪40年代以前: 检索工具主要是各种检索期刊和检索工具书。 20世纪50年代后: 信息检索经历了三个阶段: 脱机检索 联机检索 光盘检索和网络检索
6.2 信息检索 在网络上进行信息检索,使用网络搜索引擎 搜索Web网站信息,并整理、归类,制作出索引,存于可供查询的大型数据库中。 6.2 信息检索 在网络上进行信息检索,使用网络搜索引擎 搜索引擎 ——是Internet上的一个网站 搜索Web网站信息,并整理、归类,制作出索引,存于可供查询的大型数据库中。 当用户在搜索引擎网站的页面中输入查询关键字时,该网站将给出包含该关键字的所有网址。
目前比较流行的中文搜索引擎有: 谷歌: http://www.google.com.hk/ 百度:http://www.baidu.com/ 搜狗:http://www.sogou.com/ 中国雅虎:http://search.cn.yahoo.com/ 搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。 搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。
搜索引擎使用两种方法自动抓取各网站的信息: (1)定期搜索:每隔一段时间就主动派出“爬虫”程序,对指定IP地址范围的网站进行检索,一旦发现新的网站,就自动提取网站的网页信息和网址并加到数据库中。 (2)由网站的管理员主动向搜索引擎提交网址,搜索引擎在一定时间内对提交的网站定向派出“爬虫”程序,扫描该网站并将有关信息存入数据库。
搜索引擎工作原理 从因特网上抓取网页 建立索引数据库 在索引数据库中对搜索结果进行排序
著名信息检索工具Google Google:是目前世界上最大的搜索引擎,它提供70多种界面语言和35种检索语言,有分类查询和关键词检索两种检索功能。 Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(|)”和“非(-)”算符前必须留一空格。
著名信息检索工具Google 简单检索可直接使用字段限定检索。 site:限定在某个特定的域或站点中进行检索。 命令格式: 检索词 site:域名 示例:要搜索大连大学新闻社的信息。 检索式:新闻社site:dut.edu.cn inurl:限定搜索结果网页的URL必须包含所规定的字符串。 命令格式: inurl:限定的字符串检索词 示例:搜索电子商务软件环境的专题资料。许多中文网站都以“dzsw”作为电子商务专题目录或频道名称。 检索式: inurl:dzsw软件环境 filetype:用来限定命中文件的类型。 命令格式: filetype:文件类型检索词 eg.filetype:ppt信息检索
中国典型的信息检索工具 目前形成规模的综合型中文搜索引擎有: 百度、搜狐、网易、新浪、天网、北极星等。 新浪搜索(http://search.sina.com.cn):采用具有世界先进水平的百度搜索技术。提供“分类检索”和“关键词”查找两种查找方法。 搜狐搜索(http://dir.sohu.com):采用先进的Google检索技术,提供多语言检索。 天网搜索(http://e.pku.edu.cn):支持中英文搜索,只提供关键词查询方式。
百度搜索引擎 百度(http://www.baidu.com): 百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。 百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。 百度的字段限定检索同Google
专用信息资源查询 数字图书馆:中国数字图书馆、书生之家数字图书馆、超星数字图书馆、北大方正的Apabi系统 。 报刊资料:中国学术期刊网、中文科技期刊数据库、中国财经报刊数据库。 会议文献:中国科学院学术会公告、学界动态、IEEE学术会议数据库、万方学术会议文献数据库、中国重要会议论文集全文数据库、国内专业会议资料数据库、OCLC的会议文献数据库、美国科学信息研究所( ISI )会议数据库。
专用信息资源查询 学位论文:中国学术期刊网和万方数据资源系统的学位论文数据库、高校学位论文数据库、PQDD数据库(美国)。 专利文献:中国专利信息网、国家知识产权局、DILAOG系统、世界知识产权组织专利数据库、美国专利商标局专利检索数据库。 标准类:中国标准咨询网、万方数据资源系统标准数据库、国际标准化组织、美国国家标准委员会。
检索论文举例 进入大连理工大学图书馆主页——选择“数据库、电子资源”进入下图所示的页面;
数据库/电子资源
单击 单击“跨库检索”