信息检索与利用教程 沈艳红 江南大学图书馆
第四章 Web信息检索 4.1 Web信息搜索概述 4.2 网站目录及举要 4.3 搜索引擎及举要 4.4 Web学术信息搜索工具举要
4.1 Web信息搜索概述 4.1.1 Internet 与 Web 4.1.2 Web信息搜索工具的发展 基于超文本/超媒体的信息浏览 基于目录的信息查询 基于搜索引擎的信息检索
4.1 Web信息搜索概述 4.1.4 Web信息搜索的技巧 选择合适的搜索工具, 使用多个搜索工具进行查询。 抽取适当的关键词。 正确使用布尔逻辑和其他操作符号。 尽量多地给出查询项。 使用限制“域”功能。
4.1 Web信息搜索概述 4.1.5 网络信息检索的发展趋势 智能化 可视化 多样化 个性化
4.2 网站目录及举要 4.2.1 网络目录组织的信息资源的特点 树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性。 分类不够细。 4.2.1 网络目录组织的信息资源的特点 树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性。 分类不够细。 维护工作量大,信息量相对较少,信息更新不及时。
4.2 网站目录及举要 4.2.2 网络目录举要 雅虎中国(http://cn.yahoo.com) 4.2.2 网络目录举要 雅虎中国(http://cn.yahoo.com) 雅虎中国既支持目录检索,也支持词语检索。它对网站信息按主题建立分类索引,按字母顺序列出大类,大类下设二级类目,各子类下有大量相关网站信息。这些类目是人工建立的,标引比较准确,因此查准率较高。
4.2 网站目录及举要 4.2.2 网络目录举要 雅虎中国(http://cn.yahoo.com)
4.3 搜索引擎及举要 4.3.1 搜索引擎的工作原理 搜索引擎构成 搜索引擎的不足 搜索器 索引器 检索器 准确性差 4.3.1 搜索引擎的工作原理 搜索引擎构成 搜索器 索引器 检索器 搜索引擎的不足 准确性差 各种搜索引擎使用的检索符号、格式等不统一
4.3 搜索引擎及举要 4.3.2 Google Google是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。1998年,两位斯坦福大学的博士生Larry Page和Sergey Brin创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。 Google开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对20多亿网页进行整理,可为世界各地的用户提供适合需要的搜索结果,而且搜索时间通常不到半秒。现在,Google每天提供1.5亿次查询服务。
4.3 搜索引擎及举要 4.3.2 Google Google并非只使用关键词或代理搜索技术,它将自身建立在高级的PageRank™(网页级别)技术基础之上,这项技术可确保始终将最重要的搜索结果首先呈现给用户。 网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。实质上,当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。 Google复杂的自动搜索方法可以避免任何人为感情因素。与其他搜索引擎不同,Google的结构设计即确保了它绝对诚实公正,任何人都无法用钱换取较高的排名。Google可以诚实、客观并且方便地帮助用户在网上找到有价值的信息。
4.3 搜索引擎及举要 4.3.2 Google 基本检索:(布尔检索功能) 逻辑“与”:检索框中的两个关键词之间用空格隔开则默认为是“AND”(“与”运算)连接。 逻辑“非”:用“—”(减号)表示,同时要求在减号前保留一个空格。 逻辑“或”:用“OR”表示。 双引号、连字号、斜线、问号、等号、省略号都可以作为短语的连接符号查找名言或专有名词。 指定网域:利用site:xxxx.com可以在某个特定的网站或域中进行搜索。 指定文件类型:filetype:文件类型,可以在一类文件中进行搜索,比如,filetype:pdf, filetype:ppt等。
4.3 搜索引擎及举要 4.3.2 Google 逻辑与功能
4.3 搜索引擎及举要 4.3.2 Google 逻辑或功能
4.3 搜索引擎及举要 4.3.2 Google 逻辑非功能
4.3 搜索引擎及举要 4.3.2 Google 词组检索
4.3 搜索引擎及举要 4.3.2 Google 指定网域
4.3 搜索引擎及举要 4.3.2 Google 指定文件类型
4.3 搜索引擎及举要 4.3.2 Google 其它检索语法 搜索的关键词包含在URL链接中:inurl: 搜索的关键词包含在网页标题中:intitle: 搜索的关键词包含在网页的“锚”中:inanchor: 或allinanchor: 搜索所有链接到某个URL的网页:link:
4.3 搜索引擎及举要 4.3.2 Google 高级检索功能 可以排除某个特定站点的网页(限定网域) 可以对检索结果页面的语言类型进行限制(限定语种) 可以限定检索结果的时间范围(更新日期) 可以限定关键词出现的位置(字词位置) 可以检索链向某一个网页的所有页面(键连功能) 可以检索与某一个网页相关的所有网页(相似网页检索)
4.3 搜索引擎及举要 4.3.2 Google 高级检索
4.3 搜索引擎及举要 4.3.2 Google 高级检索检索结果
4.3 搜索引擎及举要 4.3.2 Google 学术搜索
4.3 搜索引擎及举要 4.3.3 百度 2000年1月1日,公司创始人李彦宏、徐勇从美国硅谷回国创建百度。目前,百度是全球最大的中文搜索引擎。 百度每天响应来自138个国家超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过百亿的中文网页数据库。 百度一直致力于倾听、挖掘与满足中国网民的需求,秉承“用户体验至上”的理念,除网页搜索外,还提供MP3、图片、视频、地图等多样化的搜索服务,率先创造了以贴吧、知道、百科、空间为代表的搜索社区,将无数网民头脑中的智慧融入了搜索。“百度一下”已经成为了人们进行搜索的新动词。
4.3 搜索引擎及举要 4.3.3百度
4.3 搜索引擎及举要 4.3.4 Scirus Scirus是目前互联网上最全面、综合性最强的科技文献门户网站之一,由Elsevier科学出版社开发。 Scirus覆盖的内容:目前Scirus已将90,000,000个网页编入索引中。除了此之外,它还包括12,800,000条MEDLINE文摘;1,600,000篇ScienceDirect全文;900,000项USPTO的专利;657,000篇Beilstein文摘;248,000篇IDEAL全文;10,310篇NASA技术报告;197,000篇来源于E-Print ArXiv的电子文献;1,410篇来源于CogPrints的电子文献;565种来自Mathematics Preprint Server的预印本;820篇来源于BioMed Central的全文;565条来源于Neuroscion的新闻;465种来自Chemistry Preprint Server的预印本。 Scirus覆盖的学科范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。
4.3 搜索引擎及举要 4.3.4 Scirus