Download presentation
Presentation is loading. Please wait.
1
第三讲 搜索引擎
3
本讲主要内容 搜索引擎的定义、原理、分类 3.1 Google及其使用技巧 3.2 其它搜索引擎 3.3
4
3.1.1 搜索引擎的定义 搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 搜索引擎常常是用户利用网上资源的第一途径。
5
3.1.2 搜索引擎原理 大多数搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 大多数搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。
6
3.1.3 搜索引擎的分类 按检索机制划分 按检索内容划分 按数据来源划分
7
(1)按检索机制划分 全文搜索引擎 1 检索机制 3 2 元搜索引擎 目录式搜索引擎
8
全文搜索引擎 从互联网上提取的各个网站的信息而建立的数据库 中,检索与用户查询条件匹配的相关记录,然后按一定 的排列顺序将结果返回给用户。
从互联网上提取的各个网站的信息而建立的数据库 中,检索与用户查询条件匹配的相关记录,然后按一定 的排列顺序将结果返回给用户。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是 拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的 数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格 式排列搜索结果,如Lycos引擎。 优点:是查询全面、充分,用户能够对各网站的每篇文章中的每 个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语 检索等高级功能。 缺点:繁多而杂乱的感觉。 代表性的全文搜索引擎是Google、百度。
11
目录式搜索引擎 通过用户浏览层次类型目录来寻找所需信息。 分类一般按主题分类,并辅之以年代、地区等分类。
网站多以此方式组织。例如:新浪>分类目录>计算机与互联网> 硬件>行情报价。 优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希 望了解某一范围内信息,并不严格限于查询关键字的用户。 缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类 型不当时,可能遗漏某些重要的信息源。 代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站
16
元搜索引擎 同时在其他多个引擎上进行搜 索,并将结果返回给用户。 没有自己的数据库,利用一个 统一的界面,查询其他独立的 搜索引擎。
同时在其他多个引擎上进行搜 索,并将结果返回给用户。 没有自己的数据库,利用一个 统一的界面,查询其他独立的 搜索引擎。 优点:快捷,信息覆盖面更加 广泛 缺点:高级检索功能不完善, 检索结果没有经过处理 著名的元搜索引擎有 InfoSpace、Dogpile、 Vivisimo等(元搜索引擎列 表),中文元搜索引擎中具代 表性的有北斗等。 Dogpile界面
17
http://www. china001. com/show_hdr. php
18
无缝聚合Google、百度、必应、搜狗、有道、搜搜和中搜
无缝聚合Google、百度、必应、搜狗、有道、搜搜和中搜
19
搜魅网(someta):集合了百度、google、搜狗、雅虎多家主流搜索引擎的 结果,提供网页、资讯、网址导航等聚合查询。另外,搜魅网突破了元搜索引 擎没有自己的蜘蛛的瓶颈,提供了网站查询的功能。
佐意综合搜索(chinazss):佐意网提供的综合搜索,结合了 Google\Baidu\yahoo\等知名搜索引擎,更细分了不同的搜索类别。 比比猫 (bbmao):综合了百度,谷歌,搜狐,雅虎,搜狗等搜索引擎的搜 索结果,并建立了自动分类,是目前最好的一款产品。 115聚合搜索:一个基于聚类的个性化元搜索引擎,实现搜索定制聚合模块化 ,给用户良好的搜索体验;同时提供个性化网址导航服务,将信息聚合和网址 导航结合在一起,通过新增插件的模块化功能组合,不断加入社会化服务的新 元素,从而灵活方便地满足不同用户的个性需求,是一个全方位网罗的多元化 和个性化的中文元搜索引擎。 觅搜 (MetaSoo):使用Ajax技术的中文元搜索引擎,可搜索谷歌、百度、 雅虎一搜、搜狗、有道等。这是Ajax技术在元搜索引擎中的第一次应用。 抓虾网聚搜 :将百度、Google两家算法各异的搜索巨头的搜索结果,去重, 然后呈现到用户面前。方便用户使用。
21
MetaCrawler 1995年由华盛顿大学推出,1997年被 InfoSpace购买。
支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索 服务。 检索特性非常丰富,包括常规检索、高级检索、定制检索、国 家或地区的资源检索等检索服务模式。 高级检索模式可实现:搜索引擎的选择调用,基于域名、地区 或国家的检索结果过滤,最长检索时间设置,每页可显示的和允 许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序 依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为 定制检索的个性化选项并予以保存。 检索结果中包括一个以1000为最大值的相关度指标。
22
一款理想的元搜索引擎应具备的 特点和功能 含盖较多的搜索资源,可随意选择和调用源搜索引擎;
具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、 软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时 段选择、过滤功能选择等; 强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自 然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功 能(如对不支持“NEAR”算符的搜索引擎,可自动实现由 “NEAR”向“AND”算符的转换等; 详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜 索引擎、结果与用户检索需求的相关度等); 支持多种语言检索。
23
(2)按检索内容划分 通用型 专题型
24
通用型搜索引擎 通用型搜索引擎在采集 标引信息资源时不限制 资源的主题范围和数据 类型,又称为综合型检 索工具。
通用型搜索引擎在采集 标引信息资源时不限制 资源的主题范围和数据 类型,又称为综合型检 索工具。 如:Google、百度、 AltaVista、Excite、 Yahoo等也有这种混合 功能。 右图是Yahoo的检索界 面,既有检索窗口,也 有分类浏览目录。
25
专题型检索工具 专题型检索工具指那些 专门用来检索某一类型 信息和数据的检索工具。
专题型检索工具指那些 专门用来检索某一类型 信息和数据的检索工具。 如查询地图的检索工具 “MapBlast”、查询图 像的检索工具 “WebSEEK”等。 Go2map.com的界面
29
Google挑歌:谷歌前一阵推出的音乐搜索引擎,可以根据节奏、声调、音色的调节来搜索音乐。
Midomi:通过声音来搜索音乐。这是我最喜欢的音乐搜索引擎了,适合于你只记得一两句但是却记不得歌名了,那么你可以到这里哼两句,就能搜索到你的音乐歌曲了,我试了几个,感觉精准度还挺高,对中文支持也不错。还提供了iPhone应用。
30
Musicovery:网站以flash的形式来展现,你可以按照时间来选择不同 时期的音乐,只要调节左上方的时间条即可。同时你可以通过下面的选项选择不同的音乐类型来有选择的享受音乐。
Liveplasma:提供音乐和电影搜索服务的网站,多语言界面(没有中文),数据库来自Amazon,通过输入关键字,你可以查找到歌手、乐队、电影、导演以及演员之间的关联信息。
32
(3)按数据来源划分 独立搜索引擎 元搜索引擎 拥有独立的采集标引机制和独立的数据库
没有自己的数据库,它利用一个统一的界面,查 询其他独立的搜索引擎
33
3.2 Google及其使用技巧 由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明。
约搜索30亿张网页,包括35个国家和地区的语言 的资源。 已占有全球搜索市场的80%。Google 在中国的搜 索市场的市场份额也已突破30%,并且增长速度 迅猛,在中文搜索市场有举足轻重的作用。
34
3.2.1 Google检索步骤 确定检索需求 构建检索策略 点击检索 评估检索结果 点击浏览 保存所需信息
35
3.2.2 Google检索技巧 使用正确的方法 合理利用 “与/或”的搜索:OR 搜索中包括或不包括的词:+、- 搜索近似词:~
搜索近似词:~ 搜索特定词组:“ ” 列出相似页面:类似网页 利用高级检索 使用“更多”功能
36
Google高级检索
37
查找其他类型文件 Google可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。 例如,如果您只想查找 PDF或Flash 文件,而不要一般网页,只需搜索: 关键词 filetype:pdf 关键词 filetype:swf
38
货币转换 要使用我们的内置货币转换器,只需在 Google 搜索框中键入您需要完成的货币转换,并单击“回车”键或 Google Search 按钮即可。 【实例】 3.5 USD =? GBP 10新加坡元等于多少印度卢比 8人民币换成泰国的货币 30 人民币每公升 =? 美元每加仑
40
计算器 Google 为用户提供了一个内置计算器。只需要在搜索字段中输入算式,按一下回车键或者搜索就可以了。这个计算器可以用来做所有简单的计算,一些复杂的科学计算,单位换算,以及提供各种物理常数。 【实例】 5+2*2 2^20 sqrt(-4) 一磅=?克 光速乘以二秒等于多少公里
41
符 号 功 能 示 例 + 加 3+44 - 减 5月13日 * 乘 7*8 / 除以 12月3日 ^ 的…次方 8^2 % 模(除之后的余数) 8%7 选 组合运算X选Y表示在X个单位中选Y个有多少种选法 18选4 开…次方 计算一个数的n次方根 32开5次方 sqrt 平方根 sqrt(9) sin, cos, etc. 三角函数(括号中的数字单位为弧度) tan(45) ln 以 e 为底的对数 ln(17) log 以 10 为底的对数 log(1,000) ! 阶乘 5! 百分之 20%
42
按链接搜索 有一些词后面加上冒号对 Google 具有特殊的含义。其中的一个词是“link:”。查询 link: 显示所有指向该网址的网页。 例如,“link: Google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。 指定网域 有一些词后面加上冒号对 Google 有特殊的含义。 其中的一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:xxxxx.com”。
43
如何辨别网站的性质 .edu 教育学术 .gov 官方政府单位 .net 网络管理或服务机构 .org 财团法人或基金会等非官方的一般机构
.int 国际性组织 .com 代表商业企业团体与组织 .ac.cn 中国科学研究机构
44
天气查询 用 Google 查询中国城市地区的天气和天气预报,只需输入您要查询的城市地区名称和一个关键词(“天气”、“气象”、“tq”、“tianqi”、“tian qi” 等,任选其一)就能在搜索结果页面的最上方看到当日及未来二至三天的天气情况。 当鼠标移动到天气图标上时,还可以显示对应的天气情况细节。
45
金融信息 邮编区号 在搜索框中输入股票和基金的名称或代码, 可查询最新的股票和基金信息。
用Google 查询邮政编码或长途电话区号,您只需输入关键词(“邮编”,“yb” 和“YB” 任选其一;“区号”, “qh” 和“QH” 任选其一)和要查的城市地名或邮政编码或电话区号即可。 Google 会为您提供相关的所有信息,包括所在地的省市名称,邮政编码及长途电话区号。
46
手机号码 用Google 查询手机电话号码归属地,您只需直接输入要查的号码即可(不需要任何关键词)。Google 能自动识别以13开头的11位数字为手机号码而返回相关的网站链接,让您即刻便知道答案。 定义 要查看字词或词组的定义,只需键入“define”,接着键入一个空格,然后键入您需要其定义的词。如果 Google 在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们。 通过包含特殊操作符“define:”,并使该操作符与您需要其定义的字词之间不留空格,还可获得定义的列表。
47
Google更多功能 得心 “In”手:intitle / inurl / intext
人在旅“图”: “学”海无涯: “书”林漫步: 新闻“快讯”: 热门“榜”单: 关注“趋势”:
61
本讲主要内容 3.1 搜索引擎的定义、原理、分类 Google及其使用技巧 3.2 3.3 其它搜索引擎
62
国外搜索引擎 AltaVista AskJeeves Excite MetaCrawler ……
63
AltaVista(www.altavista.com) DEC公司1995年12月推出
64
AskJeeves(
65
Excite(http://excite.com/) 斯坦福大学1993年8月创建
67
MetaCrawler (http://www.MetaCrawler.com/)
69
常用的学术搜索引擎 专为搜索高度相关的科学信息而设计的搜索引擎 Google 学术搜索提供可广泛搜索学术文献的简便方法
提供了一种通过引文链接检索文献的网络学术信息搜索工具 专注于科学搜索引擎与目录,还包括一些科学杂志以及其他的工具等
71
SCIRUS简介 Scirus 由 Elsevier 开发,是目前互联网上最全面、综合性最强的科技文献门户网站之一,Scirus引擎的信息源主要是两部分:网页和期刊。 为科学家们在网络上和专有数据库中快速查找所需的信息打开了一道便捷之门,此外,还可以对网络中所搜索到的结果进行过滤,然后只列出包含有科学信息的成分。 目前 Scirus 可搜索 4.5 亿个与科学相关的网页,信息来源包括同行评审期刊论文、预印本、报告、科学数据、发明专利及有关网页,大多是网上开放获取资源(如电子打印稿件 ArXiv.org 、 RePEc 、 MIT 开放课程资料等),也含部分商业收费资源(如 LexisNexis 、 ScienceDirect 等)。 学科领域以自然科学为主,也有部分社科资源,如经济学、商业、管理、语言文字学、法学、社会与行为科学、心理学、社会学等。
72
SCIRUS的特色 收录年代、排序及收费 过滤非科学方面的信息。
收录同行评审(peer-reviewed)的文章,这在一般搜索引擎中大部份是被忽略掉的。 可以搜索特定作者、期刊、出版年等缩小查询范围。 可同时查询学科相关的会议、摘要、及专利资料。 收录年代、排序及收费 Scirus索引的更新频率与收录年限是每月更新,可检索 年间发表的文献。 Scirus检索结果的排序:缺省情况下,Scirus将检索结果按照相关度进行排序。也可以将检索结果按照日期排序。 用户可免费浏览所有检索到的互联网主页的信息。Scirus提供的期刊资源可以免费查看题录和文摘。但是,获取全文需要预先注册并支付费用。
73
SCIRUS检索方法 “基本检索(Basic Search)”界面和“高级检索(Advanced Search)”界面。
All of the words:检索结果中必须包括输入的每一个检索词,逻辑关系相当于“AND”; Any of the words:检索结果中可包括一个或多个检索词,相当 “OR”; Exact phrase:检索结果与输入短语严格匹配,相当于引号“”的应用。 (2)高级检索:Advanced Search Scirus高级检索支持逻辑检索符:逻辑与、逻辑或、逻辑非
74
国内搜索引擎 百度 必应bing 北大天网 搜狐 新浪 网易 ……
76
2009年5月28日,美国微软公司推出全新搜索引擎Bing,力图借助语义识别技术更好掌握用户搜索意图,提供更符合需求的内容链接,向搜索引擎巨头谷歌公司发起挑战。
78
关于搜索引擎的网站 http://searchenginewatch.com/ http://www.lookoff.com
中文搜索引擎指南 ……
80
音乐 视频 电影 电视 图书 电台 图片
82
总 结 每种搜索引擎都有不同的特点,只有选择合适的搜索工具才能得到最佳的结果。
随着Web查询技术的发展,新的搜索引擎必将不断涌现,已有搜索引擎的功能也会不断改善,在优胜劣汰中进步。
83
Q & A
Similar presentations