信息检索—— 搜索引擎
内容提纲 搜索引擎概述 Baidu发展历程 Baidu网页搜索 Baidu更多网络服务 Google发展历程 Google中国发展历程
搜索引擎概述
定义 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
工作原理 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
分类 语种区分 单语种搜索引擎 多语种搜索引擎 工作方式 全文搜索引擎 目录搜索引擎 元搜索引擎
什么是元搜索引擎 用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。
搜索引擎盈利模式 竞价广告 广告主在购买该项服务后,注册一定数量的关键词,通过出价与推广信息的质量决定关键词的展示排序。 广告出现在搜索结果中按照点击次数收费,如果没有被用户点击,则不收取广告费。
Baidu竞价广告 竞价广告
Google AdSense Google AdSense
Baidu发展历程
大事记 2000年1月1日,公司创始人李彦宏、徐勇从美国硅谷回国,创建了百度公司。 2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务。 2005年8月5日,百度在美国纳斯达克上市。 2008年1月23日,百度日本公司正式运营,百度全面启动国际化战略。 2009年8月,百度提出全新技术概念“框计算” 。 2011年3月,百度市值超腾讯成为中国互联网企业第一。
Baidu网页搜索
检索界面-1 一般检索 一般检索
搜索结果页面 A、搜索结果标题 B、搜索结果摘要 C、百度快照 D相关搜索 点击标题,可以直接打开该结果网页。 通过摘要,你可以判断这个结果是否满足你的需要。 C、百度快照 “快照”是该网页在百度的备份,如果原网页打不开或者打开速度慢,可以查看快照浏览页面内容。 D相关搜索 “相关搜索”是其他和你有相似需求的用户的搜索方式按搜索热门度排序。如果你的搜索结果效果不佳可以参考这些相关搜索。
百度网页搜索高级功能 百度快照 相关搜索 拼音提示 错别字提示 英汉互译词典 计算器和度量衡转换 专业文档搜索 股票 列车时刻表和飞机航班查询 高级搜索语法 高级搜索,地区搜索和个人设置
1. 百度快照 每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容会无法显示。
2、相关搜索 搜索结果不佳,有时候是因为选择的查询词不是很妥当。您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。 下面是“小说”的相关搜索。点击这些词,可以直接获得他们的搜索结果。
3、拼音提示 如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,该怎么办? 百度拼音提示能帮您解决问题。只要您输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。 拼音提示显示在搜索结果上方。 如,输入“zhurongji”,提示如下:您要找的是不是: 朱鎔基
4、错别字提示 由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。别担心,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。 如,输入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
5、英汉互译词典 百度还有线上英汉互译词典?没错。 随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提示。如,搜索“apple”,点击结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语! 您也可以通过 百度词典搜索 界面(http://dict.baidu.com) ,直接使用英汉互译功能。
6、计算器和度量衡转换 1、计算四则运算 35*82-(32+11) 2、公式计算 log((sin(5))^2)-3+pi =0.1051612789959 3、单位换算 1海里=?公里
7、专业文档搜索 很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行的全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。例如,查找张五常关于交易费用方面的经济学论文。“交易费用 张五常 filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。 您也可以通过 百度文档搜索 界面(http://file.baidu.com) ,直接使用专业文档搜索功能。
8、股票、列车时刻表和飞机航班查询 在百度搜索框中输入股票代码、列车车次或者飞机航班号,您就能直接获得相关信息。例如,输入深发展的股票代码“000001”,搜索结果上方,显示深发展的股票实时行情。 也可以在百度常用搜索(http://www.baidu.com/life/)中,进行上述查询。
9、高级搜索语法 把搜索范围限定在网页标题中——intitle 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。 例如,找林青霞的写真,就可以这样查询:写真 intitle:林青霞 注意,intitle:和后面的关键词之间,不要有空格。
把搜索范围限定在特定站点中——site 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。 例如,天空网下载软件不错,就可以这样查询:msn site:skycn.com 注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。
把搜索范围限定在url链接中——inurl 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。 例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。
精确匹配——双引号和书名号 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。 例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。 书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。
要求搜索结果中不含特定查询词“-” 如果您发现搜索结果中,有某一类网页是您不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。 例如,搜 神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣 -电视剧 注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。
10、天气查询 使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。 在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。例如,搜索“福州天气”,就可以在搜索结果上面看到福州今天的天气情况。 百度支持全国多达400多个城市和近百个国外著名城市的天气查询。
赟 搜索引擎应用实例 复制“赟”粘贴到Word。选中,“格式”——“中文版式”——“拼音指南”,得出读音是yun 不认识这个字。 百度一下: 关键词:文 武 贝 网上已经有人帮你了 复制“赟”粘贴到Word。选中,“格式”——“中文版式”——“拼音指南”,得出读音是yun
Baidu更多服务
更多服务导航 更多
更多服务导航
更多服务-1 图片搜索
更多服务-2 Mp3 搜索
更多服务-3 百度贴吧
更多服务-4 百度百科
更多服务-4 百度百科
更多服务-5 总有一个人知道你问题的答案! 百度知道
更多服务-5 百度知道
更多服务-6 百度文库
更多服务-6 百度文库
更多服务-7 百度地图
更多服务-7 百度地图
更多服务-7 百度地图
更多服务……
Google发展历程
Google于1998年9月7日以私有股份公司的形式创立,总部位于加利福尼亚山景城,创始人是毕业于斯坦福大学的 Larry Page 和 Sergey Brin 。
2000年5月:雅虎选择Google作为默认的搜索结果供应商。
2004年8月19日,google纳斯达克上市,当日募集资金16.7亿美元,市值达270亿美元。
2012年3月15日,每股615.99美元、市值2002.81亿美元。 苹果公司------------市值为5497.07亿美元 微软公司------------市值为2749.70亿美元 IBM公司-------------市值为2372.01亿美元 沃尔玛公司----------市值为2091.81亿美元 雅虎公司------------市值为184.72亿美元
Google中国发展历程
2000年9月12日Google 启用中文搜寻服务
2005年7月,Google宣布,前微软全球副总裁李开复已正式加盟Google
2006年4月12日,Google发布其全球中文名称“谷歌”
2009年9月,谷歌大中华区总裁李开复宣布离职
2010年3月,Google.cn退出中国,网站转向www.google.com.hk/
Google网页搜索服务
搜索的网页:超万亿 图片:100 亿+ Google 界面的可用语言:100种 + Google 搜索结果所采用的语言:50 国际域名:100 个+ 员工:全球 30000+
Google的检索规则 And规则: 在Google的检索规则中,最基本的一条是默认And规则,即当你输入多个检索词之后,Google默认为要检索所有的包含所有检索词的网页,它们之间为And连接。
Google的检索规则 排除常用词规则: 在Google的检索规则中,有些常用词如 “的”、“the”或者“of”等这些词是不被当作检索词的,而被忽略掉
Google的检索规则 不区分大小写规则:
Google的检索规则 排除标点符号规则: Google并不认为标点符号具有与文字一样的重要地位,因此Google会忽略检索之间绝大多数的标点符号。但是对于单引号和连字符而言,它们是不被省略的。
Google的检索规则 检索词的词序和邻近规则:
Google的检索运算符 双引号“” 双引号界定多个检索词,可以查到各个单词按相同顺序在一起出现的网页。
Google的检索运算符 通配符*: 在检索时,如果只知道某字句的一部分,可以通过通配符来进行检索。在Google中,使用星号作为通配符运算符,表示匹配用它代表的任何词。
Google的检索运算符 “OR”、“+”、“-”、“~”。 在检索式中运算符OR必须以大写的形式出现,否则会把它看成是普通的检索词。OR运算符告诉Google查找包含其中任何一个词的网页。运算符“+”表示包含运算符后面的词。运算符“-”表示不包含该运算符后面的词。运算符“~” 让Google检索该词及其同义词。
Google的检索运算符
Google的检索运算符
Google的检索运算符
Google的语法结构 使用Google所提供的特殊的语法结构,能够帮助用户缩小检索范围,更有效地找到所需要的内容。在一般情况下,Google将整个网页进行收录和索引,通过专门的语法结构,可以让用户搜索网页的某些特定部分或者特定信息。
Google的语法结构 Intitle: 将搜索范围限制在网页的标题内。即检索词仅匹配(在网页标题中)字词出现在检索结果的网页的链接内和打开网页后浏览器的标题栏内。
Google的语法结构 Intext: 只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等。
Google的语法结构 Inanchor: 在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检索。
Google的语法结构 Site: 将检索局限在特定网站或者网域内,即将搜索限制在某个特定站点或者顶级域名内。
Google的语法结构 Inurl: 将搜索结果限制在URL或者网站页面上,他可以查询网站的子目录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件。
Google的语法结构 Link: 检索所有链接到某个特定URL的页面列表。例如,搜索所有链向新浪的链接,其结果如下:
Google的语法结构 Filetype: 检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻找特定格式的内容的时候,这项语法是必不可少的。例如,仅搜索关于经济的pdf文件,结果如下:
Google的语法结构 Daterange: Related: 查找在一定的日期或者一定的日期范围内,Google索引的网页(该语法只关注被Google收录的时间,而不关注网页创建的时间) Related: 检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似功能的网页的时候,非常有帮助。
Google的语法结构 Info: 检索有关特定网页的信息,获得关于该URL更多信息的页面列表,包括指向该网页的网页快照、类似网页、链接到该URL的所有网页的列表、该URL相关的页面列表以及含有该URL的页面。例如,搜索关于新浪的信息,其结果如下:
和上述的字词位置相配合使用,同时可以选择特定网域进行检索 AND 双引号 OR 减号- 和上述的字词位置相配合使用,同时可以选择特定网域进行检索 “intitle”、“intext”、“inURL” “inancher” filetype daterange related link
检索界面 一般检索、高级搜索 语种切换 高级搜索 一般检索
检索界面 高级搜索选项
检索界面 搜索小技巧(1)
检索界面 搜索小技巧(2)
检索界面-7 搜索小技巧(3)
Google更多服务
更多服务导航 更多
更多服务-1 图片搜索
更多服务-2 地图搜索
更多服务-2 地图搜索-切换到卫星地图状态
更多服务-3 音乐搜索
更多服务-3 音乐搜索
更多服务-4 学术搜索
更多服务-4 学术搜索
更多服务-5 翻译服务
更多服务-5 翻译服务
更多服务-6 邮箱服务
更多服务-7 文档在线创建服务
更多服务-8 浏览器服务
更多服务……
怎样成为搜索高手
选择适当的查询词 搜索技巧,最基本同时也是最有效的,就是选择合适的查询词。选择查询词是一种经验积累,在一定程度上也有章可循: 1、表述准确 百度会严格按照您提交的查询词去搜索,因此查询词表述准确是获得良好搜索结果的必要前提。 一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。例如,要查找2004年国内十大新闻,查询词可以是“2009年国内十大新闻”;但如果把查询词换成“2009年国内十大事件”,搜索结果就没有能满足需求的了。 另一类典型的表述不准确,是查询词中包含错别字。不过好在,百度对于用户常见的错别字输入,有纠错提示。如,输入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
2、查询词的主题关联与简练 3、根据网页特征选择查询词 目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 例如:某三年级小学生,想查一些关于时间的名人 名言,他的查询词是“小学三年级关于时间的名人名言”。 3、根据网页特征选择查询词 很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。等等。 经常的搜索,并且总结各类网页的特征现象,并应用查询词的选择中,就会使得搜索变得准确而高效。
4、找问题解决办法 我们在工作和生活中,会遇到各种各样的疑难问题,比如电脑中毒了,被开水烫伤了等等。很多问题其实都可以在网上找到解决办法。因为某类问题发生的几率是稳定的,而网络用户有好几千万,于是几千万人中遇到同样问题的人就会很多,其中一部分人会把问题贴在网络上求助,而另一部分人,可能就会把问题解决办法发布在网络上。有了搜索引擎,我们就可以把这些信息找出来。 找这类信息,核心问题是如何构建查询关键词。一个基本原则是,在构建关键词时,我们尽量不要用自然语言(所谓自然语言,就是我们平时说话的语言和口气),而要从自然语言中提炼关键词。这个提炼过程并不容易,但是我们可以用一种将心比心的方式思考:如果我知道问题的解决办法,我会怎样对此作出回答。也就是说,猜测信息的表达方式,然后根据这种表达方式,取其中的特征关键词,从而达到搜索目的。