搜索引擎 佛山科学技术学院信息中心 计算机教学部.

Slides:



Advertisements
Similar presentations
食品安全 行政院長 : 江宜樺. 目錄 1. 什麼油能吃? 2. 椰子油 3. 牛油事件 4. 豬油事件篇 5. 解決問題 6. 心得.
Advertisements

不用懂 App 語言,創意輕鬆變成 App! 簡報概念做 App ,行動學習好夥伴 App 製作與教學最佳工具軟體 ! App Book 創作精靈 多媒體互動 App 製作工具 免平台轉換無數量限制.
第五章 地方文化特色与旅游 本资源来自初中学科网(
第五章 计算机检索 5.1 概述 网络检索工具—搜索引擎 综合性搜索引擎 专业性搜索引擎
医德医风建设培训资料 梅州市中医医院.
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
童年趣事
第10章 信息搜索 本 章 内 容 简 介 10.1 通过浏览器搜索信息 10.2 专用搜索引擎 10.3 专用搜索引擎的使用
运用现代教育技术优化小组合作学习 促进我校教育现代化发展
让学生走进诗情画意中 《乡愁》说课设计 本资源来自初中学科网(
關西古都興起與其環境之關係 組員 - 01王俊硯 11徐尚毅 18張庭瑋 京都 大阪.
网络检索工具 因特网基础知识 网络检索工具基础 搜索引擎实例 网络免费学术或专业信息资源.
信息内容安全技术 网络数据主动获取技术 1.
第八章 大学生创业财务专题 熊凌云
陽明山國小 圖書館利用教育.
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
硕博士学位论文获取及网络信息检索技巧概述
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
受過蒙特梭利啟蒙教育而成為成功人物的國際名人
万青翠 王少博 饶平 高月淑 陈佳佳 雷谦 李萍 夏海渊 杨勇 查丽 杨静
2014年基金 资助政策的调整 1.
信息获取的一般过程 因特网信息的查找 文件的下载 网络数据库的信息检索
解决互联网上大量且无序信息的最佳途径是利用搜索引擎(search engine)
广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹
第八章 了解法律制度 自觉遵守法律.
主讲 冷清波 城乡规划管理与法规 主讲 冷清波
104學年度大學 繁星推薦、個人申請、 四技申請入學 校內作業 暨「書面審查電子化作業」 說明會 註冊組
Google成长历史.
搜索引擎优化培训 及交流 武汉市劲捷电子信息有限公司 祁劲松 2007年9月1日
搜索引擎使用技巧.
学习目的:了解什么是搜素引擎; 会使用搜索引擎。
個人資料保護法簡介 報告人: 花蓮地檢署主任檢察官 許建榮.
日本体贴入微的服务业.
因特网信息的查找 学习目标 了解搜索引擎的不同分类 利用搜索引擎有效地获取信息.
同学们渴望读书,是否更渴望读到一本自己喜欢的书? 同学们喜欢读书,是否更喜欢读到一部引领我们健康成长的优秀图书? ……
二○一五年度 上海市科学技术奖推荐工作要求 上海市科学技术奖励中心
纸船 泰戈尔 本资源来自初中学科网(
Google、百度等常用搜索引擎的介绍 黄 琛.
初中信息技术 第十章 功能强大的因特网 收发电子邮件.
2.2 幼儿教师实用信息技术 浙师大杭幼师学院 宁小红
第三讲 搜索引擎.
非常好色軟體應用研習 數立科技推廣組 2009/02/17.
品牌介紹 四 視覺傳達 一B 4000W007李依軒 4000W006許奕柔.
科技管理概論作業繳交注意事項 授課教師:林俊裕 空中大學管理與資訊學系 2010年9月
97學年度嘉義市教師資訊應用評鑑研習(南興國中)
项目一 网络信息搜索  项目实施背景 一 完成项目所要达到的目标 二 完成项目所需要的条件 三.
網路搜尋技巧 講師:郭人豪.
第七章 信息检索与利用基础 信息检索与利用基础.
电子商务 (10) 1.
“番茄太阳”. “番茄太阳” 那年,我来到了这座城市, 临时租住在一栋灰色的旧楼房里。生活很艰难, 心情灰暗无比。
网页设计与制作 Dreamweaver CS6 标准教程
Google Speaker: 呂瑞麟 國立中興大學資管系教授
北極熊 華德學校 田根繩.
106年公幼改善教學環境設備補助計畫案撰寫技巧
中小企业如何做好搜索引擎营销 ——程序员如何做好SEO 臧承云 2010年11月28日.
台灣博碩士論文知識加值系統 萬能科技大學博碩士論文系統
知識管理 & 知識管理的演進 資訊管理 四年德班 姓名:周玉敏 學號:
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
W3C标准网页制作 主讲教师:张 涛.
14.1 網頁發表與寄存 使用檔案傳輸協定程序發表網頁 微調 HTML 的網頁.
Chapter8 搜尋引擎之使用 網路應用入門(一) Chapter8 搜尋引擎之使用
企業個案研究作業繳交注意事項 授課教師:林俊裕 空中大學管理與資訊學系 2010年9月
綠色食品的銷售前境 此專題習作乃是我組嘔心瀝血的作品 , 保證史無前例 . 如在任何地方見過此雷同習題 . 請認定他是抄我們的!! 因為呢個電腦部分係全權由全組最精於電腦個個負責! 絕無可能流出市面!! 想知我個組有邊個!? 睇落去就知!
教學輔導教師 認證資料繳交說明 認證申請期間:108年4月10日至108年6月30日 請教師自行確認符合各項取證資格再行送件.
閱讀調查- 書本不敵網路魅力 102王婉汝、莊雅鈞.
服務教育組 歡迎您.
北师大版 二年级下册 第三单元 生活中的大数 拓展 问题 探究 练习
線上評鑑系統操作手冊 1.安裝google chrome 2.評鑑系統申請及操作 不怎麼帥的帥哥製作.
遮罩动画的概念 (1)什么是遮罩 “遮罩”,顾名思义就是遮挡住下面的对象。 “遮罩动画”是通过“遮罩层”来达到有选择地显示位于其下方的“被遮罩层”中的内容的目地,在一个遮罩动画中,“遮罩层”只有一个,“被遮罩层”可以有任意个。 在分析数据时,您经常会问及一些问题,如: 过去两年的招生情况反映出哪些倾向?有哪些异常情况?
機械設計與製作專題 國立中興大學機械工程學系 盧銘詮
Presentation transcript:

搜索引擎 佛山科学技术学院信息中心 计算机教学部

搜索引擎的应用现状 从用户使用的角度,国外的调查发现: 网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目; 只有18%的用户表示总能在网上搜索到需要的信息。68%的用户说他们对搜索引擎很失望; 平均每个搜搜者在12分钟的徒劳搜索后就感到恼火和受挫。 46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎。

国外的应用状况 那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上; 人机界面高手nielsen(google的设计者)研究表明: 略超过1/2的互联网用户属于search-dominant, 约1/5用户属于 link-dominant, 其它用户的搜索倾向属于混合行为型。 search- dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息。 相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮。

国内的应用状况 国内的调查发现: cnnic2004年1月的调查: 61.6%的中国互联网用户经常使用搜索引擎(仅次于E-mail)。 83.4%的中国互联网用户得知新网站的主要途径是搜索引擎。 赛迪咨询的搜索引擎调查:截止2000年8月,92.9%的网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务。 新浪搜索的统计表明:第1条搜索结果获得的点击量,是第2页第1条的150倍。 百度公司:百度2001年中国互联网用户搜索热点统计

值得推荐的几个中文搜索引擎 全文搜索 衡量搜索引擎的指标: Google: http://www.google.com (需要出国访问权限) 查全率 查准率 速度 哪个重要? Google: http://www.google.com (需要出国访问权限) 新浪使用了它的全文搜索引擎服务 说明:这是2004年4月的情形,各大门户网站使用的搜索引擎服务经常会变化,留意Powered by… 百度: http://www.baidu.com 21CN使用了它的全文搜索引擎服务 中国搜索(原来的慧聪搜索)http://www.zhongsou.com 网易、搜狐、263使用了它的搜索引擎。 北大天网:http://e.pku.edu.cn 大量教育网内的资源,提供FTP搜索 几大门户网站也有自己的搜索引擎,有时也能发挥作用。

推荐的搜索引擎 网站分类目录搜索 新浪图片搜索: pic.sina.com.cn 找地图 新浪:其网站搜索最好 搜狐:网站的分类目录整理最好,最适合于浏览 网易:开放式目录,有许多网上高手加盟 中文Yahoo 另类:网络实名http://www.3721.com 新浪图片搜索: pic.sina.com.cn 新视科技:www.VisionNext.com.cn,提供多媒体搜索 找地图 城市通:www.chinaquest.com 图行天下: www.go2map.com.cn

使用Google进行搜索 Google简介 Google是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。1998年至今,Google已经获得30多项业界大奖。2004.8,Google在美国NASDAQ上市。 Google支持多达132种语言,包括简体中文和繁体中文; Google网站只提供搜索引擎功能,没有花里胡哨的累赘; Google速度极快,据说有10000多台服务器,200多条T3级宽带; Google的专利网页级别技术PageRank能够提供高命中率的搜索结果; Google智能化的“手气不错”功能,提供可能最符合要求的网站; Google的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。

文本搜索 文本搜索 目前Google已经收集索引了40多亿张网页 使用单个关键词进行搜索 使用两个及两个以上关键词进行搜索 理解什么是“关键词”,跟普通意义上的关键词不同。 想象目标网页上应该有的若干个词。 网页的排名问题 使用两个及两个以上关键词进行搜索 直接输入多个关键词,关键词之间用空格,这样就表示“AND”关系; 用减号“-”表示“非”,用于表示要求搜索结果不包含某些特定信息; Google的帮助网页上说,不支持OR关系,实际上是支持得不好; 使用一句话进行搜索 加上双引号。这在查找名言警句或专有名词时显得格外有用。 Google对网络上常见得英文单词及一些标点符号作忽略处理

图象搜索 目前Google可搜索8.8亿张图片,自称为“因特网上最好用的图像搜索工具” 用法: Images.google.com或点击Google主页上的“图象搜索”链接。 目前的图象搜索主要是基于文件名的搜索,不是基于图象内容的。 用法: 关键词的输入方法同文字搜索,不过搜索图象一般不会用太长、太复杂的关键词。 图象搜索中,使用英文作关键词可以搜到许多准确的结果,使用中文,效果较差,但有时Google会自动转换为英文或中文的拼音去搜索(有时欠稳定,其他内容的搜索也有此现象)。 可以指定图片文件的类型:JPG或GIF 如 panda filetype:jpg

Words Spring : Summer Autumn Winter Cymbidium兰花 peachblossom(桃花), clubs(梅花), plum blossom(梅花), peony(牡丹), rhododendron(杜鹃花) Summer Sunflower, water lily(荷花),lily, Hindu Lotus  Autumn Chrysanthemum(菊花), sweet-scented osmanthus(桂花) Winter Coniferae(松柏), calyx canthus(腊梅) Cymbidium兰花 春兰(C. goeringii ), 蕙兰(C. faberi):又称夏兰

搜索特殊格式的文件 目前可搜索的文件格式: 方法: DOC、PPT、XLS、RTF、PS、TXT、Lotus文件; PDF格式 最精彩的,可搜索Flash文件: SWF文件 方法: 关键词 filetype:*** 搜索包含关键词的文档(但又不尽然)。搜索到后,可点击打开,也可右键快捷菜单用“另存为”。对于Office文档,还可以用HTML方式打开,以避免病毒的袭击。

其他特殊的搜索 搜索的关键词包含在URL链接中 搜索的关键词包含在网页标题中 搜索指定的网站范围 搜索有多少链接到某个地址的网页 Inurl:mp3 yesterday once more 可用于搜索MIDI、MP3等文件 搜索的关键词包含在网页标题中 Intitle:Foshan University 搜索指定的网站范围 在图象搜索中,用:Panda site:edu.cn 搜索有多少链接到某个地址的网页 Link:fosu.edu.cn

Google的高级搜索 Google的高级搜索可实现前面所说的各种特殊的搜索,免除用户记忆语法结构。

天网的FTP搜索 地址:http://bingle.pku.edu.cn 简单搜索 按类别搜索文件 使用快捷方式(已经做好的分类) 缺点:死链接太多,许多是学生的服务器,运行不稳定 简单搜索 输入要查询的文件名, 可以包含“*”号(通配所有字符)、“?”号(通配一个字符)、空格(表示几个查询的并)。 按类别搜索文件 点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。 使用快捷方式(已经做好的分类) 天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接点击快捷方式下所要的内容即可。

天网FTP FTP复杂搜索: 从FTP检索页面里点击“FTP复杂选项”进入“FTP复杂搜索”页面。在复杂搜索页面里,如果没有填写或者没有选择,表示使用缺省值。 文件大小过滤: 文件日期过滤: 页面显示个数: 文件类型: 限定搜索的站点范围 结果显示: 每个结果前的图标是该文件的文件类型图片, 表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”或者 表示搜索引擎系统未定义的文件类型; 图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小; 文件名下方是该文件所在的目录,点击可以在新的窗口里打开该目录。

关于软件的搜索 软件下载网站主要有三类: 大型软件下载网站 软件主页 个人主页下载 主要提供普通的免费和共享软件。如:www.skycn.com 软件主页 一些最新版本的共享软件以及软件的补丁,或者软件公司推出的免费软件。如:Microsfot、Adobe、Lotus等公司的站点 个人主页下载 可以找到正式网站找不到的内容。 在教育网内,许多情况下可以用天网的FTP搜索。 如果用搜索引擎,则选择关键词很重要。通常可用以下关键词: 软件名 下载 版本 cdkey 软件大小

使用网络实名 登陆www.3721.com, 为自己的电脑开启网络实名功能。 “3721网络实名”是新一代的网络访问技术,它具有十大功能,其中智能推测、拼音使用等功能可以帮助我们搜索那些名称不确切的网址。 访问新浪,只要在地址栏打入“新浪”或“xinlang”即可 例如:在浏览器地址栏中输入上市公司股票代码,就可以获取实时行情

为什么搜索引擎搜不到? 有些内容,网上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。 这样的内容,主要有3类: 1、网上有,但是搜索引擎库里没有 spider未能正确处理的网页性质及文件类型 (如某些动态网页及frame、数据库) 没有指向链接的孤岛网页 spider访问时因为某些原因正好是死链接 被认为是劣质网页而不抓 因为/色情/反动/spam/等问题而不抓的非法网页 需要输入用户名、密码方可打开的网页 网站用robots协议拒绝搜索引擎抓取的网页 搜索引擎还未来得及抓取的新网页

为什么搜不到?---之二 2、搜索引擎库里有,但是未能正确索引网页中信息 3、搜索引擎正确索引了网页中信息,但和你用的关键词不同 分词引起误差 图型中的文字信息你看得懂但搜索引擎看不懂 停用词等搜索引擎故意不索引的信息 搜索引擎对某些网页有选择的索引,未索引全部网页信息 3、搜索引擎正确索引了网页中信息,但和你用的关键词不同 你用的搜索关键词中含有错别字 网页作者用了错别字 没有错别字,但网页作者用的词汇和你的关键词不同,毕竟,文字的特性,允许有n种方式表达同一种信息 简体繁体不同编码

用户自己的错误 初学者搜索时容易犯的6个低级错误和解决方法 常见错误1:错别字 常见错误2:关健词太常见 常见错误3:多义词 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。 常见错误2:关健词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。 常见错误3:多义词 要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。

用户自己的错误 常见错误4:不会输关键词,想要什么输什么 常见错误5:在错误的地方搜索 常见错误6:停用词 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词” 常见错误5:在错误的地方搜索 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。 常见错误6:停用词 停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的网页库里碰到这些词时不会搜

优秀的电子信息资源 查找论文等,就不需要使用普通的搜索引擎了。 中国期刊网(CNKI):佛大镜像202.192.172.22 万方数据:http://www.wanfangdata.com.cn/ 各个专业都有自己的专业信息资源 如中文的新闻类: 中新社 www.chinanews.com.cn 新华社www.xinhua.net 外交部各国资料:www.fmprc.gov.cn

如何才能有效地搜索? 理解搜索引擎的原理和基本的使用技术 勤奋:大量实践,仔细体会每个搜索引擎的特色和功能。搜索时的坚持不懈。 对于中文,要理解“分词”。 勤奋:大量实践,仔细体会每个搜索引擎的特色和功能。搜索时的坚持不懈。 积累:平时多注意积累优秀的专业网站和数据库 学问:要博学多闻 天资:主要是想象力、判断力

搜索引擎的分类及原理 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。 

搜索引擎分类 2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。  

分类 3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。

主要技术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。

索引器 2.索引器 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分

检索器和用户接口 3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。   

愿大家享受搜索! ---但要写好搜索日记,呵呵…