项目一 网络信息搜索 项目实施背景 一 完成项目所要达到的目标 二 完成项目所需要的条件 三
一、项目实施背景 1、营销进入网络时代 2、信息成为竞争焦点
二、完成项目所要达到的目标 能力目标: 知识目标: 能够将搜索范围限定在专业文档或网页标题、特定站点 能灵活利用不同类型的搜索引擎搜集网络资讯 能合理利用搜索引擎在指定站点内搜索 能利用搜索引擎、期刊门户网站搜索学术文档 能利用第三方B2B平台搜索商务信息 能利用搜索引擎等工具开展网络市场调研 知识目标: 理解网络信息资源特点 掌握网络信息资源的主要种类 掌握搜索引擎的主要种类 理解搜索引擎的工作原理
三、完成项目所需要的条件 1、一间多媒体教室、一个上网机房。 2、准备10个左右的中小型企业(生产、贸易、服务型企业各3家以上)的基本资料各一套。 3、注册3家以上的B2B网站,并拥有一个以上的付费会员帐号和密码。
四、任务模块 任务1:网络日常信息的搜索 任务2:网络贸易 信息的搜集
任务1:网络日常信息的搜索 【任务描述】 小李是电子商务专业大二学生,最近专业老师布置任务,要求大家利用互联网对自己所在省市的中小型企业电子商务应用现状进行调研,为即将到来的暑假社会实践做好前期准备。
【任务分析】 一、搜索调研报告范文 二、搜索中小企业定义和划分标准 三、搜索湖南中小企业相关网站 四、搜索湖南中小企业站点中含“电子商务”的网页 五、利用第三方平台调查湖南企业电子商务状况 六、湖南中小企业网站调研 七、搜索中小企业电子商务相关文档
子任务5、利用第三方平台调查湖南企业电子商务状况 阿里巴巴是专注于为中小企业提供电子商务服务的第三方B2B平台,牢牢地占据了中国B2B市场的第一把交椅。据艾瑞咨询研究监测,2007年,阿里巴巴总营收同比增长65.4%,达22.5亿元,以企业营收计算的市场份额由51%上升至57.3% 。可尝试用阿里巴巴国内站注册用户数、付费用户数、诚信通用户占注册用户数量的百分比等参数,来大体反映一个地区电子商务的成熟度和应用水平。
2008年4月10日阿里国内站湖南注册用户数 下面是于2008年4月10日在阿里巴巴平台搜索“湖南”“所有城市”、“所有经营模式”的公司的结果页面,显示注册用户数为23939个,诚信通用户数为1619个。
2008年4月10日阿里国内站湖南诚信通用户数
技能训练4:在B2B网站中搜索企业信息
子任务6、湖南中小企业网站调研 在阿里巴巴网站的调研中我们发现,在湖南诚信通企业排名前三的企业是耒阳市飞龙卡通服饰有限公司、浏阳市加瑞华烟花有限公司、株洲美特优硬质合金有限公司,它们使用诚信通服务的年限分别是3年、6年、6年。通过对这些站点的访问会发现,它们不仅在阿里巴巴上有自己的诚信通商铺,一般还建自己的企业站点,以塑造自身的网络品牌,拓展企业的网络销售渠道,推广其产品或服务。
七、搜索中小企业电子商务相关学术文档 1、利用google学术搜索功能搜索中小企业电子商务相关学术文件
第二步:点击其中的“学术搜索”
2、通过学术期刊门户网站搜索相关学术文档 实际上,要获得更为专业的学术方面信息,可以访问一些期刊网或学术期刊数据库,如中国知网(http://www.cnki.net/index.htm)、维普资讯网(http://www.cqvip.com/)等,
第三步:选择浏览相关学术文件
技能训练5:_______省中小型企业电子商务发展状况调研
搜索引擎基本知识 一、搜索引擎的历史及发展趋势 1、搜索引擎的发展历程 2、搜索引擎的发展趋势
主要英文搜索引擎发展情况 Yahoo 1994年4月,Stanford University的两名博士生,美籍华人 Jerry Yang (杨致远)和David Filo共同创办了Yahoo 。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture。)
主要英文搜索引擎发展情况 Google: 1998年10月之前, Google 只是Stanford(斯坦福)大学的一个小项目 BackRub 。1995年博士生 Larry Page 开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在 Sergey Brin 和 Scott Hassan、Alan Steremberg 的共同参与下,BachRub开始提供 Demo 。1999年2月,Google完成了从 Alpha 版到 Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。 Google在 Pagerank 、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。 在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。Google自2000年开始提供中文搜索服务。
主要中文搜索引擎发展情况 Baidu 2000年1月,两位北大校友 超链分析专利发明人、前Infoseek资深工程师李彦宏与好友 徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。
主要中文搜索引擎发展情况 搜狗 是搜狐公司于2004年8月3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站--“搜狗”。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。
主要中文搜索引擎发展情况 “爱问iAsk”是新浪完全自主研发的搜索产品,采用了目前最为领先的智慧型互动搜索技术,充分体现人性化应用的产品理念,为广大网民提供全新搜索服务。 soso.com并没有全新的中文名称,只是称为“QQ搜索”,后面有“想你 所想,搜你所搜”的字样。soso.com主要提供网页、图片、音乐、文档、新闻等搜索方式,此外还可以单独搜索QQ.com站内的内容。
二、搜索引擎分类 全文搜索引擎 目录索引 主要种类 元搜索引擎 集合式搜索引擎
三、搜索引擎基本工作原理 1、全文搜索引擎的工作原理 1、定期搜索 2、提交网站搜索
全文搜索引擎 Robot,即一个用C++、perl、Java或其它语言编写的网页自动搜索程序,可以运行在Unix、Solaris、Windows、NT、OS2和MAC等平台上。 Robot从www的各站点上搜集Web页面或其它各种信息项,并将其存入数据库中;Indexer,关键字。网页数据库,索引库 用户界面输入提问词;Searcher,索引库,用户接口子系统 Web浏览器看到结果 定期访问,刷新,去除死链接(Goolgle的 Freshbot和Deepbot)
Google的排名原理 PageRank(Larry Page创始) PR(A) = (1-d) + d(PR(t1)/C(t1) + ... + PR(tn)/C(tn)) 其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank为系统给你的网站所增加的PR分值;PR(t1)表示该外部链接网站本身的PR分值;C(t1)则表示该外部链接站点所拥有的外部链接数量。大家要谨记:一个网站的投票权值只有该网站PR分值的0.85,而且这个0.85的权值平均分配给其链接的每个外部网站。 我们看看如果我的网站获得的是一个PR分值为8,外部链接数为16的网站的链接,那么我将获得的PR分值将是: PR(AKA) = (1-0.85) + 0.85*(8/16) PR(AKA) = 0.15 + 0.85(0.5) PR(AKA) = 0.15 + 0.425 PR(AKA) = 0.575 实质:考察网站的权威性,越有权威的网站越容易被其它网站主动链接,(同学术论文)
怎样看待PR=0 新网站,(Google PRg 一年更新四次) 被Google惩罚
Goolge沙盒和逃生法 有二种网站会被收进沙盒,一种是新网站,特别是这个新网站突然得到了大量的地地导入链接,另一种是老网站,在智时间里突然增加了大量的导入链接。 逃生办法 考虑加入竞价排名 登录注册其它搜索引擎
全文搜索引擎:特点 Google:由自动搜索软件Robot根据给定的URL,访问站点,通过链接遍历www,然后将获得的站点信息形成网页信息库以备用户查询。当用户通过查询内容提出检索要求时,系统就会在数据库中找到相关内容,并按照既定规则进行排序输出。 特点:通过Robot自动寻找网络资源并编制索引摘要,减少人工作业。 优点:信息搜集速度快,资源收录多、全,结果更新及时。 不足:收录的资源良莠不齐,查询结果准确度低,用户很难通过检索真正获得所需结果。
小试验:搜索引擎蜘蛛Spider模拟器 Google的Spider对网页数据的抓取是通过读取网页文本内容,并顺着页面中的链接层层深入,从而获得对全站内容的抓取。有一些网页制作技术如框架结构(frame:帧)、Flash等生成的网页内容是蜘蛛程序比较排斥、不愿抓取的,因此内嵌于其中的文字或链接往往被蜘蛛忽略了,从而影响到对全站重要数据的抓取。要想知道某个网页的内容能否被Google蜘蛛正常抓取到,可以借用蜘蛛Spider模拟程序,它罗列出一页中能够读到的所有文本,以及能够进入的所有链接,以帮助诊断重要网页内容是否可见。 方法:输入被查询页面的URL提交,显示结果分别是被抓取的文本、链接、页面关键字和描述。 http://seo.highdiy.com/index.php/seo/spider-simulator/ http://www.webconfs.com/search-engine-spider-simulator.php
目录(Directory)搜索引擎 主体、分类、倒树状等级结构 著名的目录搜索有yahoo,www.dmoz.com. 搜索范围较小,查全率较低,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉又会导致重复和资源浪费。数据库更新速度比较慢,影响查询结果的时效性。 用户按图索骥、层层深入即可,操作简单,人工评价描述网站,准确性高,参考价值高。 目前很多搜索引擎都是综合上述两类搜索引擎的基本技术思想。
元搜索引擎 享多个搜索引擎的资源库,为用户提供信息服务的系统,又称搜索引擎之上的搜索引擎。 统一的统一的用户查询界面与信息反馈形式下,共查询界面,转换用户请求,提交预先选定独立搜索引擎,合并冗余信息,去除重复信息。 预处理部分负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。 检索接口代理负责将用户的检索请求“翻译”成满足不同搜索引擎本地化要求的格式。 检索结果处理负责所有源搜索引擎检索结果的去重、合并、输出处理等。 www.dogpile.com
2、各搜索引擎的比较 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制 Back
四、常用搜索引擎简介 百度 新浪 常用搜索引擎 搜狐 网易 Google 雅虎