EtaoSpider系统简介 黑 侠.

Slides:



Advertisements
Similar presentations
教师成绩录入步骤 1. 登录教务系统 2. 进入教师成绩管理界面 3. 选择相应的教学班,点击 “ 课程成绩录 入 ” 进入成绩录入界面 4. 点击 “ 设置 ” 按钮设置 “ 成绩分项 ” 5. 录入成绩, “ 保存成绩 ” 按钮可以保存成 绩但不提交(提交后不能再修改成绩) 6. “ 提交成绩 ”
Advertisements

歷史二 第一篇 第二章 三代的興衰與文化 第一節 三代興衰與封建體制 第二節 時代劇變與學術教育的發達.
7.2 图示化记忆 记忆的概述 图示化记忆 联想记忆法 奇特联想记忆法 用手记忆.
環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
虹膜识别健康养老服务智能系统项目.
导 游 基 础 知 识.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
職校、五專群科簡介.
3.《增值税纳税申报表(小规模纳税人适用)》填写
木兰计划——家庭e站 南京慕兰邦网络科技有限公司.
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
〝奇異恩典〞~陳進成 『我的弟兄們,你們落在百般試煉中,都要 以為大喜樂;因知道你們的信心經過試驗, 就生忍耐。但忍耐也當成功,使你們成全、
做好就业与自主创业的准备.
外国小说话题突破系列之七 情感.
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
猎娱.生态产业 商业策划书 联系人:陈相宇 狼族(上海)网络科技有限公司.
一般纳税人增值税 纳税申报表填写指引 白银高新区国税局 纳税服务科 2016年5月.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
第7课 古罗马的政制与法律.
第二单元 商鞅变法 第1课 改革变法风潮与秦国历史机遇(背景) 第2课 “为秦开帝业”──商鞅变法(内容)
内 容 ● 民间非营利组织会计实务操作 ● 项目会计核算中注意事项 ● 社会组织年检报告的填列 ● 社会组织评估中财务资产指标的解释
荆轲刺秦王 《战国策》.
初探逻辑推理 提高思维水平 ——《逻辑和语文学习》
速收简历 速收简历移动APP项目 速收简历团队.
列王紀下8章 啟示錄12章 書念婦人 婦人 死裡復活的兒子 被提的男孩子 七年饑荒 三年半大災難 非利士地 曠野 歸還房屋田地
基于Hadoop/HBase的一淘搜索离线系统
黃金廊道農業新方案暨行動計畫 簡介.
佛教既是外來宗教, 為何盛行於中國?.
港澳信義會明道小學 天地有情 分享者:徐燦麗老師、 蘇娟玉老師 日期:2005年12月3日 P.1.
第二章 三代的興衰與文化 第二節 時代劇變與學術教育的發達
江苏衡鼎律师事务所苏州分所 苏州广正知识产权代理有限公司
上海教育出版社 《历史与社会》九年级(全一册) 教师教材培训 深圳市南山区北师大南山附中 熊菊珍 年 8 月 13 日.
桃園縣龜山鄉文欣國小 校園植物簡介 內庭區.
耶利米书.
《电子商务师实验室》 电子商务交易模式之“B2C”.
河北民族师范学院图书馆志愿服务个案 张田吉
列王紀概覽.
南亚、中亚 要点·疑点·考点 位置:位于喜马拉雅山以南,印度洋以北,大部分在10°N~30 °N之间 内陆国——尼泊尔、锡金、不丹
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
传道书 12种虚空 9处不可知 23样价值观 7个小结论 人生是虚空的虚空! (没有神的人生)
朝代接龙(排一排,把下列朝代按建立的先后顺序排列)(10分)
会计电算化 录入期初余额 北京科技宏远有限公司总账系统启用日期有二种方案,一是2006年1月,二是2006年2月,其他初始设置完全一样,假定你是该公司会计主管,你选哪种方案?为什么?? ?
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
台湾是我国领土不可分割的一部分,台海局势总是引起各方关注,特别是美国。为什么美国对台湾虎视眈眈?
第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分. 第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分.
我国处理民族关系的基本原则.
回忆与思考: 中国早期政治制度有哪些重要特点? ◇神权与王权结合; ◇以血缘关系为纽带形成国家政治结构;
第二课 走向“大一统”的秦汉政治.
11 室外装饰设计 本章提要 本章主要讲述了室外装饰设计的含义及其基本特征,室外装饰设计的基本原则,中外室外装饰设计的基本概况,室外装饰设计与室外环境的关系、建筑装饰的细部设计以及店面装饰设计等内容。
让“反思”成为一种习惯 北京一师附小 韩玉娟.
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
第六节 春秋战国时期的社会经济和社会变革.
異端與異教 基督信仰.
漢魏間的國際局勢與女性外交 -〈昭君怨〉與悲憤〈胡笳十八拍〉
耶利米书.
Selenium 一个用于Web应用程序测试的工具 Robin Ren
职团客户促销活动 2018年04月.
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
职团客户促销活动 2018年01月.
职团客户促销活动 2018年03月.
年所得12万以上自行纳税申报 信息管理科 张沛.
102學年度下學期 班親會 五年仁班 楊曉逸老師.
第二階段「校園徒步區建置」 執行成果報告.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
Presentation transcript:

EtaoSpider系统简介 黑 侠

个人简介 真名:谢振亮 2004年天津大学计算机系研究生毕业 2004年加入百度网页抓取团队 2010年加入Etao搜索技术团队 EtaoSpider团队负责人

提纲 EtaoSpider要解决什么问题 主要面临哪些困难 如何解决这些困难 未来的规划与展望

EtaoSpider要解决什么问题 为Etao搜索抓取和挖掘商品相关信息

EtaoSpider要解决什么问题

如何评价抓取系统 Spider核心指标 覆盖率 Etao 覆盖B2C站点商品的百分比 更新率 Etao 上B2C商品信息的正确率

如何评价抓取系统 目标 覆盖率 = 进索引商品数/商品链接总数 索引价格/库存错误 未进索引 索引价格/ 库存正确 更新率 = 按Query采集 按站点采集 索引价格/库存错误 未进索引 索引价格/ 库存正确 目标 覆盖率 >99% 价格更新率>99% 库存更新率>99% 更新率 = 索引信息正确数/进索引商品数

系统架构 抓取 抽取 压力控制 附件 调度 数据库 提链 种子 DUMP

面临哪些困难 压力计算 流量分配 Js/登录/交互 站点改版 模板失效 信息不对称/归一化 抓取 抽取 垃圾控制 重复挖掘 调度 数据库 提链 预测/发现变化 更新不及时 新商品发现 DUMP 时效性

如何解决 —— 调度问题 全体数据 变化数据 用户可见 列表页更新/监控 浅层热门挖掘 如意淘反馈 易变商品挖掘 购物车更新 点击展现反馈

如何解决 —— 抓取问题 多样化抓取器 JS直接抓取 JS渲染优化 icontent(txt) cookie Webkit X图形渲染优化 跳过图片和CSS 跳过跨域请求

如何解决 —— 流量分配 Weight倒序 Weight倒序 Weight倒序 GET 队列 CHK 队列 CHKLIST 队列 30% 90% 80% 80% 80%

如何解决 —— 流量分配 App Queue App Selector App Queue App Queue App Selector IP queue App Selector … App Queue Register/Unregister …… App Queue IP queue App Selector … App Queue Register/Unregister

如何解决 —— 模版问题 模版抽取(xpath) 易用配置工具 鲁棒性 监控与反馈 成功率监控 重要字段监控 考虑索引稳定性

如何解决 —— 垃圾控制 垃圾链接 黑洞、登录、空白、操作(投票、回帖)等 带无效参数的链接 泛滥的列表页 处理方法 发现:页面识别,无效参数挖掘,泛滥列表页挖掘 聚类:垃圾Pattern 上线:Pattern应用到提链和全局清理 保护:浅层、上线链接保护;Pattern定期验证 监控:日志和报表

如何解决 —— 时效性问题 HBase(全网商品库) HQueue Dump Service Dump Job 问天搜索引擎 HQueue 商品入库/更新 HBase(全网商品库) 增量更新事件 HQueue Coprocessor Dump Service Dump Job 问天搜索引擎 实时消息 HQueue 全量XML文件 Coprocessor 定期增量XML文件 XML文件 文件索引 Index Build Job 索引文件

EtaoSpider 的未来 开放抓取服务(OpenCrawl)

未来规划 —— 开放抓取 App Crawl Service Node 1 Node 2 Node n-1 Node n Web

未来规划 —— 开放抓取 各业务垂直抓取需求 Spider接入平台 模版 报表 种子 数据 Hbase Extract Service Crawl Service Selector

Q & A Thanks!