基于Hadoop/HBase的一淘搜索离线系统

Slides:



Advertisements
Similar presentations
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Advertisements

Amazon 云计算 AWS (三) 云计算 (第三版) 第 3 章 CLOUD COMPUTING Third Edition
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
巨量資料平台: Hadoop的生態系.
国外市场(亚马逊).
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
云梯的多namenode和跨机房之路
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
EtaoSpider系统简介 黑 侠.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
海量 数据分析架构.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
YARN & MapReduce 2.0 Boyu Diao
基于R和pentaho的全套开源BI平台的实现
第5章 NoSQL数据库 (PPT版本号:2017年2月版本)
厦门大学数据库实验室NoSQL系列学习之
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
云计算之分布式计算.
Hadoop I/O By ShiChaojie.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
Hadoop平台使用 计算中心
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
Ambari 简介 师成 伟成培训 © 2017.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
HBase简介与实践分享 剑英.
Hadoop平台與應用規劃實作 報告者:劉育維.
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
从TDW-Hive到TDW-SparkSQL
阿里数据同步的前世今生 巴真 陈守元.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
Windoop操作步驟 於作業系統Windows 10 專業版.
小组成员:XXX(01)XXX(02) XXX(03)XXX(04) XXX(05)XXX(06)
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
DevDays ’99 The aim of this mission is knowledge..
任务1-3 使用Dreamweaver创建ASP网页
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
中国科学技术大学计算机系 陈香兰 Fall 2013 第三讲 线程 中国科学技术大学计算机系 陈香兰 Fall 2013.
Apache Flink 刘 驰.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
Cloud Computing Google云计算原理.
基于列存储的RDF数据管理 朱敏
Zookeeper的应用 Hbase Kafka Twitter Storm Spark—mesos+zookeeper.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
SMC服务.
Presentation transcript:

基于Hadoop/HBase的一淘搜索离线系统 莫 问

个人简介 花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系 毕业后加入阿里巴巴集团 雅虎中国 - 垂直搜索团队 花名:莫问 真名:王峰 2006年硕士毕业于北航计算机系 毕业后加入阿里巴巴集团 雅虎中国 - 垂直搜索团队 阿里云 - 计算服务团队 淘宝/一淘 - 网页抓取团队 技术方向:分布式系统和大数据处理

提 纲 一淘搜索系统架构 基于HBase的分布式存储系统 基于Hadoop的分布式计算平台 一淘全网商品离线处理系统

一淘搜索系统架构 Web 淘宝商品 搜索前端 抓取系统 淘宝商品导入 存储系统 搜索引擎 业务处理流程 索引构建

基于HBase的分布式存储系统 HBase集群概述 HBase主要数据 HBase扩展开发 基于HBase的分布式消息队列

HBase集群概述 集群版本:0.94.x+扩展优化 集群规模:300台+ 存储量:300TB+ 每日更新量:10% 监控:Ganglia + JMX

HBase主要数据 电子商务网页库(几十亿) 全网B2C商品 全网导购信息(资讯、问答、论坛、点评等) 淘宝+天猫商品(40%) 精选优质商品 淘客返利商品

HBase扩展开发 定制Load Balance插件 定制Region Split/Merge插件和工具 扩展ThriftServer API 增强的MapReduce Lib支持 丰富更多的Metrics指标 多种Coprocessor插件

RS-Level Balance RegionServer RegionServer RegionServer RegionServer …….. region region region region region region

Table-Level Balance RegionServer RegionServer RegionServer …….. region region region region region region region

Both RS & Table Level Balance RegionServer RegionServer RegionServer RegionServer region region region region region region region region …….. region region region region region region region

Partition ID + Message ID 基于HBase的分布式消息队列(HQueue) Queue Queue is a HBase Table Partition is a HBase Region Message is a HBase KeyValue Partition 1 Partition 2 … Message 1 Message 1 … Message 2 Message 2 … Message 3 Message3 … ………….. ………….. ……………. Rowkey Column Timesatamp Value Partition ID + Message ID Topic Timestamp Value

Message写入流程 HTable Put API Wrapper HQueue Writer RegionServer Partition ID Message写入流程 HTable Put API Wrapper RowKey Timestamp MessageID Sequence ID 1. Create Message KV HQueue Writer Topic Value 2. Locate By Partition ID 3. Set MessageID By TS and SeqID RegionServer RegionServer 4. Append To Partition C O P R E S r P A R T I O n Message C O P R E S r P A R T I O n Message Message Message Message Message Sort By TS Message Message ………… ………… …………

Message读取流程 HTable Scan API Wrapper HQueue Reader RegionServer \\ 1. Create Message Scan Partition ID MessageID(TS) Range Message Topic HQueue Reader 2. Locate By Partition ID RegionServer \\ RegionServer 3. Scan Sequencially 4. Return By Order P A R T I O n Message P A R T I O n Message Message Message ………… Message Sort By TS Message Sort By TS Message Message ………… …………

HQueue特性 支持持久化压缩存储(继承HBase) 支持自动Failover(继承HBase) 支持动态负载均衡(继承HBase) 支持TTL设定,自动清理过期消息(继承HBase) 支持多语言客户端(扩展HBase ThriftServer) 可与HBase统一运维(本质都是HBase) 可与Hadoop MR无缝对接(开发HQueue MR Lib)

HQueue应用场景 电商网页库 URL选取 URL队列 抓取系统 Page队列 抽取系统 提链事件队列 Dump事件队列 图片、JS事件队列 提链系统 Dump系统 图片、JS处理系统

基于Hadoop的分布式计算平台 Hadoop集群介绍 Hadoop集群业务流程 Hadoop-2.0 基于Hadoop YARN的定制计算服务

Hadoop集群介绍 集群版本:2.0.X 集群规模:300台+ 存储量:1PB+ 每日运行Job数:2万+ 监控:Ganglia + JMX

Hadoop集群业务流程 网页调度与选取 网页链接提取 网页内容抽取 全网商品各维度数据挖掘 一淘全网商品搜索数据Dump 一淘全网商品搜索Index Build

Hadoop-2.0 NameNode HA YARN HDFS所有环节无单点 支持HDFS在线升级 引入二级调度,Not Only MR,可定制计算模型 Cgroups资源隔离方案更彻底,让系统更稳定

MapReduce-1.0

MapReduce-2.0(YARN) Node Manager Client Client Resource Manager App Worker Node Manager Client Client App Master App Worker Resource Manager Node Manager App Master Lanch Node Status Service Submission Fork / Monitor App Worker Node Manager Resource Request App Status App Worker

基于YARN的流式计算服务 zookeeper 流式数据源(HQueue, MySQL DRC, TimeTunel) register InputFormat Progress Checkpoint Service Workers Service Worker Service Worker …… Service Worker Metrics OutputFormat Service Master 中转队列 InputFormat Metrics Service Workers Service Worker Service Worker …… Service Worker

动态分裂计算Worker InputSplit InputSplit InputSplit InputSplit Service Worker Service Worker Service Worker 1. Metrics(包括进度) 2. 发现Worker处理进度太慢 ServiceMaster

动态合并计算Worker InputSplit InputSplit InputSplit InputSplit Service Worker Service Worker Service Worker 1. Metrics(包括进度) ServiceMaster 2. 发现两个Worker比较空闲

一淘全网商品离线处理系统 全网商品接入(淘宝+外网) 全网商品存储(HBase) 全网商品Dump(业务逻辑计算) 全网商品Index Build

一淘全网商品接入 一淘 抓取系统 淘宝搜索 Hadoop/HBase集群 前端运营工具 Import Job Import Service 人工修正 全量 增量 Import Job Import Service eHarmony API Service 外网商品 淘宝商品 修正商品 状态属性 HBase(全网商品库)

一淘全网商品Dump + Index Build 商品入库/更新 HBase(全网商品库) 增量更新事件 HQueue Coprocessor Dump Service Dump Job 问天搜索引擎 实时消息 HQueue 全量XML文件 Coprocessor 定期增量XML文件 XML文件 文件索引 Index Build Job 索引文件

一淘全网商品业务处理Pipeline 商家业务处理 业务处理Pipeline 可插件化 运费业务处理 实时增量流程 全量流程 类目业务处理 Dump Service Dump Job 促销业务处理 返利业务处理 排序业务处理

Q &A 新浪微博:淘莫问