海量 数据分析架构.

Slides:



Advertisements
Similar presentations
15 电子商务解决方案 教学目标 关键词汇 通过本章所引述的电子商务解决方案,使学生在学习电子商务的基本知识后,对 电子商务相关问题的处理在技术支持和实际应用上有一个整体的认识,从而使电子商 务理论由感性认识上升为理性认识。要求在掌握前述相关章节的内容后,进而把握每 一个案例的实质内涵。 解决方案(
Advertisements

课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
从“阿拉伯之春” 看新媒体的政治传播能力.
数据仓库基础培训 山西项目组
資料庫系統 曾俊雄.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
《大数据技术原理与应用》 课程介绍 (2016春季学期)
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
Kettle 培训 BI 数据部 Jim 2011年03月27日.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
数据创造价值、创新驱动未来 浅析高校大数据建设方法 演讲人:伍剑 时间:
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
课程设计.
基于R和pentaho的全套开源BI平台的实现
厦门大学数据库实验室NoSQL系列学习之
分布式系统中的关键概念及Hadoop的起源、架构、搭建
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Goolge的云计算 分布式数据表BigTable.
基于Hadoop的数据仓库Hive.
数据仓库和数据挖掘 DATA WAREHOUSING AND DATA MINING 经济科学室验室
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
HBase简介与实践分享 剑英.
Hadoop平台與應用規劃實作 報告者:劉育維.
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
醫院主管資訊系統個案研究 -以台中榮民總醫院為例
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
软件工程基础 云计算概论 刘 驰.
数据挖掘工具性能比较.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
应用型本科院校大数据专业 实践教学环境改革与探索
Facebook 内部高效工作指南
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
企業績效管理 學習目標 了解企業績效管理(business performance manage-ment, BPM)的所有涵括本質
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
基于云计算及数据挖掘技术的海量数据处理研究
5/4/2019 4:42 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
TurboDX架构、应用场景、比较优势 北京数贝软件科技有限公司
Cloud Computing Google云计算原理.
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
第10章 網路問卷調查.
K/3CloudV6.1预算管理 陈琦琨 K/3Cloud预算与分析部.
Presentation transcript:

海量 数据分析架构

提纲 传统的BI数据分析系统介绍 米国互联网企业的工具和架构 AdMaster的业务特性和数据分析架构 -- 中小企业快速搭建一个海量数据分析平台

传统BI产品的组成 Data Warehousing Tool ETL Tool OLAP Server Reporting Tool Data Mining Tool 权限, 图形化, 调度器 电子产品 日用品 书籍 江苏 上海 浙江 2010一季度 2010一季度 2010一季度

商业 OLAP Server Oracle Hyperion Essbase IBM Cognos Enterprise Server(MOLAP) SAP BO Analysis SAS DW MicroStrategy Intelligence Server Microsoft Analysis Service

开源的 BI 工具:Pentaho Solution & Action ETL:Kettle OLAP:Mondrian JFreeReport R / RapidMiner Solution & Action

向左?向右? 软硬结合 -高性能并行计算 -硬件DSM 分布式系统 -hadoop

海量数据分析的问题和挑战 健壮性 Failover and Recovery 成本 扩展性 消除单点 低延迟

分布式数据仓库 技术: MPP+ 行列混合存储+Mapreduce EMC Greenplum Teradata Asterdata Hive(RCFile)

Google 数据分析技术列表 MapReduce GFS Bigtable Chubby Sawzall Percolator (Oceanbase) Tenzing

Facebook 数据分析技术列表 Hadoop HBase(Bigtable) Hive(HiveQL) Zookeeper(Chubby) Pig(Sawzall) Scribe Cassandra Data Freeway(Scalable Data Stream Framework) Puma(Stream Aggregation Engine) PTail Puma3 HBase Serving

Twitter 数据分析技术列表 Hadoop Storm Kestrel ElephantDB Cassandra

Admaster 业务特性 海量数据集,多个 数百个的非常常用的维度—数万种维度组合 频繁的ad hoc即席查询 数据集的数据质量差 数据集格式各样(半格式化,非格式化)

我们需要 流式计算: 并行计数 , 增量统计算法, 报警, 块计算: 全局计算 : 大部分的统计分析算法 日志采集, ETL 适用范围 流式计算: 并行计数 , 增量统计算法, 报警, 日志采集, ETL 块计算: 适用范围 Memory Complex Aggregations and Iteration 比如 unique user count, most frequent elements, ML 全局计算 : 大部分的统计分析算法

老系统的问题 ETL 的难度 汇总到HDFS需要较长时间 Hadoop poor latency

建立分析系统 Redis 做join和Column Family Store系统 (HBase Cassandra)做join的区 别 Storm -日志汇总+ETL Storm -DRPC Hadoop Redis –关联多个大数据集 Redis 做join和Column Family Store系统 (HBase Cassandra)做join的区 别 1234 choky Cookie 1 15 10001 25 Cookie 1 Page1 12-02-24 http://w 不错 8989 Cookie 2 Cookie 2 15 10001 25 page2 http://w 1234 blade 50$ Cookie 3 Cookie 3 15 10001 25 Page1 12-02-25 30001 http://w 差评 招商银

AdMaster Infrastructure 采集数据 Redis Cookie Service Storm ETL Storm+RamFS Hadoop 实时报警 MySQL MySQL 用户 实时复杂分析 MongoDB offline分析结果

遇到的坑 Hadoop Job中, Map和Reduce的个数的动态分配 Storm内存泄漏Bug Redis 数据结构要设计的尽可能节省内存 优化计算瓶颈,消除短板

一些建议 使用Hadoop 1.0之后的版本,性能大大提升 先尝试Pig , 然后Cascading, 最后Java MapReduce 使用 Lzo 压缩, 公平调度器 使用Storm 0.70之后的版本,解决了重要Bug 更好的JVM:Zing or JRocket, 选用正确的GC,并监控 根据业务正确选用NoSQL