大数据发展趋势分析及 中兴GoldenData解决方案

Slides:



Advertisements
Similar presentations
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Advertisements

“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
初级会计电算化 (用友T3) 制作人:张爱红.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
车联网 大事记 联盟 2014.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
综合布线技术与实践教程 第九章:综合布线系统工程网络分析 课程网站:
海量 数据分析架构.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
企业级云计算 A Enterprise Cloud Serivce
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
北京移动(中国移动的子公司)是中国主要的无线运营商之一。中国移动做为无线市场的开拓者,拥有中国70%的无线通信市场,也是世界上第二大的无线提供商,北京移动拥有上亿的手机用户,支持60多个国家的漫游业务。 为北京移动创造的价值 … 优秀的性能,支持了庞大的用户群 标准化了系统接口 加强了系统的灵活性.
基于R和pentaho的全套开源BI平台的实现
格物资讯开放ICON库 V1R1.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
产品介绍 产品类型:数据终端 建议零售价2800元 上市时间:2017 年 2 月 目标人群:物流、快递及仓储等行业从业人员
Hadoop I/O By ShiChaojie.
基于云计算的数据安全 保护策略研究 报告人:王 立 伟.
瑞斯康达—MSG1500 产品类型:路由器 建议零售价格:198元 上市时间:2017 年 3月
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
什么是Android 本讲大纲: 1、平台特性 2、平台架构 3、Android市场 支持网站:
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
大学计算机基础 典型案例之一 构建FPT服务器.
阿里数据同步的前世今生 巴真 陈守元.
Jul 2014 HEAT部署Hadoop集群
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
华为—E8372h- 155 外观设计 产品类型:数据卡 建议零售价格:299元 上市时间:2017年6月7日 目标人群:大众
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
乐驾-车载无线终端-CARRO 产品类型:车载无线路由器 建议零售价格:¥599 江苏鸿信
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
格物资讯开放ICON库 V0R2.
第17章 网站发布.
商业计划书模板 框架完整 内容实用 严谨专业 BUSINESS PLAN POWERPOINT TEMPLATE LOGO.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
CPU结构和功能.
第3章 信息与信息系统 陈恭和.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
微机系统的组成.
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
新一代企业IT与OpenStack 贾琨 2014年7月.
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
下一代网络营销探讨 —网络营销移动化问题思考
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
解决“最后1公里”问题.
OpenStack vs CloudStack
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Google的云计算 分布式锁服务Chubby.
格物资讯ICON发布 V0R3.
基于列存储的RDF数据管理 朱敏
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
3.8 局域网应用实例 某省劳动和社会保障网络中心组网实例 会议中心的无线组网实例.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.

入侵检测技术 大连理工大学软件学院 毕玲.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
高中物理“平抛运动的应用” 点评专家:谭一宁.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
校园之路.
Presentation transcript:

大数据发展趋势分析及 中兴GoldenData解决方案 中兴通讯.云计算&IT经营部 2014年 2月

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

Source: Cisco Global IP Traffic Forecast Update 2012 大数据是端-管-云发展的产物 流量激增:2011-2016年,全球移动数据流量将激增18倍,达到10.8EB/月;全 球IP宽带数据流量将达到110.28EB/月(1 EB = 1,024 PB = 1,048,576 TB) 数据膨胀:未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达 到35ZB(千万亿兆比特1 ZB = 1,024 EB) 注:到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。 2011-2016 全球移动数据量(单位:EB/月) Source: Cisco Global IP Traffic Forecast Update 2012 2011-2016 全球IP数据量(单位:EB/月) 29% CAGR 2011-2016 根据工信部统计数据,截至2013年3月底,我国共有11.46亿移动用户,2013年1-5月,我国移动互联网用户净增4902.6万户,达8.13亿户,对移动电话用户的渗透达到69.9%。 随着智能终端的普及和移动互联网的快速发展,全球移动数据流量激增,Cisco的预测 基于智能终端的移动互联网加速了信息产业的融合,实现了从传统的通讯需求向信息和数据消费转变,大数据正在改变了人们的学习、工作和生活方式, 2011 2012 2013 2014 2015 2016 3

大数据的4V特征 大数据“4V”特征 对大数据特征的理解 大数据概念的提出,通过三个方面的扩展延伸带来了思维的变革,并对生活、 工作产生深远影响 数据是源头和动力,数据源的变化带来数据应用的变化 大数据“4V”特征 对大数据特征的理解 Volume 海量 数据量大 理解1:从局部或样本数据,向全体数据的扩展 Variety 多样性 结构化、非结构化、半结构化数据 理解2:从结果数据,向过程数据的扩展 简言之,就是大数据技术就是从各种各样类型的数据中,快速挖掘和实现数据的价值。 大数据的价值和时间成反比, 基于hadoop分布式系统架构 Velocity 快速 数据实时、快速处理 理解3:从静态存储数据,向动态流处理数据的扩展 Value 价值 能挖掘出高价值 4

电信行业大数据应用需求和特点 数据挖 掘 深度增加 更加智能 层次 3: 知识发现 层次 2: 信息检索汇聚 层次 1: 数据收集与存储 移动设备 网络信令 Web日志 计费系统 基站 预测分析 机器学习 数据挖掘 可视化 数据服务 统计 报表 查询 分布式数据库 ETL 数据集成 数据融合 层次 1: 数据收集与存储 分布式文件系统 层次 2: 信息检索汇聚 层次 3: 知识发现 层次4 智慧 数据到信息 数据形成 信息到知识 知识到智慧 云存储 大数据中心 … 位置BDS 多维信令分析 网管综合分析 网规网优 离网客户挽留 ROI预测分析 电信数据源 精准营销 流量经营 个性化推荐 数据挖 掘 深度增加 更加智能

大数据时代,数据已经成为运营商的核心战略资产 网络体验数据 信令数据 行为/业务使用数据 语音 短信 互联网 业务数据 业务订购 手机终端 电信网络用户 位置数据 账户数据 客服数据 电信运营商真实记录了人的社会化生活信息 电话号码 记录了人的基本信息 电话短信 记录人之间的关系及时间信息 上网日志 记录了人的行为和需求 位置数据 记录了人的移动位置信息 上海某运营商 每分钟8万条位置更新信息(徐家汇商圈) 每小时近300万次移动电话呼叫 每天70-100TB数据及30亿次点击的互联网访问量 运营商同时拥有用户的真实社会信息和流经管道的互联网虚拟社会信息,这是电信运营商同互联网厂商相比的优势所在。 6

大数据时代电信行业面临的主要挑战 如何有效管理 数据资产? 如何有效挖掘 数据价值? 如何做好 数据经营? 异构海量数据,存储成本高 数据模型不一,共享困难 数据质量不一,干扰数据多 数据处理实时性要求高 数据挖掘智能性不足 数据可视化手段匮乏 缺乏完善的数据开放访问机制 内部不能清晰确定各类数据价值 外部难以将需求转化为分析需求 资产价值难以提升,内部不能清晰确定各类数据价值,外部难以将需求转化为分析需求。 电信行业海量数据还未形成有效的信息资产 7

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 数据分析与应用技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

大数据关键技术发展趋势 大数据基础设施 存储及数据管理 数据隐私与安全 趋势1:计算单元向不同的专业化应用发展 趋势2:存储设备向低功耗、高性能和一体化方向发展 趋势3:大数据分析推动计算和存储能力趋向融合 趋势1:实现高效存储成为存储技术主要研究方向 趋势2:云存储系统从向多应用服务方向发展 趋势3:关系数据库和分布式数据管理方式逐步走向融合 存储及数据管理 数据隐私与安全 趋势:数据给数据安全和隐私保护带来更加严峻挑战

趋势1:计算模块向不同的专业化应用发展 专业加速计算模块 一般计算模块 轻量级计算模块 重载计算模块 虚拟机租赁 视频编解码 数据库租赁 基础设施 存储与管理 隐私安全 趋势1:计算模块向不同的专业化应用发展 轻量级计算模块 网站前端接入 Cache服务 一般计算模块 虚拟机租赁 数据库租赁 中间件租赁 ERP/CRM租赁 重载计算模块 银行交易业务 电信综合计费业务 专业加速计算模块 视频编解码 图像识别 图像搜索 在线加解密

趋势2:存储设备向低功耗、高性能方向发展 面向海量存储的低功耗存储服务器 面向海量访问的高性能存储服务器 ARM存储服务器 SSD存储服务器 低功耗、高性能成为存储设备形态发展方向

趋势3:计算、存储、网络能力趋向融合 … … 传统分布式系统 大数据一体机 移动计算比移动数据更划算! 计算控制节点 1.计算分配 3.循环计算 … 计算节点 计算节点 2.移动数据到计算 … 数据存储节点 数据存储节点 传统分布式系统 大数据一体机 带宽消耗 移动计算比移动数据更划算! 移动数据 移动计算 将计算在离它操作的数据最近的地方执行,降低网络阻塞的影响,提高系统数据的吞吐量,任务执行更加高效

趋势1:实现高效存储成为存储技术主要研究方向 基础设施 存储与管理 隐私安全 趋势1:实现高效存储成为存储技术主要研究方向 自动精简配置:解决传统存储分配问题,达到按需分配,提高存储的使用率 自动分层存储技术:对存储资源进行分层,保证热点数据在性能最好的设备上存取 重复数据删除技术:减少数据重复存储,提高系统使用率 数据压缩:对存储数据进行压缩,提高存储资源利用率 自动精简配置 自动分层存储 自动精简配置可以按应用需要自动扩展逻辑 卷大小; 客户可以根据业务发展,动态采购 物理设备,优化存储投入 自动分层存储可以根据数据活动状况将 数据转移到不同的存储介质 热点数据存储在高速的SSD设备中,提 高存储效率和存储投入 存储 优化 重复数据删除 数据压缩 重复数据删除技术着眼于删除重复出现的 数据块 重复数据删除更适合于备份应用或者NAS 应用的场景 数据压缩技术通过对数据重新编码来降低其 冗余度 数据压缩更适用于一些结构化的数据应用 13 利用存储优化技术减少数据存储空间、提升吞吐I/O

趋势2:云存储系统朝多应用服务方向发展 传统存储 海量存储 新型存储体系架构 独立 运维 独立 运维 独立 运维 一体化统一管理 一体化统一管理 应用A 应用B 应用C 应用A 应用B 应用C 应用A 应用B 应用C 专业化管理策略1 专业化管理策略2 专业化管理策略3 独立 存储 独立 存储 独立 存储 存储资源管理 (完全通用的管理策略) 存储资源池管理 传统存储 海量存储 新型存储体系架构 数据融合存储,通过折中方式实现性能优化,不能实现所有应用的性能最优化 无应用边界的存储资源共享,导致服务质量无法保证 扩展能力有限,不能为应用提供足够的资源 通过专业化的管理策略满足不同应用的需求 通过清晰的应用边界保证服务质量 通过弹性扩展,实现资源利用的最优化

趋势3:RDBMS和分布式数据管理方式融合 各司其职,组合方案 分析系统 生产系统 ETL(Sqoop) 优势: 高扩展性 高可靠 部署成本低 处理方式灵活 劣势: 关系模型支持 SQL的支持 分析和调试工具 RDBMS 大数据清洗 OLAP 取长补短,相互融合 RDBMS 关系模型 事务处理 查询优化 优势: 简单模型 非过程SQL语言 丰富工具 劣势: 多类型数据表示 扩展性 简单分析 RDBMS Aster Data GreenPlum RCFile HadoopDB

趋势:数据安全和隐私保护成为更严峻挑战 数据 用户 法律 技术 法规 个体数据、匿名数据、群体数据具有不同的隐私保护级别 基础设施 存储与管理 隐私安全 趋势:数据安全和隐私保护成为更严峻挑战 个体数据、匿名数据、群体数据具有不同的隐私保护级别 对外服务的隐私风险远远高于内部服务,需要有效手段规避 让用户有选择的自由,同意或不同意提供数据 不同用户对隐私敏感度不同,可以区别对待 数据 用户 技术 法律 法规 数据匿名技术实现敏感信息的匿名化,保护隐私 NoSQL、Hadoop需要加强数据安全保护 安全框架和审计有利于保护数据不被泄露 关注法律法规的逐步完善,根据变化调整策略 关注西欧、北美等隐私保护严格区域的进展,借鉴经验 16

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 数据分析与应用技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

数据分析与应用技术发展趋势 分布式计算框架 数据分析技术 业务应用技术 趋势1:实时数据分析需求推动实时计算框架发展 趋势2:大数据分析平台提出多分布式计算框架融合需求 趋势1:对自然语言理解的需求推动语义WEB技术发展 趋势2:跨媒体的数据融合业务推动多维多模态信息融合与处理 趋势3:大数据可视化成为快速理解大数据的最佳途径 数据分析技术 趋势1:个性化、社交化、智能化的业务趋势 趋势2:人机交互的需求推动智能问答发展和应用 业务应用技术

趋势1: 业务对数据分析实时性要求提升 数据的价值随着时间的流逝而降低 实时流计算平台:广告点击、TopK CEP:用户行为分析、市场预测 计算框架 数据分析 业务应用 趋势1: 业务对数据分析实时性要求提升 实时流计算平台:广告点击、TopK CEP:用户行为分析、市场预测 数据的价值随着时间的流逝而降低 金融交易、风控对海量交易实时性 用户体验的个性化和实时性 社交网站用户数据的实时统计和分析 点击付费广告位 与计费有关的反作弊业务的实时处理 实时搜索、个人实时信息服务等等 批处理:先存储,再计算 捞! 流计算:数据流实时计算 拦!

趋势2: 分布式框架同计算资源解耦 计算资源 不同应用场景需要使用不同的云计算框架 平台为不同场景提供不同的分布式框架 业务引擎 准实时批处理应用 (~分钟级别) 应用特征:应用批量处理输入数据,输出 结果不需立即呈现给用户; 典型应用:内容计费、网间结算、话 单文件计费等 OLTP/在线事务处理应用 (~秒级别) 应用特征:应用逐个处理用户请求,输出 结果需立即呈现给用户; 典型应用:各种门户、CRM、实时事件告 警、积分平台、搜索引擎等 非实时批处理应用 (~小时级别) 应用特征:应用批量处理大量输入数据,输出结果不需立即呈现给用户; 典型应用:ETL数据处理、KPI计算、日志清 洗、用户行为分析等 OLAP/在线分析应用 应用特征:应用逐个处理用户请求,输出结果需立即呈现给用户; 典型应用:一级经分主题分析、数据钻取、 市场预测、多维数据报表等 计算资源 调度管理 BSP框架 DAG框架 M/R框架 MPI框架 BSP (Bulk Synchronous Parallel 大容量同步并行)计算技术 DatabaseAvailabilityGroup 计算资源 YARN/MESOS/等开源项目推动了分布式框架同计算资源的解耦

趋势1:利用语义技术解决自然语言理解 知识服务 语义查询与知识服务应用 图结构的大规模语义数据管理平台 知识资源抽取与语义网络构建技术 计算框架 数据分析 业务应用 趋势1:利用语义技术解决自然语言理解 知识服务 语义查询与知识服务应用 图结构的大规模语义数据管理平台 知识资源抽取与语义网络构建技术 异构知识资源的语义网络构建 异构媒体语义 计算与链接 大规模语义 知识网络 语义网络数据 质量控制 语义网络动态更新与知识融合 网络 知识源 工具书 年鉴 科技 文献 新闻 电影电 视音乐 图书 结构化 数据 文、图 音视频 软硬件计算基础 自然语言处理 云计算和云存储基础架构 图数据管理

趋势2:大数据推动多维多模态信息融合与处理 多维度和多模态数据与信息的处理 文本信息处理 语音视频信息处理 图像信息处理 地图位置信息处理 用户数据的关联、分析和建模 数据挖掘和机器学习处理平台

趋势3:大数据可视化成为快速理解大数据的最佳方式 条形图 折线图 分析报告 地图 饼图 GIS应用

趋势1:业务发展趋势更加个性化、社交化、智能化 计算框架 数据分析 业务应用 SNS数据 User Profile 基于多维度用户建模在不同场景满足用户个性化需求 基于多维度用户建模和知识挖掘共同满足个性化需求 人 综合满足 用户需求 短信数据 内容 场景 LBS数据 微博数据 浏览日志 在不同场景下提供基于知识体系的信息扩展

趋势2:智能问答交互将成为下一代人机接口 谁控制了入口,谁就控制了互联网

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据平台介绍 案例介绍 系统架构及特点 对Hadoop的优化改进 中移大数据测试情况 案例介绍

GoldenData大数据分布式处理平台架构 管理 部分 应用 位置业务 客服中心 精准营销 日志留存与分析系统 垃圾短信分析 舆情分析 无线网络优化 企业搜索 IPTV 用户画像推荐 金融业务 应用商店 元数据管理 大 数 据 挖 掘 QSP 搜索 DMP 精分 UDAS 查询 用户行为分析组件 挖掘工具 OLAP 客流分析组件 流量统计工具 大数据平台 实 时 流 处 理 ZDH 系统管理 CEP引擎 输入适配器 输出适配器 统一开放服务接口 G91, B170 G137, B207 G174, B239 G171, B189 标题: 字体: 微软雅黑 字号: 30-32pt 颜色: 主题蓝色 正文(1-5级): 字号: 28-12pt 颜色: 黑色 分布 式中 间件 Oozie HIVE MapReduce HBase DHSS YARN 安全管理 HDFS/ZXDFS ETL 数据源 流数据 静态数据 数据源 结构化数据 非结构化数据 半结构化数据

完善的大数据处理平台及工具 Hadoop基础上的ZTE优化版本 丰富的应用开发、维护工具 并行数据分析与挖掘工具 一体化数据管控平台 HDFS ZX-DFS HBase ZX-MR Mahout ZX-R Hive Flume Sqoop ZooKeeper ZX-Hadoop Manager SQL、WebService标准接口 数据导入导出工具 集群的批量安装、维护 MR作业的图形化开发工具 并行数据分析与挖掘工具 一体化数据管控平台 一体化数据管控平台包含元数据管理、系统管理、安全管理 分布式OLAP-ZXDAP 分布式挖掘算法库-ZXDMP 分布式搜索引擎-ZXQSP 丰富多样的数据展现-ZXUMAP

提供灵活的端到端数据处理方案 结构化 数据 流式数据 非结构 化数据 关系型 数据源 关系或非关系数据源 非关系型数据源 数据库和数据仓库 静态数据分析 分析结果 关系或非关系数据源 流式数据 CEP实时数据分析 实时结果 非关系型数据源 非结构 化数据 分析结果 数据分析建模

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据平台介绍 案例介绍 系统架构及特点 对Hadoop的优化改进 中移大数据测试情况 案例介绍

开源Hadoop系统存在的性能问题 心跳机制导致基于短作业任务调度性能低下 优化前的任务调度流程 优化前的通信机制任务调度流程 问题1:Hadoop作业初始化和结束阶段采用心跳机制,会引起10多秒的时间开销。但setup和cleanup两个任务做了一些非常简单的创建和删除临时目录的事情。 问题2:Hadoop采用心跳机制检测和维护系统中各个节点的正常运行; 采用心跳机制进行作业和任务调度时调度命令和状态的传送作业和任务执行效率低 优化前的任务调度流程 优化前的通信机制任务调度流程 心跳机制导致基于短作业任务调度性能低下

中兴通讯Hadoop系统性能优化解决方案 1/解决方案: 设计和实现新的作业初始化和结束清理任务,去除相应的心跳周期,因此可相 应去除10多秒的常数时间开销 2/解决方案: 改用“即时通信”机制,所有作业和任务调度相关的命令和状态不需任何等待 即时得到传递。 任务调度流程优化 通信机制调度流程优化 去除相应的心跳周期,改用“即时通信”机制,对WorldCount, Grep 和 TeraSort等MapReduce等标准算法性能提升达到30%以上。

Hadoop MR性能优化结果-典型算法 优 化 前 后 WordCount Grep Sort 处理时间缩短、系统处理更平稳

Hadoop MR性能优化结果-性能线性扩展 Standard Hadoop GlodenData Hadoop 集群性能随节点数增加呈线性增加

Hadoop MR Slot分配性能问题及优化方案 解决方案:采用资源环境感知动态调度技术,收集和分析Hadoop系统Slot资源分配信息,实现动态分配、调整Slot资源 (1) 在TaskTracker中增加ResourceInfoCollector,TaskTracker发起心跳通信申请任务时,都会调用ResourceInfoCollector收集本节点CPU、内存等硬件资源的使用信息,发送的信息一并传递给JobTracker (2)在JobTracker中添加ResourceInfoAnalysis,JobTracker在收到TaskTracker的信息后,对其中的节点资源使用信息进行分析和汇总,并依据Slot动态调整该节点合适的Slot数量,以此影响对系统当前作业中任务的调度

Hadoop MR性能优化结果-Slot动态分配 整体性能提升15%以上

Hadoop MR性能优化结果-Slot动态分配 优化后: 集群负载波动范围缩小,利用率提高,最终计算时间缩短 优化前: 集群负载波动较大,因而利用率并不高

Hadoop MR作业问题及优化方案 组混搭作业测试结果 问题:不同的作业,会具有不同的资源消耗特征,如:CPU技术密集型、I/O密集型、内存密集型等 解决方案:实时检测资源消耗特征,根据不同的特征对不同的作业进行均衡混搭分配,达到整个集群均衡的作业和任务分配调度 组混搭作业测试结果

Hadoop MR 性能优化结果-作业开销动态调配 优化前资源利用不均,优化后资源利用趋于均衡

对HDFS元数据存储的改进 采用中兴自研内存数据库替代MYSQL后,双机切换时间由数分钟降低到数秒 NameNode1 NameNode2 ZXDHSS-MEM 分布式内存库 IMAGE LOG 1、MYSQL方式倒换是需要几分钟时间 2、我们的倒换可达到秒级 采用中兴自研内存数据库替代MYSQL后,双机切换时间由数分钟降低到数秒

GoldenData Hbase功能增强—高速即时分析 研发Hive Over Hbase,实现了基于HBase的高效率复杂查询和统计汇总功能 实现了基于HBase内数据的HiveQL前端功能,性能提升数十倍

提供异构数据的ETL导入/导出工具 1、支持流计算、文本文件、关系数据库、HDFS、HBase等,以满足结构化、非结构化数据处理的需求 2、数据转换的过程界面化配置 3、数据转换的过程显性化监控

GoldenData产品其他功能优化 A B D C 功能优化 Hbase多列族副本 设定不同的副本个数,做到精细化的管理表的每个列族 HDFS支持FTP功能 支持FTP直接传文件到HDFS A B 功能优化 D C 性能统计、告警调优 提供MR、HDFS、Hive、Hbase等子系统的性能统计及告警功能 硬盘插拔调优 热插拔硬盘过程中, Hadoop可以持续写新的数据.

GoldenData算法优化 B A C 算法优化 D E Map相关调优 数据存取调优 JVM虚拟机调优 Hbase/Hive调优 Block大小调优 读取缓存大小调优 HDFS多硬盘配置 JVM虚拟机调优 JVM虚拟机的复用调优 JVM虚拟机内存调优 Hbase/Hive调优 HBase预分区 HBase调整scan缓存设置 Hive导入导出压缩 Hive 并行执行 reduce任务调优 reduce任务的slot数调优 reduce任务启动调度调优

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据平台介绍 案例介绍 系统架构及特点 对Hadoop的优化改进的总结 中移大数据测试情况 案例介绍

. . . 中国移动大数据平台测试环境 管理节点/元数据节点的配置:双路六核CPU、64GB内存、4块SATA硬盘、万兆以太网卡; 测试机配置: 管理节点/元数据节点的配置:双路六核CPU、64GB内存、4块SATA硬盘、万兆以太网卡;  数据/计算节点的配置:双路六核CPU、48GB内存,12块SATA硬盘、万兆以太网卡;  万兆交换机:24口万兆交换机。 测试环境: 18台测试机部署日志详单软件,其中2台作为管理节点节点,另外16台作为存储节点和计算节点。 其中性能和可扩展性需要用全部18台节点,其他项只使用其中10台进行测试。 测试网络拓扑图 管理节点1 管理节点2 计算/存储节点1 计算/存储节点2 备注:参与测试厂商:HP、IBM、intel、ZTE 报名未参与测试厂商:MS、美地森、浪潮 . . 万兆以太网交换机 . 计算/存储节点16

中国移动大数据平台主要工具 测试工具1、Hibench 测试工具2、NoSQL的PerformanceEvaluation Hibench BenchMark suite,开源的Hadoop性能测试软件 测试类别 测试负载 Micro BenchMark Sort Workcount TeraSort Machine learning Bayesian classification K-means clustering HDFS BenchMark Enhanced DFSIO DataAnalyticBenchmark HiveAggregation HiveAggregationComp 测试工具2、NoSQL的PerformanceEvaluation 用于测试NoSQL存储引擎的性能。 测试方法: 性能测试采用Hibench模拟产生不同的负载,记录测试时间,并计算出相关的性能指标。功能测试、可管理性测试、可靠性测试直接采用手工操作加脚本的方式进行验证。 可扩展性测试分为动态可扩展和性能可扩展。动态可扩展直接手工操作加脚本的方式进行验证,性能可扩展分别测试在不同节点规模下的性能,并确定线性加速比

包括结构化/非结构化数据存储引擎功能、并行计算引擎功能、数据统计、排序等 中国移动大数据平台主要测试项目 功能测试 包括结构化/非结构化数据存储引擎功能、并行计算引擎功能、数据统计、排序等 可管理性测试 包括安装部署、日志管理、性能检测、故障管理、网关告警等 可靠性测试 包括数据、存储节点故障测试、单磁盘故障测试、并行计算可靠性测试等 性能测试 包括数据读写性能、并行计算性能、结构化引擎性能测试等 可扩展性测试 包括性能扩展、动态扩展测试等 结论: 本次中移测试,必选项我们全部通过,可选项的测试性能绝大多数指标均优于其他厂商。

目 录 大数据时代的机遇和挑战 大数据关键技术发展趋势 中兴通讯大数据解决方案介绍 案例介绍

案例1:中国移动北方信息港日志详单大数据项目 中兴通讯11月底中标该项目,共130个处理节点,存储物理容量为3P,有效容量1P。 应用场景 主要用于海量数据存储及查询分析 在不支持在OLTP场景下替代如Oracle、Sybase等数据库服务 主要数据源 wap网关日志、点击流、计费结算详单、信令等一次写入、无追加及修改要求的数据。 相关接口要求 数据存取接口和数据查询分析接口, 如针对非结构化数据的HDFS接口; MR接口、标准JDBC/SQL接口等。。

案例2:O2 DaaS服务 O2做了什么? Big Data收集 1、收集O2手机用户一段时期内的位置信息 2、通过分析海量的位置信息,得出各类价值用户的流动分布规律、消费习惯,给出咨询、预测结果 3、将这些统计信息、分布规律、消费习惯、咨询结果有偿提供给商家;并开展相关的其他应用(广告等) Data Mining & Research ZTE做了什么? 提供ZTE自主研发、业界领先的基于NoSQL的实时高速分布式缓存技术。 超过30万次操作/秒 实现并发处理40亿次位置更新事件/天 最大并发支持10万个过滤规则 对数据挖掘、分析,实现位置大数据的应用。并且,可对第三方应用提供开放接口,提供更多的大数据服务。 Provide to Business Partner

案例3:江苏电信基于IPTV视频的个性化推荐 项目背景 视频包含了声音、图像和文字等多种形式的信息,因而比文本、声音、图像等单模态的信息包括了更为丰富的内容,但另一方面也加大了视频处理的难度;用户对于视频的评论往往直接隐含了用户的观看偏好;结合视频底层特征和用户评论包含的隐式打分,丰富用户稀疏的打分矩阵,是为用户提供精准视频推荐的重要思路。 解决方案 基于视频信息,抽取视频底层特征,抽取视频之间隐含的关联; 根据用户评论,判断情感倾向,丰富用户打分矩阵; 分别从用户行为、评论和内容关联,预测用户打分,并基于此进行视频推荐。 关键技术 网页的爬取技术 底层视频特征抽取技术 用户评论的情感分类 协同推荐技术

案例4:中国联通WoStore精准营销——采集及处理 数据 采集 UDC/UDB处理 数据 应用 在用户数据统一管理基础上利用传统和大数据技术进行数据采集 对采集的用户数据通过UDC/UDB系统进行处理,给出用户360度全方位画像 以用户360度画像为基础,制定各种应用策略,针对不同的需求,推广对应的应用,实现用户数据的价值

案例4:中国联通WoStore精准营销——策略 营销策略 根据不同的需求,制定不同的应用策略