ArchSummit 全球架构师峰会深 圳站 2015. 移动大数据平台架构实践 阎志涛 关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月, 2013 年完成千万美元 A 轮融资 ( 北极光 领投 ) , 2014 年完成数千万美元的.

Slides:



Advertisements
Similar presentations
食品安全 行政院長 : 江宜樺. 目錄 1. 什麼油能吃? 2. 椰子油 3. 牛油事件 4. 豬油事件篇 5. 解決問題 6. 心得.
Advertisements

環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
虹膜识别健康养老服务智能系统项目.
高雄師範大學103學年度教育學程招生準備方向 高師大師培中心 凃金堂
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
臺中市政府警察局 婦幼警察隊 小隊長吳敏男、謝豐昌
定型化契約現況介紹 -遊留學契約評析 報告人:陳星宏 組長 2011年11月15日
狙公 劉基.
天主教善導小學 錦繡中華 --- 專題研習報告比賽 實地考察 福建客家土樓的變與同.
職校、五專群科簡介.
公会之家游戏圈社交软件 游戏联通世界.
第二組 組長:16葛詠馨 組員:8張庭瑋、14葉映歡 17鄭琇文、37黃世宣
漫 步 現 金 流 現金流,這輩子非得瞭解….
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
应用性能管理提升客户体验 龙珠客户案例分享 肖澍 云智慧公司.
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
E-Mapreduce培训系列 基本介绍.
云智慧助力在线医疗服务性能优化 —让IT运营更简单 2015年4月 云智慧科技(北京)有限公司.
行動終端應用軟體創作專題競賽 題目:商品後端管理APP
50个经典面试问答 主讲:卢秀峰.
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
新华沪贵银APP 使用指南.
台灣加油!! 決不放棄!! 加油!! 加油!! 馬英九.
論文心得報告 冷凍二忠 39號 顏酩修.
日本体贴入微的服务业.
为教师开展大数据课程教学提供全方位、一站式服务
第十八章 沟通的真理.
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
10亿说:行业精益发展,O2O热度空前 TalkingData 2014移动互联网数据报告 2015年1月
拿 法 常晓波博士 Mobile:
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
精通redis数据库开发、管理与优化 第1讲 什么是redis 讲师:黄锡峰.
教務行政資訊系統 簡介 資訊科技中心 資訊系統組 徐振琦
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
北極熊 華德學校 田根繩.
大數據商業模式與應用領域.
2014/9/15 南一中教學雲操作說明.
愛惜生命.
味精的妙用 班別:4A 姓名:盧芷桐(23),吳宝怡 (25),余心 穎,(26).
珊瑚白化和全球化之關係 作者:仲士豪、姜少強.
組員:4960P013 陳佳琪 4960P018 柯琬婷 4960P054 林家瑜 指導老師: 陳碩珮 老師
出生於:1866年11月12日 是中國的革命家,第一任中華民國臨時大總統
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
班級:二技企管四甲 組員:李淑涵、林智萱 鄭偉慎、黃珮菁 林怡秀、蔡文欣 指導老師:林育理 老師
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
102學年度下學期 班親會 五年仁班 楊曉逸老師.
如何成立公司 組員:洪鼎鈞 謝宜龍 林永貴 曾賴志行.
第二階段「校園徒步區建置」 執行成果報告.
薏仁=益人 20510李佶秝.
工业设计教研室 主讲教师:李明 Mobile: 教学主楼1385室
新北市立板橋高中新興科技區域推廣中心 顏椀君
行政救濟實務 -行政訴訟 楊東連 行政救濟實務.
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
明日夫子APP 下載流程與操作說明 中大團隊.
學校:德明財經科技大學 系別/班級:國貿系四年甲班 姓名:彭咨錞 2010/08/26
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

ArchSummit 全球架构师峰会深 圳站 2015

移动大数据平台架构实践 阎志涛

关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月, 2013 年完成千万美元 A 轮融资 ( 北极光 领投 ) , 2014 年完成数千万美元的 B 轮融资 (MileStone 和软银领投 ) ,总部位于北京,在美国硅谷、 日本东京、上海都设有分公司; 经过近四年的高速发展, TalkingData 逐步打造了由开发者服务平台、数据服务平台、数据商业化平 台为中心的数据生态体系,覆盖超过 15 亿独立智能设备,服务超过 8 万款移动应用,以及 6 万多应用 开发者; 公司服务的客户既有如:腾讯、百度、网易、搜狐、 360 、 Google 、 Yahoo 、 Zynga 、宝开、聚 美、唯品会、嘀嘀打车等知名互联网企业,又有中国银联、招商银行、兴业银行、中信银行、平安 集团、国信证券、海通证券、 Orchirly 、碧桂园、亨得利、全城热恋等传统行业巨头; 我们在移动互联网发展过程中创造数据价值,并帮助传统行业积极拥抱未来。

App AnalyticsGame AnalyticsMobile Ad TrackingMobile DMP 游戏运营分析 移动广告监测 移动数据管理平台 移动应用统计分析 应用款数 10 亿 + 累计覆盖 40% 覆盖 Top 盈收游戏 9亿+9亿+ 玩家累计覆盖 190+ 家 网盟对接 40% 覆盖 行业广告主 5 亿+点击 月监测点 腾讯、阿里、谷歌、 Inmobi 等数十家 DSP 在和我们合作

关于 TalkingData 15 亿 万 + 2万+2万 全球覆盖设备应用开发者 游戏开发者 对接广告平台

移动互联网大数据特点 移动互联网大数据的 4V –Volume 随时随地都在产生数据,数据量更大 –Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更 为精准的位置数据,各种传感器数据。 –Velocity 对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据 产生价值。 –Value 更多高价值的数据产生 万物皆可联网,数据方便人的生活 –IOT 逐渐成为现实,万物都在贡献数据 – 各种智能硬件逐渐普及

我们每天处理的原始数据量

数据相关产品 2011 年 – App Analytics 2012 年 – AdTracking 2013 年 – Game Analytics 2014 年 – Data Center, Mobile DMP, Mobile Insight 2015 年 – DataSync ……

早期的架构

面临的挑战 研发团队完全按照业务线组织,多个竖井 很多能力没有服务化,重复建设 App Analytics SDK Collector Data Store Compute Service Game Analytics SDK Collector Data Store Compute Service AdTracking SDK Collector Data Store Compute Service DMP Data Store Compute Service Insight Data Store Compute Service

面临的挑战 整个架构为统计分析业务而生 未来更多的数据业务 – 纯粹竖井模式很难支持新业务的开展 更多的数据价值探索的需求 – 纯粹竖井模式很难深入了解技术 更多的数据( Bigger than Bigger) – 纯粹竖井模式不利于资源的合理利用 没有统一的数据视图

架构升级 - TD 移动大数据管理平台( π 系统) 整合多产品线的基础服务 – 统一存储 – 统一计算 – 统一数据总线 – 统一数据挖掘 – 统一视觉呈现 – 统一数据收集 – 统一 SDK – 统一监控和管理 更好的水平扩展能力 提供更灵活高效的技术支撑 – 产品能迭代速度更快 – 研究成果加速流动

π 系统架构

统一 SDK – 新的统一的数据收取框架 – 业务层和基础层分离 – 非阻塞模式 – 处理各种异常 – 高效存储格式

统一数据收集 统一数据收集系统 – 利用 C++,Node.js, 基于 lmdb 的内存队列 – 支持分布式部署 – 数据收集系统支持存储转发 – 分布式收集节点和中心节点数据传输高压缩比

统一数据收集

统一的数据总线 统一数据总线 – 基于 Kafka 的数据总线 – 规范不同业务线的 topic 命名规则 – 统一的管理

统一存储 统一的分布式存储 (HDFS) – 数据域管理,多业务系统可以共享存储资源 – 数据文件按照时间进行切片 – 数据文件时效管理,中间数据可以自动删除 – 数据自动归档 –Parquet 列式存储格式,方便数据计算 – 计划支持数据 EC(Erasure Coding) – 分布式缓存 Tachyon

统一存储 NoSQL 数据库 – 开发 Bitmap 存储, bitmap 基本运算下沉到存储层,底 层基于 RocksDB –MongoDB 3.0(WiredTiger 引擎),基于 SSD –Redis

统一存储 关系型存储 –MySQL Cluster(MariaDB,TokuDB) –WebScaleSQL

统一存储 元数据管理 – 基于 Hcatalog 进行二次开发 – 支持不同数据源 – 支持 json,protobuffer 等数据格式 – 支持版本

统一计算 统一的计算框架和接口 – 基于 Yarn 进行计算资源调度(调研 Mesos) – 基于 Spark 的并行计算框架 – 基于预先生成 Bitmap 的 OLAP 解决方案 – 利用 Spark Streaming 进行流式计算 – 自行开发的任务调度系统 – 统一的计算查询接口

统一的数据挖掘 数据挖掘服务化 – 基于统一计算框架 – 针对 Spark, 自行实现了 LR,DT 等数据挖掘算法 库 – 将数据挖掘服务化,变成统一计算的一种能力

统一的视觉呈现 – 视觉呈现组件化 – 支持各种自定义报表 – 支持各种数据可视化效果

统一监控 – 基于 Zabbix 开发 – 支持 CPU 、内存、硬盘、网络以及进程运行状 态等等的监控 – 支持短信、邮件、微信报警

看上去很美好,但是,罗马不是一天建成的 上线统一 Collector 后,出现雪崩 – 接收请求的 Collector 机器只有两个 –Nginx upstream 配置 fall=1 统一 Kafka 数据总先后,数据压力大后,各业务系 统相互影响 – 对 Kafka 了解不足 – 对压力预估不足 Spark 新版本对 Yarn-alpha 不再支持 – 新版本 Spark 不能使用

带来的好处 更方便的增加新的数据业务 术业有专攻,工程师可以更深入的了解技术 资源可以更合理的进行配备