当移动互联网遇到大数据 2014-10 阎志涛 TalkingData 研发副总裁. 数据来源: TalkingData  中国移动互联网现状 - 用数据说话  移动互联网大数据特点  移动互联网大数据价值和利用  移动互联网大数据技术  移动互联网大数据未来和挑战.

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

ArchSummit 全球架构师峰会深 圳站 移动大数据平台架构实践 阎志涛 关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月, 2013 年完成千万美元 A 轮融资 ( 北极光 领投 ) , 2014 年完成数千万美元的.
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
提升应用内HTML5 的开发和使用体验
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
E-Mapreduce培训系列 基本介绍.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
巨量資料平台: Hadoop的生態系.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
为教师开展大数据课程教学提供全方位、一站式服务
海量 数据分析架构.
转正述职报告 乐恩公司 史航
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
一种营销模式的转型,一种全新的金融房贷模式
10亿说:行业精益发展,O2O热度空前 TalkingData 2014移动互联网数据报告 2015年1月
北京移动(中国移动的子公司)是中国主要的无线运营商之一。中国移动做为无线市场的开拓者,拥有中国70%的无线通信市场,也是世界上第二大的无线提供商,北京移动拥有上亿的手机用户,支持60多个国家的漫游业务。 为北京移动创造的价值 … 优秀的性能,支持了庞大的用户群 标准化了系统接口 加强了系统的灵活性.
基于R和pentaho的全套开源BI平台的实现
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
精通redis数据库开发、管理与优化 第1讲 什么是redis 讲师:黄锡峰.
第九讲 Hadoop架构再探讨 (2016春季学期)
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
Ambari 简介 师成 伟成培训 © 2017.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Hadoop平台與應用規劃實作 報告者:劉育維.
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
大学计算机基础 典型案例之一 构建FPT服务器.
从TDW-Hive到TDW-SparkSQL
教務行政資訊系統 簡介 資訊科技中心 資訊系統組 徐振琦
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
软件工程基础 云计算概论 刘 驰.
数据挖掘工具性能比较.
厂商—型号 海尔-PAD002 外观设计 建议零售价格:2999元 上市时间:2011年3月 目标人群:有移动互联需求的商务人士
PaPaPa项目架构 By:Listen 我在这.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
大數據商業模式與應用領域.
DevDays ’99 The aim of this mission is knowledge..
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
SOA – Experiment 2: Query Classification Web Service
微机系统的组成.
VisComposer 2019/4/17.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
下一代网络营销探讨 —网络营销移动化问题思考
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
Google的云计算 分布式锁服务Chubby.
基于列存储的RDF数据管理 朱敏
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
大数据发展的问题与方向 中国信通院云大所.
如何著手入門MyLion 如何下載和註冊 讓我們來談談如何確保所有獅友知道如何下載和註冊app。.
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
Presentation transcript:

当移动互联网遇到大数据 阎志涛 TalkingData 研发副总裁

数据来源: TalkingData  中国移动互联网现状 - 用数据说话  移动互联网大数据特点  移动互联网大数据价值和利用  移动互联网大数据技术  移动互联网大数据未来和挑战

数据来源: TalkingData 中国移动互联网现状 – 用数据说话 中国移动智能设备 中国移动智能设备超过 8 亿 Android 和 iOS 设备的比例约为 2:1 苹果、三星、小米、华为占据前 四 iPhone 5S, iPhone 4S, iPhone 5,iPhone 4 分列苹果设备的前四 名 小米 MI 3, MI 2S ,红米和三星 Galaxy Note 2 分列安卓的前四 位 iPhone 6 和 iPhone 6 Plus 最近快 速普及中,在 iOS 设备中总计占 比已经超过 2% 安卓设备中,没有一款机型占有 率超过 3% ,市场更为碎片化

数据来源: TalkingData 中国移动互联网现状 – 用数据说话 Android 和 iOS 版本情况 Android 系统升级缓慢 Android 仍旧是占比最高 的安卓系统 Android ( 2013 年 12 月发 布)逐渐普及中 iOS 用户升级迅速, iOS ( 2014 年 7 月发布)占比最高 iOS ( 2014 年 9 月 26 日发 布)占比升到第二位 – –

数据来源: TalkingData 中国移动互联网现状 – 用数据说话 移动应用使用情况 BAT 以及其关联企业所开发应 用占据 Top 10 应用中的 9 席 微信和 QQ 一直雄踞中国移动应 用覆盖率前两名,并且远远超 过第三名淘宝 应用覆盖前 50 名应用中,视频 和音频等娱乐类应用占据 10 款,电商类应用 6 款,社交类应 用 5 款,游戏类 3 款。越来越多 的人在移动设备侧完成休闲娱 乐和购物。 在 Android 系统前 50 名中,搜 索、助手、浏览器、安全等工 具软件多达 13 款且多为 BAT3 占 领。

数据来源: TalkingData 中国地区,平均每部设备中安装 33 款非系统应用,其中 3 款是游戏。 中国移动互联网现状 – 用数据说话 AVG. APP 33 款 AVG. Game 3 款

数据来源: TalkingData 中国移动仍然是最大的移动运营商 中国移动互联网现状 – 用数据说话

数据来源: TalkingData 人们在移动侧的联网方式 中国移动互联网现状 – 用数据说话

数据来源: TalkingData 移动互联网大数据特点 移动互联网大数据的 4V –Volume 随时随地都在产生数据,数据量更大 –Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更为精准的位置数据,各种传 感器数据。 –Velocity 对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据产生价值。 –Value 更多高价值的数据产生 万物皆可联网,数据方便人的生活 –IOT 逐渐成为现实,万物都在贡献数据 – 各种智能硬件逐渐普及

数据来源: TalkingData 移动互联网大数据价值和利用 更好的个性化服务 更为精准的个性化营销 更为便利的生活,各种 O2O 服务

数据来源: TalkingData 租房宝 —— 获客推广 案例分享

数据来源: TalkingData 潜在高价值客群 居住城市:北、上、广、深等一线城市 生活半径:上海内环以外,中环以内 年龄: 22 ~ 30 岁 生活特征:宅男腐女 至少拥有一张信用卡 招行、交通、中信卡用户更为优质 iphone 用户较多 三星 galaxy 、 note 系列用户较多 租房宝潜客定义

数据来源: TalkingData 移动互联网大数据价值案例 修正 IP 库对位置的映射 –IP 库作为互联网的一种数据,是互联网广告做城市定向的一个基础 – 传统的 IP 库利用 IP 到运营商的分配为基础, QQ 类似的应用做众包来修正 – 由于运营商倒卖 ip 资源,在城市维度就已经有很大误差 – 很难达到更为精准的从 ip 到位置的映射 – 移动侧则可以方便的通过 GPS 进行 IP 库校准

数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流

数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流

数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流

数据来源: TalkingData 移动互联网大数据技术 移动互联网大数据处理的一般流程 数据获取数据收集数据存储 数据计算 数据服务

数据来源: TalkingData 数据获取 移动互联网大数据技术 移动互联网大数据处理系统架构 监控和管理监控和管理 数据收集和 ETL 分布式文件系统 元数据 离线计算 流式计算批量计算 机器学习 接口层 数据应用 资源和任务调度资源和任务调度 NoSQLRDBMS

数据来源: TalkingData 移动互联网大数据技术 移动互联网数据获取技术 – 移动 App 直接获取 – 通过 SDK 获取 – 通过 Spider 爬取 移动互联网数据收集 – 一般数据都以日志形式在服务端进行收集 –LVS 和 nginx 做为前置 –Kafka, Fluentd, Flume, Scribe 作为日志收集的技术框架 ETL(Extract-Transform –Load ) 技术 –Kettle – 基于 Actor 模型的并行处理 – 利用 Pig, Hive ,甚至 MR 做 ETL

数据来源: TalkingData 移动互联网大数据技术 分布式文件系统 – 分布式文件系统( Distributed File System )是指文件系统管理的物理存储资源不一定直接连接在本地节点 上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机 / 服务器模式。

数据来源: TalkingData 移动互联网大数据技术 NoSQL (如下描述来自于维基百科) –NoSQL 有时也称作 Not Only SQL 的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。缩写关联式数据库数据库管理系统 – 两者存在许多显著的不同点,其中最重要的是 NoSQL 不使用 SQL 作为查询语言。其数据存储可以不需要固定 的表格模式,也经常会避免使用 SQL 的 JOIN 操作,一般有水平可扩展性的特征。 NoSQL 的实现具有二个特 征:使用硬盘,或者把随机存储器作存储载体。 JOIN水平可扩展性硬盘随机存储器

数据来源: TalkingData 移动互联网大数据技术 常用 NoSQL 产品 –Hbase 开源的 Google BigTable 的实现 底层是用 HDFS 存储 与 Hadoop 完美的结合 多客户端的访问 –Cassandra Facebook 开发的一套 NoSQL 产品 集 Google BigTable 和 Amazon Dynamo 的完全分布式架构于一身 不依赖于底层的分布式存储 相对于 Hbase 更好的读写性能 –MongoDB 10Gen 公司开发的 NoSQL 数据库 文档型数据库,采用 BSON 格式存储 可以非常灵活的进行字段的增加 –Redis 内存式 KV 数据库 适合做集中式缓存

数据来源: TalkingData 移动互联网大数据技术 离线计算 –Hadoop MapReduce 对 Google MapReduce 的开源实现,大数据领域分布式计算的基础性的实现。 –Hive 在 Hadoop 上的数据仓库,支持 SQL 语言, SQL 语言最终会翻译成 Map Reduce –Pig 利用 Pig Latin 进行 Map Reduce 开发 –Spark 最近非常火热的基于内存的的分布式计算框架,采用 Scala 语言开发,相对于 Hadoop MapReduce, 有巨大的 性能提高 –Presto Facebook 开发的分布式查询和分析引擎 –Impala Cloudera 开发的分布式查询和分析引擎

数据来源: TalkingData 移动互联网大数据技术 流式计算 –Storm Twitter 开发的一套开源的分布式流式计算框架 –Spark Streaming 基于 Spark 的一套流式计算框架,事实上是小 batch 模式的计算

数据来源: TalkingData 移动互联网大数据技术 批量计算 –Spark Streaming 如上一张 slides 所讲 –Torch TalkingData 开发的一套分布式批量计算框架,支持 Count, Sum, Join 等计算。

数据来源: TalkingData 移动互联网大数据技术 机器学习 –Mahout 在 Hadoop 上实现的一套开源的机器学习库,包含了主流的机器学习算法的实现 包含 CF, Classification, Clustering, Topic Model 等等主要的机器学习算法 最新版本已经抛弃了 MR ,逐渐拥抱 Spark –Weka 一个开源的机器学习库,适合学习用,不适合大数据环境 –Spark Mllib 在 Spark 上的一套开源的机器学习库 包含 Kmeans, Linear SVM, LR 等一些常用的机器学习算法的实现 –H2O 基于 Spark 的深度学习库 –Parameter Server CMU, Baidu, Google,Intel 等等提供支持的一套分布式机器学习系统以及算法实现

数据来源: TalkingData 移动互联网大数据技术 分布式任务调度 –Oozie Oozie 是 Apache 社区一套开源的进行分布式任务调度的系统。支持将不同的 MapReduce 任务组合成一个工 作 流。 – Azkaban Azkaban 是 LinkedIn 开源出来的一套分布式任务调度系统,相比 Oozie 更为简洁。

数据来源: TalkingData 移动互联网大数据技术 监控和管理 –Gangalia 一个分布式的系统监控工具,可以很方便的监控系统的内存、 CPU 、网络等。 – Nagios 另外一个开源的系统监控工具,除了监控指标,还支持通知和报警

数据来源: TalkingData 移动互联网大数据技术 其他相关技术 –ZooKeeper ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是 Hadoop 和 Hbase 的重要组件。 [2] 提供 Java 和 C 的接口。分布式分布式应用程序 – Protocol Buffers Google 定义的一套进行数据集成的格式 –Thrift 类似于 PB ,来自于 Facebook 。 –JSON 适合 open api 使用的轻量级的数据传输和格式

数据来源: TalkingData 移动互联网大数据技术 一个大数据参考技术架构实现( TalkingData Data Managemeng Platform)

数据来源: TalkingData 移动互联网大数据未来和挑战 可穿戴设备

数据来源: TalkingData 移动互联网大数据未来和挑战 智能家居

数据来源: TalkingData 移动互联网大数据未来和挑战 智能汽车 智能自行车 智能农业 …

数据来源: TalkingData 移动互联网大数据未来和挑战 移动互联网大数据的挑战 – 隐私问题 – 数据安全

数据来源: TalkingData 谢谢!