Download presentation
Presentation is loading. Please wait.
Published by癸皖 冯 Modified 8年之前
1
当移动互联网遇到大数据 2014-10 阎志涛 TalkingData 研发副总裁
2
数据来源: TalkingData 中国移动互联网现状 - 用数据说话 移动互联网大数据特点 移动互联网大数据价值和利用 移动互联网大数据技术 移动互联网大数据未来和挑战
3
数据来源: TalkingData 中国移动互联网现状 – 用数据说话 中国移动智能设备 中国移动智能设备超过 8 亿 Android 和 iOS 设备的比例约为 2:1 苹果、三星、小米、华为占据前 四 iPhone 5S, iPhone 4S, iPhone 5,iPhone 4 分列苹果设备的前四 名 小米 MI 3, MI 2S ,红米和三星 Galaxy Note 2 分列安卓的前四 位 iPhone 6 和 iPhone 6 Plus 最近快 速普及中,在 iOS 设备中总计占 比已经超过 2% 安卓设备中,没有一款机型占有 率超过 3% ,市场更为碎片化
4
数据来源: TalkingData 中国移动互联网现状 – 用数据说话 Android 和 iOS 版本情况 Android 系统升级缓慢 Android 4.2.2 仍旧是占比最高 的安卓系统 Android 4.4.2 ( 2013 年 12 月发 布)逐渐普及中 iOS 用户升级迅速, iOS 7.1.2 ( 2014 年 7 月发布)占比最高 iOS 8.0.2 ( 2014 年 9 月 26 日发 布)占比升到第二位 2014.7.7 – 2014.7.13 2014.10.6 – 2014.10.12
5
数据来源: TalkingData 中国移动互联网现状 – 用数据说话 移动应用使用情况 BAT 以及其关联企业所开发应 用占据 Top 10 应用中的 9 席 微信和 QQ 一直雄踞中国移动应 用覆盖率前两名,并且远远超 过第三名淘宝 应用覆盖前 50 名应用中,视频 和音频等娱乐类应用占据 10 款,电商类应用 6 款,社交类应 用 5 款,游戏类 3 款。越来越多 的人在移动设备侧完成休闲娱 乐和购物。 在 Android 系统前 50 名中,搜 索、助手、浏览器、安全等工 具软件多达 13 款且多为 BAT3 占 领。
6
数据来源: TalkingData 中国地区,平均每部设备中安装 33 款非系统应用,其中 3 款是游戏。 中国移动互联网现状 – 用数据说话 AVG. APP 33 款 AVG. Game 3 款
7
数据来源: TalkingData 中国移动仍然是最大的移动运营商 中国移动互联网现状 – 用数据说话
8
数据来源: TalkingData 人们在移动侧的联网方式 中国移动互联网现状 – 用数据说话
9
数据来源: TalkingData 移动互联网大数据特点 移动互联网大数据的 4V –Volume 随时随地都在产生数据,数据量更大 –Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更为精准的位置数据,各种传 感器数据。 –Velocity 对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据产生价值。 –Value 更多高价值的数据产生 万物皆可联网,数据方便人的生活 –IOT 逐渐成为现实,万物都在贡献数据 – 各种智能硬件逐渐普及
10
数据来源: TalkingData 移动互联网大数据价值和利用 更好的个性化服务 更为精准的个性化营销 更为便利的生活,各种 O2O 服务
11
数据来源: TalkingData 租房宝 —— 获客推广 案例分享
12
数据来源: TalkingData 潜在高价值客群 居住城市:北、上、广、深等一线城市 生活半径:上海内环以外,中环以内 年龄: 22 ~ 30 岁 生活特征:宅男腐女 至少拥有一张信用卡 招行、交通、中信卡用户更为优质 iphone 用户较多 三星 galaxy 、 note 系列用户较多 租房宝潜客定义
13
数据来源: TalkingData 移动互联网大数据价值案例 修正 IP 库对位置的映射 –IP 库作为互联网的一种数据,是互联网广告做城市定向的一个基础 – 传统的 IP 库利用 IP 到运营商的分配为基础, QQ 类似的应用做众包来修正 – 由于运营商倒卖 ip 资源,在城市维度就已经有很大误差 – 很难达到更为精准的从 ip 到位置的映射 – 移动侧则可以方便的通过 GPS 进行 IP 库校准
14
数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流
15
数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流
16
数据来源: TalkingData 移动互联网大数据价值案例 O2O 电影在线购票反向导流
17
数据来源: TalkingData 移动互联网大数据技术 移动互联网大数据处理的一般流程 数据获取数据收集数据存储 数据计算 数据服务
18
数据来源: TalkingData 数据获取 移动互联网大数据技术 移动互联网大数据处理系统架构 监控和管理监控和管理 数据收集和 ETL 分布式文件系统 元数据 离线计算 流式计算批量计算 机器学习 接口层 数据应用 资源和任务调度资源和任务调度 NoSQLRDBMS
19
数据来源: TalkingData 移动互联网大数据技术 移动互联网数据获取技术 – 移动 App 直接获取 – 通过 SDK 获取 – 通过 Spider 爬取 移动互联网数据收集 – 一般数据都以日志形式在服务端进行收集 –LVS 和 nginx 做为前置 –Kafka, Fluentd, Flume, Scribe 作为日志收集的技术框架 ETL(Extract-Transform –Load ) 技术 –Kettle – 基于 Actor 模型的并行处理 – 利用 Pig, Hive ,甚至 MR 做 ETL
20
数据来源: TalkingData 移动互联网大数据技术 分布式文件系统 – 分布式文件系统( Distributed File System )是指文件系统管理的物理存储资源不一定直接连接在本地节点 上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机 / 服务器模式。
21
数据来源: TalkingData 移动互联网大数据技术 NoSQL (如下描述来自于维基百科) –NoSQL 有时也称作 Not Only SQL 的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。缩写关联式数据库数据库管理系统 – 两者存在许多显著的不同点,其中最重要的是 NoSQL 不使用 SQL 作为查询语言。其数据存储可以不需要固定 的表格模式,也经常会避免使用 SQL 的 JOIN 操作,一般有水平可扩展性的特征。 NoSQL 的实现具有二个特 征:使用硬盘,或者把随机存储器作存储载体。 JOIN水平可扩展性硬盘随机存储器
22
数据来源: TalkingData 移动互联网大数据技术 常用 NoSQL 产品 –Hbase 开源的 Google BigTable 的实现 底层是用 HDFS 存储 与 Hadoop 完美的结合 多客户端的访问 –Cassandra Facebook 开发的一套 NoSQL 产品 集 Google BigTable 和 Amazon Dynamo 的完全分布式架构于一身 不依赖于底层的分布式存储 相对于 Hbase 更好的读写性能 –MongoDB 10Gen 公司开发的 NoSQL 数据库 文档型数据库,采用 BSON 格式存储 可以非常灵活的进行字段的增加 –Redis 内存式 KV 数据库 适合做集中式缓存
23
数据来源: TalkingData 移动互联网大数据技术 离线计算 –Hadoop MapReduce 对 Google MapReduce 的开源实现,大数据领域分布式计算的基础性的实现。 –Hive 在 Hadoop 上的数据仓库,支持 SQL 语言, SQL 语言最终会翻译成 Map Reduce –Pig 利用 Pig Latin 进行 Map Reduce 开发 –Spark 最近非常火热的基于内存的的分布式计算框架,采用 Scala 语言开发,相对于 Hadoop MapReduce, 有巨大的 性能提高 –Presto Facebook 开发的分布式查询和分析引擎 –Impala Cloudera 开发的分布式查询和分析引擎
24
数据来源: TalkingData 移动互联网大数据技术 流式计算 –Storm Twitter 开发的一套开源的分布式流式计算框架 –Spark Streaming 基于 Spark 的一套流式计算框架,事实上是小 batch 模式的计算
25
数据来源: TalkingData 移动互联网大数据技术 批量计算 –Spark Streaming 如上一张 slides 所讲 –Torch TalkingData 开发的一套分布式批量计算框架,支持 Count, Sum, Join 等计算。
26
数据来源: TalkingData 移动互联网大数据技术 机器学习 –Mahout 在 Hadoop 上实现的一套开源的机器学习库,包含了主流的机器学习算法的实现 包含 CF, Classification, Clustering, Topic Model 等等主要的机器学习算法 最新版本已经抛弃了 MR ,逐渐拥抱 Spark –Weka 一个开源的机器学习库,适合学习用,不适合大数据环境 –Spark Mllib 在 Spark 上的一套开源的机器学习库 包含 Kmeans, Linear SVM, LR 等一些常用的机器学习算法的实现 –H2O 基于 Spark 的深度学习库 –Parameter Server CMU, Baidu, Google,Intel 等等提供支持的一套分布式机器学习系统以及算法实现
27
数据来源: TalkingData 移动互联网大数据技术 分布式任务调度 –Oozie Oozie 是 Apache 社区一套开源的进行分布式任务调度的系统。支持将不同的 MapReduce 任务组合成一个工 作 流。 – Azkaban Azkaban 是 LinkedIn 开源出来的一套分布式任务调度系统,相比 Oozie 更为简洁。
28
数据来源: TalkingData 移动互联网大数据技术 监控和管理 –Gangalia 一个分布式的系统监控工具,可以很方便的监控系统的内存、 CPU 、网络等。 – Nagios 另外一个开源的系统监控工具,除了监控指标,还支持通知和报警
29
数据来源: TalkingData 移动互联网大数据技术 其他相关技术 –ZooKeeper ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是 Hadoop 和 Hbase 的重要组件。 [2] 提供 Java 和 C 的接口。分布式分布式应用程序 – Protocol Buffers Google 定义的一套进行数据集成的格式 –Thrift 类似于 PB ,来自于 Facebook 。 –JSON 适合 open api 使用的轻量级的数据传输和格式
30
数据来源: TalkingData 移动互联网大数据技术 一个大数据参考技术架构实现( TalkingData Data Managemeng Platform)
31
数据来源: TalkingData 移动互联网大数据未来和挑战 可穿戴设备
32
数据来源: TalkingData 移动互联网大数据未来和挑战 智能家居
33
数据来源: TalkingData 移动互联网大数据未来和挑战 智能汽车 智能自行车 智能农业 …
34
数据来源: TalkingData 移动互联网大数据未来和挑战 移动互联网大数据的挑战 – 隐私问题 – 数据安全
35
数据来源: TalkingData 谢谢! http://www.talkingdata.com
Similar presentations