Presentation is loading. Please wait.

Presentation is loading. Please wait.

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.

Similar presentations


Presentation on theme: "大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈."— Presentation transcript:

1 大数据基础技术和应用

2 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用

3 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈 进 TB 时代,全球一共新产生了约 180EB 的数据; 在 2015 年,这个数字预计达到 了 8ZB 。 而有市场研究机构预测: 到 2020 年,整个世界的数据总 量将会增长 44 倍,达到 352ZB ( 1ZB=10 亿 TB )!

4 “ 大量化 (Volume) 、多样化 (Variety) 、快速化 (Velocity) 、价值密度低( Value ) ” 就是 “ 大数据 ” 的显著特征,或者说,只有具备这些特点的数据,才是大数据。 大数据的 4V 特征

5 如何跨越数据鸿沟 大数据要求人们改变对精确性的 苛求,转而追求混杂性,要求人 们改变对因果关系的追问,转而 追求相关关系,这种思维的转变 将是革命性的,如果企业不能认 识这一思维方式转变的重要性和 迫切性,将会面临 “ 数据鸿沟 ” 的挑 战 From 张亚勤 Volume Variety Velocity Value 工程技术 策略技术

6 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例

7 Hadoop 介绍 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce 。 HDFS 实现存储, 而 MapReduce 实现分析处理 关系型数据库 Hadoop 数据量 GBPB 使用场景点查询或更新 整个数据集,一次 写多次读,没有更 新 结构化程度结构化 半结构化及非结构 化 规范化遵守范式无 扩展性非线性线性 附: Hadoop 和网格计算的区别

8 HDFS 基本命令 %hadoop fs -ls. %hadoop fs -mkdir books %hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt 全称: Hadoop Distributed File System

9 HDFS 特点 write-one-read- many 流式访问本地计算 容错及备份

10 MapReduce 是一种编程模型 void map(LongWritable key,Text value,OutputCollector output,Reporter reporter); void reduce(Text key, Iterator values,OutputCollector output, Reporter reporter);

11 MapReduce 求每年的最高气温的伪代码

12 MapReduce 求每年的最高气温的数据流 1995234234 1995345678 1996345562 1995 [34,78] 1996 [62] map 1995 78 1996 62 reduce

13 MapReduce 求每年的最高气温的数据流 1995234234 1995345678 1996345562 1995 [34,78] 1996 [62] map 1995 78 reduce 1995234224 1995345658 1996345522 i1 i2 1995 [24,58] 1996 [22] 1995234227 1995345654 1996345582 i3 1995 [27,54] 1996 [82] 1995 [34,78,24, 58,27,54] 1996 [62,22,82] 1996 82 partition merge shuffle o1

14 HIVE 是什么 定义 一个构建在 Hadoop 上的 数据仓库框架 目的 可以通过类 SQL 语句快速 实现简单的 MapReduce 统 计,使熟悉 SQL 的用户无 缝使用 Hadoop 特点 语法基本和 MySQL 相同, 但是功能没有 MySQL 丰富, 满足最基本的 SQL 语法要求

15 select year,count(temperature) from src where year>1990 group by year having count(temperature)>1000; HIVE 的实现逻辑 这个 sql 的语义是: 1 ) (map) 从 src 表中选出所有的记录, 选出 year>1990 的记录; 2 ) (partition and shuffle) 按照 year 进行分组( year 相同的记录放到一组); 3 ) (reduce) 对每个分组计算 count(temperature), 选出 count(temperature)>1000 的记录; 4 )最后对于计算结果选出 year 和 count(temperature) 的值作为返回结果

16 小结 Hadoop 对大量数据进行分布式处理的软 件框架 当前大数据通用框架 HDFS Hadoop distributed file system Map reduce 为 hadoop 量身定做的编程模型 HIVE 使熟悉 mysql 的用户快速使用 hadoop hadoop HDFSMapReduce HIVE

17 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例

18 机器学习中经典算法和对应问题

19 无监督学习 优化目标 类内部的距离最小 类之间的距离最大

20 无监督学习经典算法: KMeans 最早的 Kmeans 算法由 Lioyd 等人提出 算法思想 随机产出 K 个类中心( K 由用户指定) 计算每个点和这 K 个类中心的距离,根据距离最 近的类中心来将数据点划分到该中心点对应的类 根据类中包含的数据点重新计算类中心 迭代 2~3 步

21 无监督学习经典算法: Kmeans 演示 图1图1 图2图2 图3图3 图4图4 图5图5

22 有监督学习

23 经典决策树模型 决策树分类的思想类似于找对象 女儿:多大年纪了? 母亲: 26 。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。

24 随机森林 - 决策树模型

25 sample :禽流感预测 搜索引擎 创建训练集创建测试集 拉取训练集拉取测试集 清洗训练集清洗测试集 模型训练 分析匹配 - 预测

26 多维度用户画像 数据源 浏览搜索电商社交 粗加工 噪音过滤中文分词 精加工 语料标注体系建设 模型训练( GBDT , 最大熵)

27 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用

28 精准营销:广告变现 点击率 预估技 术

29 精准营销:推荐引擎

30 实时监控:上海外滩踩踏事件 踩踏事件发生地

31 智能链接:互联网 +O2O 医疗 医患平 台 挂号网 教育 网易公 开课 出行 打车 餐饮 外卖 到家 洗车 按摩

32 智能链接:互联网 +O2O : Uber 连接人与车 智能发单智能出价智能驾驶

33 辅助决策:智能选股

34 辅助决策:智能选址 以前: 线下市场调研 现在: 用户画像 线上线下精准 对接

35 工程技术大数据特性 Volume Variety Velocity Value hadoop HDFSMapReduce HIVE 典型应用 精准营销 实时监控 智能连接 辅助决策 有监督学习无监督学习 策略技术 总结

36


Download ppt "大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈."

Similar presentations


Ads by Google