大数据基础技术和应用
大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用
我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈 进 TB 时代,全球一共新产生了约 180EB 的数据; 在 2015 年,这个数字预计达到 了 8ZB 。 而有市场研究机构预测: 到 2020 年,整个世界的数据总 量将会增长 44 倍,达到 352ZB ( 1ZB=10 亿 TB )!
“ 大量化 (Volume) 、多样化 (Variety) 、快速化 (Velocity) 、价值密度低( Value ) ” 就是 “ 大数据 ” 的显著特征,或者说,只有具备这些特点的数据,才是大数据。 大数据的 4V 特征
如何跨越数据鸿沟 大数据要求人们改变对精确性的 苛求,转而追求混杂性,要求人 们改变对因果关系的追问,转而 追求相关关系,这种思维的转变 将是革命性的,如果企业不能认 识这一思维方式转变的重要性和 迫切性,将会面临 “ 数据鸿沟 ” 的挑 战 From 张亚勤 Volume Variety Velocity Value 工程技术 策略技术
大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例
Hadoop 介绍 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce 。 HDFS 实现存储, 而 MapReduce 实现分析处理 关系型数据库 Hadoop 数据量 GBPB 使用场景点查询或更新 整个数据集,一次 写多次读,没有更 新 结构化程度结构化 半结构化及非结构 化 规范化遵守范式无 扩展性非线性线性 附: Hadoop 和网格计算的区别
HDFS 基本命令 %hadoop fs -ls. %hadoop fs -mkdir books %hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt 全称: Hadoop Distributed File System
HDFS 特点 write-one-read- many 流式访问本地计算 容错及备份
MapReduce 是一种编程模型 void map(LongWritable key,Text value,OutputCollector output,Reporter reporter); void reduce(Text key, Iterator values,OutputCollector output, Reporter reporter);
MapReduce 求每年的最高气温的伪代码
MapReduce 求每年的最高气温的数据流 [34,78] 1996 [62] map reduce
MapReduce 求每年的最高气温的数据流 [34,78] 1996 [62] map reduce i1 i [24,58] 1996 [22] i [27,54] 1996 [82] 1995 [34,78,24, 58,27,54] 1996 [62,22,82] partition merge shuffle o1
HIVE 是什么 定义 一个构建在 Hadoop 上的 数据仓库框架 目的 可以通过类 SQL 语句快速 实现简单的 MapReduce 统 计,使熟悉 SQL 的用户无 缝使用 Hadoop 特点 语法基本和 MySQL 相同, 但是功能没有 MySQL 丰富, 满足最基本的 SQL 语法要求
select year,count(temperature) from src where year>1990 group by year having count(temperature)>1000; HIVE 的实现逻辑 这个 sql 的语义是: 1 ) (map) 从 src 表中选出所有的记录, 选出 year>1990 的记录; 2 ) (partition and shuffle) 按照 year 进行分组( year 相同的记录放到一组); 3 ) (reduce) 对每个分组计算 count(temperature), 选出 count(temperature)>1000 的记录; 4 )最后对于计算结果选出 year 和 count(temperature) 的值作为返回结果
小结 Hadoop 对大量数据进行分布式处理的软 件框架 当前大数据通用框架 HDFS Hadoop distributed file system Map reduce 为 hadoop 量身定做的编程模型 HIVE 使熟悉 mysql 的用户快速使用 hadoop hadoop HDFSMapReduce HIVE
大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例
机器学习中经典算法和对应问题
无监督学习 优化目标 类内部的距离最小 类之间的距离最大
无监督学习经典算法: KMeans 最早的 Kmeans 算法由 Lioyd 等人提出 算法思想 随机产出 K 个类中心( K 由用户指定) 计算每个点和这 K 个类中心的距离,根据距离最 近的类中心来将数据点划分到该中心点对应的类 根据类中包含的数据点重新计算类中心 迭代 2~3 步
无监督学习经典算法: Kmeans 演示 图1图1 图2图2 图3图3 图4图4 图5图5
有监督学习
经典决策树模型 决策树分类的思想类似于找对象 女儿:多大年纪了? 母亲: 26 。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。
随机森林 - 决策树模型
sample :禽流感预测 搜索引擎 创建训练集创建测试集 拉取训练集拉取测试集 清洗训练集清洗测试集 模型训练 分析匹配 - 预测
多维度用户画像 数据源 浏览搜索电商社交 粗加工 噪音过滤中文分词 精加工 语料标注体系建设 模型训练( GBDT , 最大熵)
大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用
精准营销:广告变现 点击率 预估技 术
精准营销:推荐引擎
实时监控:上海外滩踩踏事件 踩踏事件发生地
智能链接:互联网 +O2O 医疗 医患平 台 挂号网 教育 网易公 开课 出行 打车 餐饮 外卖 到家 洗车 按摩
智能链接:互联网 +O2O : Uber 连接人与车 智能发单智能出价智能驾驶
辅助决策:智能选股
辅助决策:智能选址 以前: 线下市场调研 现在: 用户画像 线上线下精准 对接
工程技术大数据特性 Volume Variety Velocity Value hadoop HDFSMapReduce HIVE 典型应用 精准营销 实时监控 智能连接 辅助决策 有监督学习无监督学习 策略技术 总结