大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.

Slides:



Advertisements
Similar presentations
壹 展会营销方式 在休闲娱乐产业中的分析. 壹 展会营销方式 在休闲娱乐产业中的分析 对于行业、企业、产品的作用 会展营销 的作用 会展营销 集行业资源要素、灵活多变的活动手段、面对面的展览展示等优点,已经发展成为所有行业开展营销工作的首选手段。 1、市场调研功能 5、注意力经济效应 2、产品创新功能.
Advertisements

行政执法人员 综合法律知识培训 二OO六年八月.
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
第2框 文化创新的途径 考点:理解文化创新的重要途径.
第6章 数据库管理软件Access 年秋.
安全自护我能行 ——八年(1)班主题班会.
SQL的简单查询.
麵包的秘密 作者:奧亨利.
臺南市104學年度 國民中小學新進教師研習課程 廉政宣導與案例研習 臺南市政府教育局政風室 科員 黃彥雄.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
技職教育之人才培育 -以育達商業技術學院為例 王育文 戴美華 育達商業技術學院 吉林大學企業管理系 副校長 博士生
每周物流资讯 苏州得尔达国际物流有限公司 第四十三期.
数据库技术 实践.
龙海公寓· 多城一家O2O项目 商业计划书 2015年7月.
临沂市华泰工艺美术有限公司 人事管理制度培训.
僑務委員會法規委員會 專門委員兼執行秘書徐佑伶
基于Hadoop的Map/Reduce框架研究报告
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
法務部行政執行署彰化分署 行政執行官李垂章
扬州大学建筑科学与工程学院 青年共产主义学校 第十期暨主要学生干部培训班 二OO八年十二月.
班主任素质提升要走自主发展之路 广 东 技 术 师 范 学 院 外国语学院 英语(翻译)12级1班 李秀云.
引领民族复兴的战略布局 —— 关于“四个全面”若干问题之解读 福建省委党校 福建行政学院 曹敏华教授.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
云计算业务应用-数据挖掘.
巨量資料平台: Hadoop的生態系.
基于大数据的智慧北京推进策略 北京市经济和信息化委员会 2014年6月.
法務部行政執行署彰化分署 行政執行官李垂章
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
农作物病虫害图解 阜宁县农业干部学校 二OO九年四月.
克拉玛依职业技术学院klmyzyjsxy
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
報告人: 財政部採購稽核小組稽核委員 台灣菸酒股份有限公司王自來
大拇指游戏的类似经历 1、作息时间? 2、 考试成绩? 板书,表情典型性 3、心情?.
Introduction to MapReduce
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
云计算之分布式计算.
基于Hadoop的数据仓库Hive.
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
Hadoop平台使用 计算中心
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
厦门大学数据库实验室 MapReduce 连接
Hadoop平台與應用規劃實作 報告者:劉育維.
从TDW-Hive到TDW-SparkSQL
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
SQL Injection (資料隱碼) 學生:a 吳倩瑜 指導教授:梁明章.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
基于MapReduce的Join算法优化
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
第四組 停車場搜尋系統 第四組 溫允中 陳欣暉 蕭積遠 李雅俐.
从“聚焦课堂”到  “关注教育教学全过程” 浙江省教育厅教研室 张 丰 二OO八年十二月.
臺北市私立大同高中105年 地震疏散演練 上午9時21分, 實施防災演練, 9月13日0730實施預演.
明湖國小 文書講習 時間: 地點:總務處.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

大数据基础技术和应用

大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用

我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈 进 TB 时代,全球一共新产生了约 180EB 的数据; 在 2015 年,这个数字预计达到 了 8ZB 。 而有市场研究机构预测: 到 2020 年,整个世界的数据总 量将会增长 44 倍,达到 352ZB ( 1ZB=10 亿 TB )!

“ 大量化 (Volume) 、多样化 (Variety) 、快速化 (Velocity) 、价值密度低( Value ) ” 就是 “ 大数据 ” 的显著特征,或者说,只有具备这些特点的数据,才是大数据。 大数据的 4V 特征

如何跨越数据鸿沟 大数据要求人们改变对精确性的 苛求,转而追求混杂性,要求人 们改变对因果关系的追问,转而 追求相关关系,这种思维的转变 将是革命性的,如果企业不能认 识这一思维方式转变的重要性和 迫切性,将会面临 “ 数据鸿沟 ” 的挑 战 From 张亚勤 Volume Variety Velocity Value 工程技术 策略技术

大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例

Hadoop 介绍 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 的框架最核心的设计就是: HDFS 和 MapReduce 。 HDFS 实现存储, 而 MapReduce 实现分析处理 关系型数据库 Hadoop 数据量 GBPB 使用场景点查询或更新 整个数据集,一次 写多次读,没有更 新 结构化程度结构化 半结构化及非结构 化 规范化遵守范式无 扩展性非线性线性 附: Hadoop 和网格计算的区别

HDFS 基本命令 %hadoop fs -ls. %hadoop fs -mkdir books %hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt 全称: Hadoop Distributed File System

HDFS 特点 write-one-read- many 流式访问本地计算 容错及备份

MapReduce 是一种编程模型 void map(LongWritable key,Text value,OutputCollector output,Reporter reporter); void reduce(Text key, Iterator values,OutputCollector output, Reporter reporter);

MapReduce 求每年的最高气温的伪代码

MapReduce 求每年的最高气温的数据流 [34,78] 1996 [62] map reduce

MapReduce 求每年的最高气温的数据流 [34,78] 1996 [62] map reduce i1 i [24,58] 1996 [22] i [27,54] 1996 [82] 1995 [34,78,24, 58,27,54] 1996 [62,22,82] partition merge shuffle o1

HIVE 是什么 定义 一个构建在 Hadoop 上的 数据仓库框架 目的 可以通过类 SQL 语句快速 实现简单的 MapReduce 统 计,使熟悉 SQL 的用户无 缝使用 Hadoop 特点 语法基本和 MySQL 相同, 但是功能没有 MySQL 丰富, 满足最基本的 SQL 语法要求

select year,count(temperature) from src where year>1990 group by year having count(temperature)>1000; HIVE 的实现逻辑 这个 sql 的语义是: 1 ) (map) 从 src 表中选出所有的记录, 选出 year>1990 的记录; 2 ) (partition and shuffle) 按照 year 进行分组( year 相同的记录放到一组); 3 ) (reduce) 对每个分组计算 count(temperature), 选出 count(temperature)>1000 的记录; 4 )最后对于计算结果选出 year 和 count(temperature) 的值作为返回结果

小结 Hadoop 对大量数据进行分布式处理的软 件框架 当前大数据通用框架 HDFS Hadoop distributed file system Map reduce 为 hadoop 量身定做的编程模型 HIVE 使熟悉 mysql 的用户快速使用 hadoop hadoop HDFSMapReduce HIVE

大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型案例

机器学习中经典算法和对应问题

无监督学习 优化目标 类内部的距离最小 类之间的距离最大

无监督学习经典算法: KMeans 最早的 Kmeans 算法由 Lioyd 等人提出 算法思想 随机产出 K 个类中心( K 由用户指定) 计算每个点和这 K 个类中心的距离,根据距离最 近的类中心来将数据点划分到该中心点对应的类 根据类中包含的数据点重新计算类中心 迭代 2~3 步

无监督学习经典算法: Kmeans 演示 图1图1 图2图2 图3图3 图4图4 图5图5

有监督学习

经典决策树模型 决策树分类的思想类似于找对象 女儿:多大年纪了? 母亲: 26 。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况 女儿:是公务员不? 母亲:是,在税务局上班呢。 女儿:那好,我去见见。

随机森林 - 决策树模型

sample :禽流感预测 搜索引擎 创建训练集创建测试集 拉取训练集拉取测试集 清洗训练集清洗测试集 模型训练 分析匹配 - 预测

多维度用户画像 数据源 浏览搜索电商社交 粗加工 噪音过滤中文分词 精加工 语料标注体系建设 模型训练( GBDT , 最大熵)

大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用

精准营销:广告变现 点击率 预估技 术

精准营销:推荐引擎

实时监控:上海外滩踩踏事件 踩踏事件发生地

智能链接:互联网 +O2O 医疗 医患平 台 挂号网 教育 网易公 开课 出行 打车 餐饮 外卖 到家 洗车 按摩

智能链接:互联网 +O2O : Uber 连接人与车 智能发单智能出价智能驾驶

辅助决策:智能选股

辅助决策:智能选址 以前: 线下市场调研 现在: 用户画像 线上线下精准 对接

工程技术大数据特性 Volume Variety Velocity Value hadoop HDFSMapReduce HIVE 典型应用 精准营销 实时监控 智能连接 辅助决策 有监督学习无监督学习 策略技术 总结