第一章 大数据概述 (PPT版本号:2015年6月第1.0版)

Slides:



Advertisements
Similar presentations
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Advertisements

连接器技术发展趋势及因应策略 生产&营销副总经理 王跃轩 贵州航天电器股份有限公司.
计算机网络教程 任课教师:孙颖楷.
GOOWI 万物“无”连 --低功耗蓝牙在IoT中的应用    魏心伟 高为通信技术有限公司.
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
第一章 大数据概述 (PPT版本号:2016年1月24日版本)
随身携带的图书馆 ——移动图书馆服务介绍 主讲人:陈洋阳.
初级会计电算化 (用友T3) 制作人:张爱红.
车联网 大事记 联盟 2014.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
《大数据技术原理与应用》 课程介绍 (2016春季学期)
Add Your Company Slogan
第七章 现代教育技术的应用 第一节 现代教育技术与生物学教育 第二节 计算机及其相关技术在生物学 第三节 互联网在生物学教学中的应用
人工智能技术导论 廉师友编著 西安电子科技大学出版社.
综合布线技术与实践教程 第九章:综合布线系统工程网络分析 课程网站:
移动电子商务时代来临 即刻“升级”还是等待被淘汰 PayPal 中国区产品总监 赵祺 信行软件CEO 周翔.
                                                                                                                                                                
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
基于R和pentaho的全套开源BI平台的实现
格物资讯开放ICON库 V1R1.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
鼎捷易飞 实战课程 老卓 ERP资深实施者 讲师的CSDN博客地址
工业机器人技术基础及应用 主讲人:顾老师
工业机器人技术基础及应用 主讲人:顾老师
阿里数据同步的前世今生 巴真 陈守元.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
数 控 技 术 华中科技大学机械科学与工程学院.
第17章 网站发布.
商业计划书模板 框架完整 内容实用 严谨专业 BUSINESS PLAN POWERPOINT TEMPLATE LOGO.
《手把手教你学STM32》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司 淘宝店铺:
数据挖掘工具性能比较.
分布式程序设计 姚斌 计算机科学与工程系 上海交通大学.
大数据技术发展与应用 Development and application of bigdata technology 贺强
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
第四章 团队音乐会序幕: 团队协作平台的快速创建
新一代企业IT与OpenStack 贾琨 2014年7月.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
工业机器人技术基础及应用 主讲人:顾老师
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
地 理 信 息 系 统 ——专业必修课程 田永中 西南大学地理科学学院
TEM8人文知识 ——英语国家概况部分讲解 上外贤达学院 昌兰华.
ARM裸机第一部分-ARM那些你得知道的事
基于列存储的RDF数据管理 朱敏
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
3.8 局域网应用实例 某省劳动和社会保障网络中心组网实例 会议中心的无线组网实例.
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
能源与动力工程学院 研究生招生专业介绍.
工业机器人技术基础及应用 主讲人:顾老师
《大数据导论(通识课版)》 第4章 大数据应用 (PPT版本号:2019年秋季学期)
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
《大数据导论(通识课版)》 教材官网: 第3章 大数据技术 (PPT版本号:2019年秋季学期)
第1章 大数据技术概述 (PPT版本号:2019年春季学期)
《大数据导论(通识课版)》 第6章 大数据思维 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
校园之路.
Presentation transcript:

第一章 大数据概述 (PPT版本号:2015年6月第1.0版) 《大数据技术原理与应用》 http://dblab.xmu.edu.cn/post/bigdata 第一章 大数据概述 (PPT版本号:2015年6月第1.0版) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://www.cs.xmu.edu.cn/linziyu 厦门大学计算机科学系 2015年版

提纲 1.1 大数据时代 1.2 大数据概念 1.3 大数据的影响 1.4 大数据的应用 1.5 大数据关键技术 1.6 大数据计算模式 1.7 大数据产业 1.8 大数据与云计算、物联网的关系 本PPT是如下教材的配套讲义: 21世纪高等教育计算机规划教材 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2015年6月第1版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-39287-9 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata

1.1大数据时代

1.1.1第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革 表1-1 三次信息化浪潮 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出一批新的市场标杆企业

1.1.2信息科技为大数据时代提供技术支撑 1. 存储设备容量不断增加 图1-1 存储价格随时间变化情况

1.1.2信息科技为大数据时代提供技术支撑 2. CPU处理能力大幅提升 图1-3 CPU晶体管数目随时间变化情况

1.1.2信息科技为大数据时代提供技术支撑 3. 网络带宽不断增加 图1-4 网络带宽随时间变化情况

1.1.3数据产生方式的变革促成大数据时代的来临 图1-5 数据产生方式的变革

1.1.4 大数据的发展历程 表1-2 大数据发展的三个阶段 阶段 时间 内容 第一阶段:萌芽期 上世纪90年代至本世纪初 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 第二阶段:成熟期 本世纪前十年 Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFD和MapReduce等发数据技术受到追捧,Hadoop平台开始大行其道 第三阶段:大规模应用期 2010年以后 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

1.2大数据概念

1.2.1 数据量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律) 1.2.1 数据量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍

1.2.2 数据类型繁多 大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中 1.2.2 数据类型繁多 大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关 非结构化数据类型多样 邮件、视频、微博 位置信息、链接信息 手机呼叫、网页点击 “长微博”

1.2.3 处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1.2.3 处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同

1.2.4 价值密度低 价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值

1.3大数据的影响 大数据对科学研究、思维方式和社会发展都具有重要而深远的影响。 在科学研究方面,大数据使得人类科学研究在经历了实验、理论、计算三种范式之后,迎来了第四种范式——数据 在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”等三大显著特征,完全颠覆了传统的思维方式 在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现 在就业市场方面,大数据的兴起使得数据科学家成为热门职业 在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制

1.4大数据的应用 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹

1.5大数据关键技术 表1-5 大数据技术的不同层面及其功能 技术层面 功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析 数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全

1.6大数据计算模式 表1-3 大数据计算模式及其代表产品 大数据计算模式 解决问题 代表产品 批处理计算 针对大规模数据的批量处理 MapReduce、Spark等 流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等 图计算 针对大规模图结构数据的处理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 查询分析计算 大规模数据的存储管理和查询分析 Dremel、Hive、Cassandra、Impala等

1.7大数据产业 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合 产业链环节 包含内容 IT基础设施层 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 数据源层 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 数据管理层 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) 数据分析层 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 数据平台层 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 数据应用层 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

1.8大数据与云计算、物联网的关系 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别

1.8.1云计算 1. 云计算概念 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源 图1-7 云计算的服务模式和类型

1.8.1云计算 2. 云计算关键技术 云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等

1.8.1云计算 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等 3. 云计算数据中心 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境

1.8.1云计算 4. 云计算应用 政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型 教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标 中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力 医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量

1.8.1云计算 5. 云计算产业 云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节 图1-8 云计算产业链

1.8.2物联网 1. 物联网概念 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制 图1-9 物联网体系架构

1.8.2物联网 物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等 2. 物联网关键技术 物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等 图1-10 矩阵式二维码 图1-11 采用RFID芯片的公交卡 图1-12 不同类型的传感器

1.8.2物联网 3.物联网应用 物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用

1.8.2物联网 4.物联网产业 完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节 图1-8 物联网产业链

1.8.3大数据与云计算、物联网的关系 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系 图1-9 大数据、云计算和物联网之间的关系

本章小结 本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面,都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好把握学习和应用大数据的方向 大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面,都已经形成了一批引领市场的技术和企业 本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系

主讲教师和助教 欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》 主讲教师:林子雨 单位:厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 个人网页:http://www.cs.xmu.edu.cn/linziyu 数据库实验室网站:http://dblab.xmu.edu.cn 助教:蔡珉星 单位:厦门大学计算机科学系数据库实验室2013级硕士研究生(导师:林子雨) E-mail: caiminxing@126.com 欢迎访问《大数据技术原理与应用——概念、存储、处理、分析与应用》 教材官方网站:http://dblab.xmu.edu.cn/post/bigdata

Department of Computer Science, Xiamen University, June, 2015