大数据应用人才培养系列教材 大数据导论 刘 鹏 张 燕 总主编 付 雯 主编 陈 甫 李法平 副主编
第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题 大数据应用人才培养系列教材 第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题
大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界不断推出新的或改进的计算模式和系统工具平台。 2.1 云计算 第二章 大数据的架构 大数据与云计算 大数据和云计算密不可分,由于大数据处理和应用需求急剧增长,学术界和工业界不断推出新的或改进的计算模式和系统工具平台。
2.1 云计算 第二章 大数据的架构 云计算的概念 云是网络、互联网的一种比喻说法,通常在图中往往用云来表示电信网,后来也用云来表示互联网和底层基础设施的抽象。云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。
云计算是什么?
2.1 云计算 第二章 大数据的架构 维基百科 NIST 国务院政府 云计算是一种基于互联网的服务方式,提供动态可伸缩的虚拟化的资源的计算模式。通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,他就像我们日常生活中用水和用电一样,按需付费,无需关心水电是从哪里来的。 云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。 基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供、动态易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,他意味着计算能力也可作为一种商品通过互联网进行流通。
资源池弹性可扩张 需求服务自助化 虚拟化 以网络为中心 高可靠性和安全性 1 2 3 4 5 2.1 云计算 云计算的特点 第二章 大数据的架构 云计算的特点 1 资源池弹性可扩张 2 需求服务自助化 3 虚拟化 4 以网络为中心 5 高可靠性和安全性
2.1 云计算 第二章 大数据的架构 云计算的服务方式 IaaS PaaS SaaS 基础设施级服务,消费者通过Internet可以从完善的计算机基础设施获得服务。IaaS是把数据中心、基础设施等硬件资源通过Web分配给用户的商业模式。 平台级服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。 软件级服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。
2.1 云计算 第二章 大数据的架构 云平台架构图
2.1 云计算 第二章 大数据的架构 云计算的8个应用 微软 IBM 亚马逊 阿里云 红帽 金融 教育 智慧城市
第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题 大数据应用人才培养系列教材 第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题
大数据架构 是什么?
大数据架构是一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。 2.2大数据架构介绍 第二章 大数据的架构 大数据架构 大数据架构是一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。 Hadoop是由Apache软件基金会研发的一种开源、高可靠、伸缩性强的分布式计算系统,主要用于处理大于1TB的海量数据。其核心包括系统HDFS和MapReduce,这一结构的实现十分有利于面向数据的系统架构,因此已经成为大数据技术领域的事实标准。
数据类型划分 处理过程划分 2.2 大数据架构介绍 1.大数据的分类 第二章 大数据的架构 1.大数据的分类 数据类型划分 处理过程划分 1、传统企业数据(Traditionalenterprisedata):包括MIS系统的数据,传统的ERP数据库存数据以及财务账目数据等。 2、机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords),智能仪表,工业设备传感器,设备日志,交易数据等。 3、社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。 海量型数据。大数据计算中的数据挖掘是通过挖掘海量的数据推动科学知识的界限,数据集越大,结论越精确。 响应型数据。响应型的数据集很大,但它的价值围绕着很具价值的分析结果 影随型数据。影随型数据是一种你拥有,但并不容易拿到的数据。 过程型数据。又称为操作数据。这是从生产设备、工业机械和其他在商业建筑和工业厂房里找到的信息。 未知型数据。未知型数据包括现在可以能够拿到的、希望拿到的、然而还不充足的信息。
2.2大数据架构介绍 产生数据的主题划分 1.大数据的分类 1、少量企业应用产生的数据,比如关系型数据库中的数据和数据仓库中的数据等。 第二章 大数据的架构 1.大数据的分类 产生数据的主题划分 1、少量企业应用产生的数据,比如关系型数据库中的数据和数据仓库中的数据等。 2、大量人产生的数据,比如微信、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。 3、巨量机器产生的数据,比如应用服务器日志、图像和视频监控数据、二维码和条形码扫描数据等。
2.2大数据架构介绍 大数据架构划分 1)按需分析,与社交媒体数据一样; 2)实时、持续提供 3)时序(基于时间的数据)。 第二章 大数据的架构 大数据架构划分 1.大数据的分类 1)按需分析,与社交媒体数据一样; 2)实时、持续提供 3)时序(基于时间的数据)。 4)数据类型。要处理数据的类型 1、分析类型。 判断进行数据分析时,对数据执行实时分析还是批量分析。 2、处理方法。用来处理数据的技术类型(如预测、分析、临时查询和报告)。 3、数据频率和大小。预计有多少数据和数据到达的频率有多高。 4、数据类型。要处理数据的类型,如交易、历史、主数据等。 5、内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。 6、数据源即数据的来源(生成数据的地方),如 Web 和社交媒体、机器生成、人类生成等。 7、数据使用者。处理数据的所有可能使用者的情况列表。 8、硬件。用来实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。
2.2 大数据架构介绍 第二章 大数据的架构 1.大数据分类图
2.2 大数据架构介绍 数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。 2.数据类型 第二章 大数据的架构 2.数据类型 数据类型包括原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型。
在大数据时代中,又有哪些数据类型出现呢?
1 2 3 4 5 2.2 大数据架构介绍 移动互联网,每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据 第二章 大数据的架构 1 移动互联网,每天产生了大量的点击数据,这些数据被某些公司所有拥有,形成用户大量行为数据 2 电子地图,它代表着一种行为、一种习惯,这些流数据经频率分析后会产生巨大的商业价值 3 社交网络,它的出现,大量的互联网用户创造出海量的社交行为数据 4 电子商务,它的崛起带来了大量的网上交易数据,这些数据的产生为大数据的研究带来了很大的契机,其中隐藏了更大的商业价值。 5 传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济上的可能性。
2.2 大数据架构介绍 交易数据 人为数据 移动数据 机器和传感器数据 分析大数据时,四种参考数据类型 第二章 大数据的架构 分析大数据时,四种参考数据类型 交易数据 使用大数据平台能够帮助我们获取时间跨度更大、更海量的结构化交易数据,这样就能够对更广泛的交易数据类型进行数据分析,其中不仅仅包括POS或电子商务购物数据,还包括行为交易数据。 人为数据 非结构化数据广泛应用并存在于电子邮件、文档、图片、音频、视频中,同时通过博客、维基,尤其是社交媒体所产生的数据流。这些数据为使用文本分析功能进行分析提供了丰富的数据资源。 移动数据 智能手机和平板这些移动设备上的App都能够追踪和沟通大量事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)。 机器和传感器数据 机器和传感器数据是来自新兴的物联网(IoT)所产生的主要例子。物联网的数据可以用于构建分析模型,连续监测预测性行为,提供规定的指令,做出及时正确的判断。
2.2 大数据架构介绍 第二章 大数据的架构 2.数据类型 采用大数据方案解决问题时,应熟悉项目的实际状况,熟悉项目的建设流程,弄清大数据分析技术的原理,架构,设计理念,以及掌握大数据的关键技术,才可以从容不迫的对待建设项目进行调研实施。
2.2 大数据架构介绍 第二章 大数据的架构 2.架构概述 架构,又称软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。软件系统的架构有两个要素:首先他是一个软件系统从整体到部分的最高层的的划分,再则一个系统通常是由元件组成,而这些元件如何形成、相互之间怎样发生作用,就是这个系统本身结构的问题了。所以说软件架构是平衡的艺术。
2.2 大数据架构介绍 第二章 大数据的架构 2.架构四大注意要素
2.2大数据架构介绍 与Oracle性能关系最大的SGA 01 02 03 SGA包含三个部分: 第二章 大数据的架构 与Oracle性能关系最大的SGA SGA包含三个部分: 数据缓冲区,是SGA的一个高速缓存区域,可避免重复读取常用的数据 01 日志缓冲区,提升了数据增删改的速度,减少磁盘的读写而加快速度 02 共享池,使相同的SQL语句不再编译,提升了SQL的执行速度,共享池的大小(以字节为单位)由init.ora文件参数SHARED_POOL_SIZE决定。 03
2.2 大数据架构介绍 第二章 大数据的架构 数据库体系架构图
2.2 大数据架构介绍 第二章 大数据的架构 整体系统架构图
2.2 大数据架构介绍 第二章 大数据的架构 整体逻辑功能架构图
1 2 3 4 5 2.2 大数据架构介绍 大数据架构关键技术 大数据存储技术 并行计算能力 数据分析技术 数据显示技术 数据挖掘算法 第二章 大数据的架构 大数据架构关键技术 1 大数据存储技术 2 并行计算能力 3 数据分析技术 4 数据显示技术 5 数据挖掘算法
第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题 大数据应用人才培养系列教材 第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题
2.3Hadoop体系架构 第二章 大数据的架构 Hadoop概述 Hadoop最初是一个由Apache软件基金会研发的一种分布式计算机系统。主要用来处理大于1TB的海量数据。Hadoop采用Java语言开发,其核心模块包括分布式文件系统(Hadoop Distri buted File System,Hadoop HDFS)和分布式计算框架MapReduce,HDFS为海量数据提供存储,MapReduce为海量数据提供计算,这样的结构实现了计算与存储的高度耦合,成为大数据技术的事实标准。 01
02 2.3Hadoop体系架构 Hadoop发展史 第二章 大数据的架构 12004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。 2005年12月— Nutch移植到新的框架,Hadoop在20个节点上稳定运行。 2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2008年9月— Hive成为Hadoop的子项目 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop) 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。 2009年7月— Avro 和 Chukwa 成为Hadoop新的子项目。 2010年5月— Avro脱离Hadoop项目,成为Apache顶级项目。 2010年5月— HBase脱离Hadoop项目,成为Apache顶级项目。 2010年9月— Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。 2010年9月— Pig脱离Hadoop,成为Apache顶级项目。 2011年1月— ZooKeeper 脱离Hadoop,成为Apache顶级项目。 2011年3月— Apache Hadoop获得Media Guardian Innovation Awards 。 2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机 2012年3月—在Hadoop1.0版的基础上发布Hadoop1.2.1稳定版 2013年10月—Hadoop2.2.0版本成功发布 2014年11月—Hadoop已经发展到了2.6.0版本 02
03 2.3Hadoop体系架构 Hadoop的五大优点 1)高可靠性。Hadoop具有按位存储和处理数据的能力。 第二章 大数据的架构 Hadoop的五大优点 1)高可靠性。Hadoop具有按位存储和处理数据的能力。 2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,可以方便地扩展到其他节点中。 3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,具有较快的处理速度。 03 4)高容错性。Hadoop能够自动保存数据的多个副本,并自动将失败的任务重新分配。 5)低成本。Hadoop是开源的,项目的软件成本因此会大大降低。
03 2.3Hadoop体系架构 Hadoop的版本选择 第二章 大数据的架构 当前Hadoop版本比较混乱,让用户不知道怎样选择,实际上,目前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0。其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则由一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性,并支持多种计算框架。我们在选择使用某个开源环境时,通常会考虑几个因素:a.是否是免费的开源软件b.版本是否稳定c.是否有强大的实践验证及出现故障后是否有一个强大的社区支持,快速获取问题的解决方法。 03
其他 2.3Hadoop体系架构 Hadoophe核心组件 HDFS MapReduce 第二章 大数据的架构 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。他是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 MapReduce是一种编程模型,MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)是一个基于集群的高性能并行计算平台(Cluster Infrastructure);2)是一个并行计算与运行软件框架(Software Framework);3)是一个并行程序设计模型与方法(Programming Model & Methodology)。 MapReduce HBase: 类似Google BigTable的分布式NoSQL列数据库;Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以sql语句转换为MapReduce任务进行运行;Zookeeper:分布式锁,提供类似Google Chubby的功能;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据数据流分析平台,为用户提供多种接口;Sqoop:在HADOOP与传统的数据库间进行数据的传递。 其他
第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题 大数据应用人才培养系列教材 第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题
4 2.4上机与项目实训 上机与项目实训 第二章 大数据的架构 1)安装虚拟机和linux,虚拟机推荐使用vbox或vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便。可以使用复制虚拟机功能简化准备流程。如果只是实验用途,内存分配可以在1G左右,硬盘大约预留20-30G空间即可。 4 3)到Oracle官网下载java jdk安装包 2)以Centos为例,分区可以选择默认,安装选项选择Desktop Gnome,以及Server、Server GUI即可。其它Linux,注意选项里应包括ssh,vi(用于编辑配置文件),perl等(有些脚本里包含perl代码需要解析) 4)安装Linux后一定要确认iptables,selinux等防火墙或访问控制机制已经关闭,否则实验很可能受影响
第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题 大数据应用人才培养系列教材 第二章 大数据的架构 2.1 云计算 2.2 大数据架构介绍 2.3 Hadoop体系架构 2.4 上机与项目实训 习题
习题: 1.云计算的特点? 2.云计算的集中服务方式? 3.大数据分类有哪些,请分别指出? 4.列举3种大数据的解决方案? 5.Hadoop核心技术是什么?
AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台
云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI
手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站
网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台
感谢聆听