大数据理论基础 by gy 4399 2019/5/1.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

高级服务器设计和实现 1 —— 基础与进阶 余锋
NAT与ICMP交互.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
私校會計規定與實務工作分享 辭修高級中學 會計主任 林秀滿 101年06月05日.
十一個笑話 十一個道理 LSM制作.
行政作用法 行政命令.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
1.企业会计准则--企业合并 一、企业合并的界定、类型及方式 二、同一控制下企业合并的处理 三、非同一控制下企业合并的处理
在PHP和MYSQL中实现完美的中文显示
社會學(一) 空中大學花蓮中心 鍾燕菁
Alibaba 数据库高可用架构 Alibaba
课程名称 龙阳、高级工程师 广州巨杉软件开发有限公司
分布式系统中的关键概念及Hadoop的起源、架构、搭建
Kvm异步缺页中断 浙江大学计算机体系结构实验室 徐浩.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
云计算之分布式计算.
Hadoop I/O By ShiChaojie.
精通redis数据库开发、管理与优化 第1讲 什么是redis 讲师:黄锡峰.
Chinese Virtual Observatory
存储系统.
管理信息结构SMI.
元素替换法 ——行列式按行(列)展开(推论)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
Windows网络操作系统管理 ——Windows Server 2008 R2.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
动态规划(Dynamic Programming)
任务1-3 使用Dreamweaver创建ASP网页
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
本节内容 随机读取 视频提供:昆山爱达人信息技术有限公司.
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
姚金宇 MIT SCHEME 使用说明 姚金宇
实验七 安全FTP服务器实验 2019/4/28.
工业机器人知识要点解析 (ABB机器人) 主讲人:王老师
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
ES 索引入门
信号量(Semaphore).
解决“最后1公里”问题.
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
Touch Github = Touch the World
学习目标 1、如何对结果进行分组 2、分组函数的一些实用方法.
2019/5/21 实验一 离散傅立叶变换的性质及应用 实验报告上传到“作业提交”。 11:21:44.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
实验目的:掌握数据的顺序存储结构及它们在计算机中的操作。 实验内容:
Google的云计算 分布式锁服务Chubby.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
阻塞式模型 本节内容 视频提供:昆山爱达人信息技术有限公司 视频录制:yang 官网地址:
基于列存储的RDF数据管理 朱敏
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
Chinese Virtual Observatory
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Zookeeper的应用 Hbase Kafka Twitter Storm Spark—mesos+zookeeper.
全方位起動通識 戴偉森 沙田循道衛理中學 4/7/2009.
WEB程序设计技术 数据库操作.
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
入侵检测技术 大连理工大学软件学院 毕玲.
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

大数据理论基础 by gy 4399 2019/5/1

大数据处理流程 4399 2019/5/1

分布式数据库:Bigtable,Hbase 可视化:曲线图等。 推荐系统…… 批处理:MR(任务在流动) 流式处理:Storm(数据在流动) 交互式分析:hive,shark 机器学习:Spark 分布式文件系统:GFS,HDFS; 分布式数据库:Bigtable,Hbase 推送:scribe(thrift),flume(agent),databus(监控log) 拉取:kafuka。 大多基于事件驱动:解耦。 4399 2019/5/1

大数据基本概念 4399 2019/5/1

CAP consistency:强一致性。 availability:可用性。高可用,低延迟。 partition tolerance:分区容忍性。网络分区时可以继续工作。 (网络分区:由于网络不通,造成部分节点之间无法通信,导致集群分为了不同的区域) 4399 2019/5/1

取舍,CAP不可兼得! 异地机房A和B,两DB同时提供写入读取 1. 同时写A和B,出现网络故障时,无法同时保证CA。 鱼与熊掌,江山与美人 异地机房A和B,两DB同时提供写入读取 1. 同时写A和B,出现网络故障时,无法同时保证CA。 2. 机房间异步更新(最终一致性)。无法保证C。 3. 同时写A和B,网络故障时提供降级服务(只读)。无法满足A。 4399 2019/5/1

幂等性: f(f(x))=f(x) 调用方反复执行同一操作,与只执行一次操作结果相同。 保持幂等性有助于系统的容错性。 4399 2019/5/1

副本更新策略: 1. 同时更新。需要一致性协议保证数据一致性。 2. 主从更新。先提交到主副本,然后主副本通知从副本更新。 (1)同步方式。等待从副本更新完毕。强一致性,高延时。 (2)异步方式。弱一致性,低延时。redis,zookeeper。 (3)混合方式。等待部分从副本更新完毕。kafuka。 4399 2019/5/1

一致性协议: 多副本数据一致性;多节点状态一致(master选举)。 1. 两阶段提交协议。不难,不讲。 2. Paxos协议:一致性协议的基石。难懂,不讲。 3. Raft协议:Paxos协议的简化版。(演示动画:http://thesecretlivesofdata.com/raft/) 4. RWN协议:N份备份数据;一次更新,至少W份数据写入成功;一次读取,至少R份数据读取成功;R+W>N;so,读取操作一定可以读到最新的数据。 4399 2019/5/1

常见数据结构及算法: 1. 布隆过滤器:Bloom Filter。 2. LSM树。 3. SkipList。 看脸说话:我只说布隆过滤器 4399 2019/5/1

3. 对于元素w,分别计算其k个函数值,对应的二进制数组上如果均为1,则w属于S。 会误判不会漏判 作用:提高查找效率 1. 一个很长的m位的二进制数组。 2. 有k个函数h,对于集合S的成员a, 将第x为置为1。 3. 对于元素w,分别计算其k个函数值,对应的二进制数组上如果均为1,则w属于S。 4399 2019/5/1

大数据存储 4399 2019/5/1

数据分片: 中间的 partition-machine映射,将数据分片和物理机器解耦,方便扩展、数据迁移。 redis集群:将key映射到哈希槽,哈希槽映射到节点。 4399 2019/5/1

节点变动时(新增或者退出),只有其后续节点受影响。 常见的分片方式: 1. 范围分片。 2. 哈希分片。 一致性哈希: 节点变动时(新增或者退出),只有其后续节点受影响。 memcached客户端可使用一致性hash。 4399 2019/5/1

路由方式: 1. 客户端路由:客户端直接选择正确节点读写指定键(memcached客户端)。 2. 代理辅助路由:客户端将请求发送给代理,代理将请求转发到目标节点(redis代理twemproxy;nginx)。 3. 查询路由:是指你可以把一个请求发送给一个随机的节点,这时节点会把该查询转发给正确的节点(P2P集群)。 4. 混合方式:以上几种方式的混合(hdfs:namenode返回节点位置,客户端直接请求节点;redis集群:客户端自己保存路由表,同时如果key不在节点的负责范围内,节点返回新的路由给客户端)。 4399 2019/5/1

存储方式: 1. 行式存储(mysql)。 2. 列式存储(无关字段不需要读取,增加IO效率;高压缩比;将经常使用的列分为一组;infobright)。 3. 混合式存储(先按行分组,组内同一列的内存连续存储;保证同一行的记录在同一节点上;Hive:RCFile,ORCFile)。 4399 2019/5/1

我们可以这样来分析一个分布式存储系统: 1. 数据如何分片(在哪里)。 2. 如何进行路由,将请求定位到对应的分片上(怎么找)。 3. 数据如何存储。 4. HA怎么保证(多副本如何保持数据一致性;数据损坏时如何进行切换;数据如何恢复)。 4399 2019/5/1

大数据计算 4399 2019/5/1

资源管理框架: 1.数据局部性。 2.调度方式:抢占式与非抢占式。 3.资源分配粒度:群体分配(一次分配所需的所有资源);增量分配。 4399 2019/5/1

调度器类型: 1. 集中式调度器(JobTracker)。 2. 两级调度器:中央调度器负责粗粒度的资源分配;各个计算框架在收到资源之后,根据任务特性,进行细粒度的资源分配(YARN)。 3. 状态共享调度器:所有计算框架可以看到整个集群的所有资源,采用竞争的方式获取自己所需的资源。 集中---->两级---->状态共享:逐步弱化中央调度器的功能 4399 2019/5/1

计算方式: 批处理 vs 流式计算 MR vs Strom 分发计算 vs 分发数据 MR vs Strom 数据并行 vs 计算并行 数据并行:数据分成不同的子集,并发运行同一逻辑。 计算并行:同一份数据,需要进行不同的计算,不同计算之间并发运行。 4399 2019/5/1

我们可以这样来分析一个分布式计算系统: 1. 对DAG的支持(任务如何表达)。 3. 资源调度策略(任务在哪里执行)。 4. 容错性(任务失败了怎么处理)。 4399 2019/5/1

推荐书籍: 4399 四三九九 2019/5/1

谢谢观看 by gy 4399 2019/5/1