Download presentation
Presentation is loading. Please wait.
1
大数据发展的问题与方向 中国信通院云大所
2
不同时代有不同的资源观 大数据:新世纪最重要的战略资源 农耕时代 工业时代 信息时代 主要技术:农耕技术 核心资源:土地
(公元前10000年) 工业时代 (1700年) 信息时代 (2000年) 主要技术:农耕技术 核心资源:土地 主要技术:蒸汽机和电力技术 核心资源:煤、电(能源) 主要技术:数字技术 核心资源:数据
3
体量Volume 多样性Variety 速度Velocity
大数据的概念 无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合。 ——维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。 ——美国NIST 体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。 ——Gartner公司 ——每18个月全球新增信息量是之前全部信息量的总和(Jim Gray) ——数据量从TB量级到PB量级 体量Volume 公认的三个特征 ——大数据的异构和多样性,非结构化占80~90% ——很多不同形式(文本、图像、视频、机器数据) ——无模式或者模式不明显,不连贯的语法或句义 多样性Variety ——数据实时产生,要求高速采集、存储于处理 ——交易、传感等数据需要实时分析而非批量分析 ——数据分析结果要求立竿见影而非事后见效 速度Velocity
4
大数据的三种视角 层次1 一种战略资源 层次2 一套处理数据工具 层次3 一种思维理念 拿数据说话?还是凭感觉拍板? 大数据思维决定竞争力
化繁为简,去粗取精,发现知识 大数据的开发和提炼是应用的前提 数据是宝藏,不是包袱 不仅是企业的宝贵资产,更是国家的战略资源 运营数据 监控数据 社交数据
5
数据驱动的基本思想:当物质世界的潜力越来越难以挖掘的时候,通过数据分析提供的指导来优化物质世界运行,有望打开广阔的增长新空间。
大数据发展的方向:数字孪生 一切都可计算、分析、预测 数据世界 物质世界全面数据化 反馈、控制、优化… 物质世界 数据驱动的基本思想:当物质世界的潜力越来越难以挖掘的时候,通过数据分析提供的指导来优化物质世界运行,有望打开广阔的增长新空间。
6
目录 一、大数据产业发展 二、大数据前沿技术 三、数据资产管理 四、隐私保护
7
在世界各主要国家大数据发展水平的对比中,我国整体处于第二梯队领先位置。
我国大数据发展优势 在世界各主要国家大数据发展水平的对比中,我国整体处于第二梯队领先位置。 数据资源体量大、种类丰富 大数据的挖掘与应用取得初步进展 我国在数据资源总量方面具有明显优势,已经成为 名副其实的数据资源大国。 我国在一些领域已经打造形成初步的“大数据资源 生态圈”。 由于数据资源总量丰富,在数据挖掘领域具有 天然优势,相关产业快速发展。 大数据逐步应用在网络社交、电商、广告、搜 索等业务以及金融、交通、物流等行业。
8
我国大数据发展主要问题 核心技术较为落后,我国信息技术发展长期存在的“空心化”和“低端化” 问题,在大数据时代仍有可能出现 应用发展不均衡,行业应用广度和深度相对不足 原始数据资源丰富,但数据资源利用与产业生态较为落后,制约数据资源中所蕴含价值的开采与转化
9
2019全球大数据和数据分析市场规模预计为1888亿美元
口径:Commercial purchases of BDA-related hardware, software, and services 2017年五大行业销售占一半(720亿美元): banking discrete manufacturing process manufacturing federal/central government professional services 数据来源:Statista 2018,IDC 2017
10
2019中国大数据软件硬件和服务市场规模预计443亿元
同比增长34.7%,是全球增速两倍。 数据来源:中国信息通信研究院,2018年
11
2019中国大数据产业地图 我国大数据企业已经形成了“上游数据-中游产品-下游服务” 的产业生态,产业布局不断完善。各领域代表性企业发展迅猛。
12
五大区域构成我国大数据产业总视图 珠三角地区
综合试验区带动各区域特色发展 东北地区 借助环境、能源、价格优势,实现集群效应,打造经济发展新动能 建设数据中心、网络基础设施与大数据产业园区 中西部地区 以大数据发展为主体,以传统产业转型升级和智慧城市建设为两翼,完善大数据产业链,振兴东北老工业基地 五大区域构成我国大数据产业总视图 环渤海地区 发挥北京的人才与科技优势,天津、河北、山东的制造业与资源优势,建设国家大数据产业创新中心、全球大数据产业创新高地 以广州、深圳为引领,打造全国大数据应用先导区,建设全国的大数据产业聚集区,探索大数据的新路径、新经验 珠三角地区 长三角地区 依托上海、江苏、浙江、安徽等地在金融、ICT、互联网、制造业等于领域优势,实现大数据与智慧城市、云计算协同发展
13
截止到2018年底,全部31个省级单位均发布了大数据发展规划
各地纷纷出台大数据发展规划 截止到2018年底,全部31个省级单位均发布了大数据发展规划 省市 文件名称 北京 北京市大数据和云计算发展行动计划 上海 上海市大数据发展实施意见 江苏 江苏省大数据发展行动计划 浙江 浙江省促进大数据发展实施计划 广东 广东省促进大数据发展行动计划 山东 关于促进大数据发展的意见 安徽 “十三五”软件和大数据产业规划 广西 促进大数据发展的行动方案 省市 文件名称 广州 关于促进大数据发展的实施意见 深圳 深圳促进大数据发展行动计划 青岛 关于促进大数据发展的指导意见 宁波 关于推进大数据发展的实施意见 南京 南京促进大数据发展三年行动计划 武汉 武汉大数据产业发展行动计划 郑州 促进大数据发展行动计划 南宁 南宁市大数据建设发展规划 省市 文件名称 沈阳 沈阳市促进大数据发展三年行动计划 哈尔滨 促进大数据发展若干政策(试行) 合肥 合肥市大数据发展行动纲要 淮南 大数据产业发展三年行动计划 东莞 东莞市大数据发展实施方案 兰州 促进大数据发展的实施意见 赣州 加快大数据发展实施意见 盐城 推进大数据产业发展的实施意见 数据来源:中国信息通信研究院统计
14
目录 一、大数据产业发展 二、大数据前沿技术 三、数据资产管理 四、隐私保护
15
分析型数据处理技术2000年就已经开启分布式之旅,近两年进入技术的滞涨期
大数据分析技术进入滞涨期 2003 2004 2006 2006 2007 2008 2009 2009 2012 2014 2018 Doug Cutting与Mike Cafarella一起基于谷歌论文实现了Hadoop的代码。。 谷歌发布DFS的论文 Powerset基于Bigtable研发了HBase Ucberkley 的AMPlab研发出Spark Hadoop成为企业级的成熟产品 在流计算领域Flink领先Spark 雅虎在生产环境中使用Hadoop集群,Hadoop渐渐成为互联网企业的数据仓库 谷歌发布MapReduce的论文 谷歌发布了Bigtable的论文。 第一个SQL on Hadoop引擎Hive诞生 Spark成为下一代计算引擎 Flink诞生 分析型数据处理技术2000年就已经开启分布式之旅,近两年进入技术的滞涨期
16
大数据围绕开源社区形成了稳定的技术生态 数据处理计算 资源调度 存储 分析引擎 数据接入
17
大数据基础产品已经成熟稳定 分布式批处理平台产品已经成熟稳定,总体来看73%的产品基于HDP和CDH的开源版本进行二次开发,27%基于开源社区版或者完全自研。 经过10多年的发展,大数据基础技术开源生态趋向成熟,国内技术人员对开源生态组件的熟悉程度越来越高。 基于信通院大数据产品能力评测结果整理
18
历史上,批处理往往只是打开了第一扇门 批处理 文件下载 实时,服务器, 嵌入式,智能终端,汽车等 分时系统 交互式、高清、结构视频、语义等
操作系统 批处理 多媒体 文件下载 大数据 实时,服务器, 嵌入式,智能终端,汽车等 分时系统 交互式、高清、结构视频、语义等 流媒体 流计算 ? 有界、持久、大量 低时延、持续、事件触发 流批融合是趋势
19
纯流计算架构备受追捧 Lambda架构 统一模型,批框架来统一处理批任务和流任务 统一模型,流框架统一处理批任务和流任务 批处理引擎 流处理引擎 批流分离:批数据和流数据分别用不同的计算引擎处理 Spark用一套批处理引擎来统一批数据和流数据的处理 Flink是从流的角度来统一批和流 趋势:近年来纯流架构的Flink倍受追捧,Spark遭遇强力挑战,为应对挑战,Spark将其微批架构的Spark Streaming转向纯流架构Structure Streaming。
20
批处理平台与分析型数据库互相借鉴 批处理平台 分布式分析型数据库 优点 优点 缺点 缺点
存储与计算分离,扩展能力好 多副本,容错能力好 就近计算,数据不用迁移 缺点 MR暴力扫表,资源浪费,网络吞吐量较大 SQL支持不如传统分析型数据库,弱事务 能够数据进行细粒度的操作 对SQL语言支持好,支持事务,对复杂查询支持好 实时性相对好 优点 缺点 扩展后需要数据重分布,扩展能力有限 分析型数据库吸收了很多Hadoop和Spark的优点,扩展能力有所突破 很多SQL on Hadoop的引擎吸收了分析型数据库的优点,提升SQL支持度和对数据细粒度的操作
21
分析型数据库规模不断突破 大规模分析数据库基础能力通过测评产品: 大规模分析数据库性能测评通过产品:
H3C DataEngine MPP分布式数据库 200节点 100TB数据量 GuassDB200 512节点 分析型数据库发展加快,部分原因是Greenplum的开源让更多厂商能使用和研究分布式分析数据库,据统计参与评测的14款MPP数据库中43%都是基于Greemplum,14%基于PostreSQL。 分布式分析数据库正在努力突破扩展性的限制,大规模部署能力有很大突破。华为完成了512节点基础能力的测试,华三完成了200节点性能的测试。 基于信通院大数据产品能力评测结果整理
22
分布式事务数据库迎来春天 国内分布式数据库产业迎来春天,据统计相关产品超过20款; 技术水平不断提升,今年评测5款产品完成度提升;
基于信通院大数据产品能力评测结果整理 国内分布式数据库产业迎来春天,据统计相关产品超过20款; 技术水平不断提升,今年评测5款产品完成度提升; 架构选择方面,中间件架构相对成熟,82%的产品基于中间件架构,18%的产品基于新型一致性协议; 基于MySQL改造最多,基于PG的厂商正在快速兴起,部分选择自研引擎,部分厂商已经开始考虑MySQL开源风险; 性能、高可用、灾备,业务迁移是下一步需要详细考核的方向。 国内分布式数据库产业迎来春天,据统计相关产品超过20款; 技术水平不断提升,今年评测5款产品完成度提升; 架构选择方面,中间件架构相对成熟,82%的产品基于中间件架构,18%的产品基于新型一致性协议; 基于MySQL改造最多,基于PG的厂商正在快速兴起,部分选择自研引擎,部分厂商已经开始考虑MySQL开源风险; 性能、高可用、灾备,业务迁移是下一步需要详细考核的方向。
23
大数据分析技术发展趋势 异构融合 云化 AI化 流计算与批处理结合——Beam、Spark、Flink的能力增强;
“数据湖”概念的诞生——异构数据源的管理取得突破。 支持异构计算,根据不同任务调用CPU、GPU、FPGA等异构芯片的能力 BI工具 机器学习 数据管理 数据库 数据仓库 对象存储 资源弹性:存储与计算资源的弹性化; 容器化:资源的细粒度管理 自主运维:运维的自动化。 一站式数据分析与AI平台的对接; 统一数据分析与AI应用接口——SQL+ML(机器学习)+DL(深度学习)
24
目录 一、大数据产业发展 二、大数据前沿技术 三、数据资产管理 四、隐私保护
25
休眠 应用 流通 开采 冶炼 谁拥有了数据,谁就拥有了未来 未来十年最重要的战略资源 人,IOT 大数据,数据治理 资产化,证券化,
开放,交易 谁拥有了数据,谁就拥有了未来
26
数据资产管理 石油产业链 数据需要新的产业链条 数据运营 定价、营销 数据加工与应用 原油炼制,形成产品 建平台 建设油库和炼化厂 接数据
钻井 盘数据 石油勘探 建机构 组建队伍
27
数据治理和资产管理是关注重点 行业开展数据治理调研 各地纷纷成立“大数据局”,推进政务数据治理发展 北京大数据行动计划数据治理项目
2018年3月,工业互联网产业联盟(AII) 《中国工业企业数据资产管理调查报告(2018)》 2018年9月,中国证券业协会《证券公司数据治理业务开展情况调研报告》 2018年9月,中国支付清算协会开展“非银行支付机构数据资产管理调研 截至目前,已有北京、重庆、吉林、河南、山东、浙江、福建、广东、内蒙古、广西、贵州等十几个省市设置了厅局级的大数据管理局 北京大数据行动计划数据治理项目 基于市大数据管理平台,对1800+类的已汇聚数据按层级开展目录和数据的清洗、标签化、数据质量管理、接口配置等
28
数据是新的生产资料,数据确权和合规流通成为世界性课题
数据资产管理的挑战 企业数据存在很多问题 数据资产混乱,无法感知 数据孤岛多,数据流动性差 安全意识薄弱,数据泄露严重 数据处理效率低下 数据质量参差不齐 价值没有充分释放 制度监管 业务系统 数据是新的生产资料,数据确权和合规流通成为世界性课题
29
数据资产的概念 IT时代 DT时代 《数据管理知识体系指南》 ——DAMA International
一个组织如果没有认识到管理数据和信息如同管理有形资产一样极其重要,那么它在新经济时代将无法生存。 ——汤姆.彼得斯(Tom Peters) IT时代 DT时代 数据资产:是指由企业拥有或者控制的,能够为企业带来未来经济利益的数据资源。 在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。 《数据管理知识体系指南》 ——DAMA International 数据成为资产的两个关键特征 数据管理 数据资产管理 数据价值管理 数据服务管理 资产化管理数据 能够为企业带来经济效益 可计量成本与收益
30
实现数据可得、可用、好用,释放数据价值,为数字化转型打基础
数据资产管理的目的 实现数据可得、可用、好用,释放数据价值,为数字化转型打基础 盘点资产,了解数据需求 提升数据质量 打破数据孤岛 提高获取效率 保障数据安全 形成持续闭环
31
数据资产管理架构 数据资产管理管理职能 数据资产管理 保障措施 战略规划 组织架构 培训宣贯 制度体系 审计机制 数据标准管理 数据模型管理
元数据管理 主数据管理 数据质量管理 数据安全管理 数据价值管理 数据共享管理 数据资产管理管理职能 战略规划 组织架构 制度体系 审计机制 培训宣贯 数据资产管理 保障措施
32
管理职能(一) 数据标准管理 数据模型管理 主数据管理 元数据管理 保障数据的内外部使用和交换的一致性和准确性的规范性约束
提起数据的抽象信息,追溯数据,探索数据之间的关联关系 对现实世界数据特征的抽象,获得企业内部业务数据的统一完整视图 保证企业跨系统使用和共享的数据的一致性
33
管理职能(二) 数据质量管理 数据安全管理 数据共享管理 数据价值管理
提升数据质量,提高数据应用和服务的水平 数据成本管理和数据收益管理,最优化、最大化的释放数据价值 划分数据安全等级,制定数据安全管理规范,做到“事前可管、事中可控、事后可查 通过数据内部共享、数据外部流通、对外开放,实现数据内外部价值释放
34
01 02 03 04 05 保障措施 制定战略规划 完善组织架构 建设制度体系 设立审计机制 开展培训宣贯
数据资产管理发展规划作为企业战略规划的一部分 从顶向下全局部署数据资产管理规范 数据资产管理团队是主要参与角色,联通业务部门与IT部门 02 完善组织架构 建立完善的组织架构体系 明确各角色相应职责 03 建设制度体系 覆盖数据资产管理全生命周期与关键管理能的管理规范 对规范和标准的执行监控规定,做到事中检查、事后监控 04 设立审计机制 审计方式从审计体系规范建设入手 信息技术审计方法和专职人员审计方法并行 审计对象包括数据权限使用制度及其审批流程、日志留存管理办法、数据备份恢复管理机制等 05 开展培训宣贯 合理安排员工参与数据资产管理培训、课程,提升人员的职业化水平 将数据资产管理纳入现有晋升、薪酬、职位资格等体系范畴,建立员工职业发展通道
35
数据资产管理工具多样化发展 数据资产管理技术工具
近两年国内诞生了20多款数据管理软件,由于开源生态缺乏,企业均自主研发数据管理工具,标准化程度低。 数据资产管理技术工具 数据标准管理工具 标准生成 标准映射 标准导出 标注版本管理 数据模型管理工具 数据模型设计 模型差异稽核 模型变更管控 模型可视化 元数据管理工具 元数据采集、识别 元数据应用(血缘分析、 影响分析、数据地图、热度分析) 主数据管理工具 主数据提取整合 主数据清洗校验 主数据变更审批 主数据发布共享 数据质量管理工具 质量需求管理 质量稽核规则设置 数据质量任务管理 数据质量报告 数据安全管理工具 数据获取安全 数据脱敏、加密 角色授权、统一认证 数据分类分级 数据价值管理工具 数据资产盘点 数据价值评估 数据成本管理 数据收益管理 数据服务管理工具 数据服务目录 数据资产共享和流通 数据服务定制
36
实施步骤 数据资产管理各阶段的主要交付物 实施步骤各阶段 各阶段主要内容 《数据资产管理规划》 《数据资产管理认责机制》
《数据资产盘点清单》 《数据资产管理现状评估》 《数据资产管理办法》 《数据资产管理实施细则》(包括数据标准管理、数据质量管理、元数据管理、主数据管理、数据安全管理、数据应用管理等) 《数据资产管理稽核办法》 《数据资产管理问题管理办法》 《数据资产价值评估方法》 《数据资产成本管理方法》 《数据资产共享流通管理办法》 实施步骤各阶段 各阶段主要内容
37
目录 一、大数据产业发展 二、大数据前沿技术 三、数据资产管理 四、隐私保护
38
未来10年,最奢侈的奢侈品是什么? 名贵装饰品 贵重箱包 豪宅别墅 私人飞机 将来最贵重的奢侈品会是这些吗?
39
未来10年,最奢侈的奢侈品是什么? DATA PRIVACY
40
大数据让每个人,都成了 “裸猿” 这是一个全民“裸猿”的时代. 我们每个人曾经是独立的生化算法, 现在因为大数据等,则只是”数据源”了。
41
过去,是“为了忘却的记忆” 未来,是”为了记忆的忘记” 过去,被人记住是幸福 现在,被机器忘记是幸福
42
隐私保护需要新的管理政策,更需要新的技术手段
GDPR 网络数据保护条例 群签名 环签名 技术 差分隐私 区块链 同态加密 零知识证明
43
“原罪”:整个互联网的免费模式, 就是建立在用户隐私的基础上的 用户画像:可行善也可作恶 保护用户隐私为什么那么难 国家安全 便利性
44
组织 制度 技术 理念 企业隐私保护的参考架构 数据标识 脱敏、去标识化 尊重用户隐私 保障用户合法权益 隐私制度 应急响应制度
数据去标识化标准 首席隐私官 隐私工作组 组织 制度 技术 理念
45
敬请各位领导专家批评指正 谢谢
Similar presentations