物联网、云计算与大数据 的应用衍变 报告人:窦万春 南京大学计算机科学与技术系 2013.7.15 常州 1 1 1
报告内容 三个关键词:物联网、云计算与大数据 一条逻辑线:应用衍变之路
报告提纲 1、物联网简单回顾 2、云计算简单回顾 3、大数据的异军突起 4、衍变逻辑之我见 5、专家指导…
1、物联网简单回顾
历史背景 温总理在江苏调研时强调: 《新闻联播》 2009年8月9日 尽快建立中国的传感信息中心,或者叫“感知中国”中心 在国家重大科技专项中,加快推进传感网发展 在传感网发展中,一定要做到人无我有,人有我优 《新闻联播》 2009年8月9日
原始定义 物联网(The Internet of things)的概念是在1999年提出的,它的定义很简单:把所有物品通过射频识别等信息传感设备与互联网连接起来,实现智能化识别和管理。国际电信联盟2005年一份报告曾描绘“物联网”时代的图景:当司机出现操作失误时汽车会自动报警;公文包会提醒主人忘带了什么东西;衣服会“告诉”洗衣机对颜色和水温的要求等等。 物联网把新一代IT技术充分运用在各行各业之中,具体地说 ,就是把感应器嵌入和装备到电网、铁路、桥梁、隧道、公 路、建筑、供水系统、大坝、油气管道等各种物体中,然后 将“物联网”与现有的互联网整合起来,实现人类社会与物 理系统的整合,在这个整合的网络当中,存在能力超级强大 的中心计算机群,能够对整合网络内的人员、机器、设备和 基础设施实施实时的管理和控制,在此基础上,人类可以以 更加精细和动态的方式管理生产和生活,达到“智慧”状态 ,提高资源利用率和生产力水平,改善人与自然间的关系。
人、社会与物理世界的融合 数字世界 传感数据 传感数据 传感数据 传感数据 传感数据 传感数据 物理世界 7
RFID技术 RFID:RFID是Radio Frequency Identification的缩写,即射频识别,俗称电子标签技术。
ETC
个人观点 “物联网”不是个新概念,智能电网、智能家电、射频标签这些应用概念至少十年前就有了,但这些应用至今都局限在一些行业的个性化的应用,没有发展成为一个规模网络化的应用,也没有产生特别大的市场; 我国物联网产业的发展在早期、在某种程度上有炒作的成分; 但是,在特定行业内搞物联网,则是非常可行和有效的技术路线吗,走国家重大需求计划和行业具体应用特点相结合的道路应该是一个比较务实的发展思路。
我们已经进入一个几乎无处不网、无时不网的时代! GPS 汽车电子设备 导航 iPhone 移动电话 PDA包括很多 PDAs DCs TVs PCs 智能家电 。。。 传感器
2、云计算简单回顾
海量信息的存储与计算需求 云计算模式隆重登场!
早期网格思想(共产主义思想)的部分实现(有中国特色的社会主义) 云计算的应用特点 基于服务计算理论的应用框架 早期网格思想(共产主义思想)的部分实现(有中国特色的社会主义)
异构互联、泛在协同、节点自治、安全可控。 服务计算的特征 异构互联、泛在协同、节点自治、安全可控。 一言以蔽之:松耦合的应用模式。 服务计算理论上谈钱 云计算明码标价的谈钱
技术实施的基本条件 Web资源的极大丰富; 基础设施的增值应用: 面向需求的敏捷开发; 体恤贫民的草根情结; … …
云计算和物联网的关系 云计算 触角和大脑的关系 物联网
内 在 关 联 1、知道的多(物联网):越多越好! 2、处理的快(云计算):越快越好! 3、”知道的多”并且”处理的快”!
30年前,电脑被送进千家万户…… 20年前,网络被送进千家万户…… 现在,服务被送进千家万户……
想一想:如果通信不是个问题…… 想一想:如果网络不是个问题…… 想一想:如果交互不是个问题……
“我们不生产水,我们只是大自然的搬运工” 我们需要什么? 服务! 云计算的服务模式? “我们不生产水,我们只是大自然的搬运工”
3 大数据的异军突起
什么是大数据 按照维基百科上的定义,所谓“大数据”(big data)在当今的互联网业指的是这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取,存储,搜索,共享,分析和可视化等方面。”这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位,所以称之为大数据。
大数据的理解 在地球任意地方捡起一块石头,都可以验出铁元素(数据需要提取)。但是,说世界遍地都是铁矿一定是胡扯(数据源要有价值)。只有石头中铁含量超过一定比例,而石头数量又达到相当规模,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣(数据规模达到一定的程度)。如果铁矿石埋藏不是太深,开采和运输的成本不是太高(方案可行),市场有长期稳定的购买需求(应用需求),那么铁矿开采的兴趣才会变成行动,成为一个有利可图的商业活动(技术与社会发展到一定阶段的产物)。
大数据的评估指标[1] 1、数据规模 所谓大数据最基本的要求当然是数据规模大,但很难给出一个绝对的数字标准来确定大小,而只能用一些模糊的感觉来相对比较。例如,一个公司在年度预算中有了专门的,显著的数据存储和分析预算(例如,总预算的3-5%),有了独立的数据处理和分析部门,有了比较完整的数据存储,安全和保密政策与管理流程,有了高度依赖数据分析结果的商业模式,那么,可以说这个公司面临着利用大数据的机会或挑战了。 [1] 谢 文:看得见的未来——十谈大数据时代 (http://www.china-cloud.com/yunjishu/shujuzhongxin/20121106_16045.html)
2、数据结构 数据量只是反映数据性质的一个指标,也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司,而另一个一天只产生一万个T数据的公司也许反而是个大数据公司,其奥妙在于数据结构的复杂性。例如,A公司拥有一亿用户,但用户在A公司网站上只干一件事或一类事,比如获取新闻资讯,买买东西,或者玩玩游戏。那么由此产生的数据量虽然不小,但结构简单,重复性高,分析起来很容易,无非就是根据用户背景和使用习惯分分组,归归类,简单数据挖掘基本功足够,扯什么大数据就有点故弄玄虚了。B公司只有一千万用户,却是个开放平台,用户在此可以干互联网能够支持的所有事情,网络行为又可分为个人,群体,组织等层次,那么这个数据的结构就够复杂,能够支持深度挖掘和复杂建模,因而就可以算作大数据。
3、数据关联度 网络业一个常见现象就是随着数据量的增加,用户行为所产生的数据间的关系越来越不清晰,越来越难以捉摸,越来越相互孤立,也就是所谓的数据碎片化。这种碎片化主要来自两个方面:一是网站结构碎片化,逻辑混乱化,各种产品与服务之间相互孤立化,因而导致数据之间关系断裂,关联度很低。例如,明明是同一个用户在一个网站上使用了十种不同的产品和服务,但由于其中五种无需注册使用,其他五种又需要分别注册使用,结果这十种网络行为的数据无法整合在一起,或者需要通过种种技术手段和工具进行高成本的数据整合,以至于入不敷出。这也就减少了数据的含金量,降低了数据的可挖掘度,使得无论数据量如何大,结构如何复杂,也形成不了大数据。反之,如果一个WEB2.0时代的开放平台,架构清晰,逻辑分明,用户与用户,用户与用户行为,行为与行为之间都具有确定的关联性,那么这样的数据就具有极高的含金量,极高的分析挖掘价值,也就可以形成大数据
4、衍变逻辑之我见
大数据的使用模式: 具体的实现途径: 基于云计算的方式 基于服务计算的模式 Web-based application 因为大(数据规模),需要大容量的存储(云存储) 因为复杂(数据结构),需要高性能的计算能力(云计算) 因为有关联(数据关联度),需要跨平台的协同能力(应该是今后云应用的拓展方向之一,在协同粒度、隐私保护、安全等方面更有保证)(云协同) 例子:气象卫星的图像传输(缓存:云存储)与处理(高性能计算:云计算)
第一阶段:个体服务资源的丰富过程 第二阶段:支持主流服务的集成应用 第三阶段:围绕服务信息的增值应用 问题:web service的开发、发布、定位、组合、评估等研究主题(资本主义自由贸易的初级阶段) 第二阶段:支持主流服务的集成应用 问题:存储能力、计算能力的提升,云计算应运而生(垄断企业,跨国公司的形成过程) 第三阶段:围绕服务信息的增值应用 问题:如何增值(大数据计算的应用背景,资本运作的高级阶段) …
数据之间的泛在互联 “生命的本质在于物质的组织形式,而不在于物质的自身”—— 人工生命之父克里斯·兰顿(Chris Langton). 物品的生产流通到资本的产生与流通,等价于服务的生产和调用到数据的产生与增值 32 32
数据的来源?
社会的基础设施已经具备 GPS 汽车电子设备 导航 iPhone 移动电话 PDAs DCs TVs PCs 智能家电 。。。 传感器
…之我见(学术思维) 物联网越普及,云计算越落地,大数据越有用 人无远虑,必有近忧,如何超前思考科学问题 技术的本质特点与应用需求的无缝对接,才能产生真正的生产力 后大数据阶段应该是什么呢?大家一起思考…
5、专家指导环节… 谢谢,请多指正!