基于大数据的智慧北京推进策略 北京市经济和信息化委员会 2014年6月
目 录 大数据时代到来 大数据在政务领域的应用 北京市的推进策略 数据很多 大数据的基本特征 大数据有什么用(举例说明、大数据的价值) 政府、企业、公共机构掌握的数据
数据爆炸增长,大数据时代到来 全球数据总量增速明显: 2006 年,全球共新产生了约180EB的数据。 2011 年,全球共新产生1.8ZB的数据。 有市场研究机构预测:到2020 年,整个世界 的数据总量将会增长44 倍,达到35.2ZB (1ZB=10 亿TB)! 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。
大数据的基本特征 大数据的4V特性: 1. Volume体量 2. Variety多样性 3. Value价值密度 4. Velocity速度 结构化数据、半结构化数据和非结构化数据 如今的数据类型早已不是单一的文本形式,订单、日志、 音频,能力提出了更高的要求 沙里淘金,价值密度低 以视频为例,一部一小时的视频,在连续不间断监控过 程中,可能有用的数据仅仅只有一两秒。如何通过强大 的机器算法更迅速地完成数据的价值“提纯”是目前大 数据汹涌背景下亟待解决的难题 实时获取需要的信息 大数据区分于传统数据最显著的特征。如今已是ZB时代,在 如此海量的数据面前,处理数据的效率就是企业的生命 数据量巨大 全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量
大数据的价值不可估量 1.创造数据的高透明度 2.发现潜在需求,揭示易变性,提高性能 3.细分人群,用户定制 4.利用自动算法支持决策 谷歌推出“流感趋势”网络服务,利用搜索、分析大数据来估测流感疫情。 1.创造数据的高透明度 2.发现潜在需求,揭示易变性,提高性能 3.细分人群,用户定制 4.利用自动算法支持决策 5.创造新的商业模型、产品、和服务 百度以海量网民行为数据为基础,推出“百度指数”服务,支持关键词搜索趋势、洞察网民兴趣和需求、监测舆情动向、定位受众特征。 数据的高透明度和广泛可获取性。 集成多种系统的数据,甚至从外部供应商或客户处获取数据共同制造商 品。 决策验证影响竞争方式。 大数据可能使决策制定发生根本性的改变。 应用于广泛的实时的用户定制。 面向用户,利用数据来细分和定位用户。 大数据对管理的改变及替代作用。 大数据能进一步提高算法和机器分析的作用。 建立基于数据的商业模型。 催生了新类型的公司,其能建立由信息驱动的商业模型。
互联网企业率先发掘大数据的商业价值 马云的判断来自于数据分析: 马云对未来的预测,是建立在对用户行文分析 的基础上。 马云对未来的预测,是建立在对用户行文分析 的基础上。 买家在采购商品前,会比较多家供应商的产品,反映 到阿里巴巴网站统计数据中,就是查询点击的数量和 购买点击的数量会保持一个相对的数值,综合各个维 度的数据可建立用户行为模型。 因为数据样本巨大,保证用户行为模型的准确性。 因此在这个案例中,询盘数据的下降,自然导致买盘 的下降。 “2008年初,阿里巴巴平台上 整个买家询盘数急剧下滑, 欧美对中国采购在下滑。海 关是卖了货,出去以后再获得 数据;而我们提前半年时间从 询盘上推断出世界贸易发生 变化了。” 除了阿里巴巴,国内多家互联网企业也紧跟大数据的时代步伐,不断发掘大数据商业价值。 腾讯在天津投资建立亚洲最大的数据中心; 百度也在投资建立大数据处理中心,并利用大数据开发了“百度指数”; 新浪推出企业微博产品,提供精准的数据分析服务。
全面发掘大数据的价值有赖于三类主体数据的综合应用 掌握人口、法人、经济、地理空间、政务管理等大量数据。 政府部门 政府部门掌握着全社会80%以上的信息资源; 各级政府部门均有数据库支撑。 公共事业 机构 掌握教育资源、交通信息、医疗卫生等大量数据。 在科、教、文、卫等领域,公共事业机构集成了带有公益性质的社会服务资源。 “政府部门掌握着全社会80%以上的信息资源。”中国城市出版社2003年版电子政务教程一书19页 大的发展趋势:三类主体的综合应用,拥有大数据的主体有三类,要用好大数据,必须三类主体共同发力 掌握搜索类、电子商务类、用户关系类等大量数据。 互联网 企业 中国互联网企业三大巨头: 阿里巴巴——拥有90%以上的电商数据,存储量上百PB 百度——拥有70%以上的搜索数据,数据总量接近1EB(100万TB) 腾讯——拥有大量社交、游戏等领域积累的文本、音频、视频和关系类数据
目 录 大数据时代到来 大数据在政务领域的应用 北京市的推进策略
大数据对政府来说具有战略意义和价值 大数据上升到国家信息战略。 大数据可改变政府管理模式。 大数据是“未来的新石油与矿产”; 数据规模及运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成 为国家间争夺的焦点。 大数据可改变政府管理模式。 实现从“拍脑袋决策到基于大数据的科学决策”的转变。提高决策科学性和精准性,提高政 府预测预警能力以及应急响应能力。 实现“从行政主导的政府到以人为本的服务型政府”的转型。大数据的包容性将打开政府各 部门间、政府与市民间的边界,大幅消减信息孤岛现象;提高政府各机构协同办公效率和为 民办事效率,提升政府社会治理能力和公共服务能力。 同时,可有效节省成本,避免在数据上重复投资,节省财政支出。
战略上,欧美日韩等国家提前布局大数据 美国已经布局大数据产业: 2012年3月,美国奥巴马政府宣布投资2亿美元启动“大 数据研究和发展计划”。 美国政府将投入2.5亿美元,要求各部门在2012年7月拿出具体实施细则,美国政府打 造Data.Gov,推行政府数据开放,目前已有31个州推出数据开放门户。 国防部--每年投资2.5亿美元,开展以创新方式使用海量数据的研究。 能源部--斥资2500万美元建立可扩展数据管理、分析与可视化研究所。 欧盟:2012年9月,联合欧洲整体力量,制定大数据战略,作为欧盟Horizen2020战 略一部分,加速追赶。 英国:2013年1月,英国把大数据作为八大关键技术领域之一,计划两年内向大数据 关键技术投入1.89亿英镑,抢占先机。 日本:2012年7月,《面向2020年的ICT综合战略》将“通过大数据应用促进社会发 展经济增长”作为五大重点之一、并提出活力数据战略,提升日本竞争力。
应用上,英国通过数据开放平台提供大数据共享 Data.gov.uk平台不仅是一个服务共享的平台,同时也是一个服务创意共享的平台。 www.data.gov.uk提供 了7700类数据,提供了 CSV、XLS、PDF、RDF 等多种下载方式。 Data.gov.uk上不仅公开 了由多个政府部门提供 的数据,还可以由网站 用户自行上传各类相关 资源,在通过审核后正 式对外发布。
微软利用政府开放的数据为政府提供应急决策服务。 美国政府开放数据,支持微软开发CityNext平台,应对自然灾害,并为政府提供决策支持。 微软研发的智慧城市平台CityNext通过分析美国海洋大气局、航空航天局、地质调查局等部门 开放的数据,有为灾难做应急准备和规划,并进行综合协调、灾后重建工作的功能,使灾难预 警和应急、重建工作更加有力高效。 灾难前防灾预案 利用纽约政府的开放数据,微软模拟了2012年Sandy飓风的状况。政府可 以看到每日所监控到的自然灾害的可视化数据。 根据飓风强度,系统可以预判受灾区域的范围,并快速调用受灾区域内的 避难中心坐标地址,提早将区域内的人员撤离至避难中心。 飓风来临时,政府人员可以通过观察按区域内的电力数据变动来判断人员 的撤离情况。如果电力使用量下降得很少,说明还有很多人在危险区域内。 对于行动不便的老年人,可以通过开放的养老院分布数据,分配人员进行 救助。 及时处理数据,应对灾后重建 美国有一套叫311的系统,人们可以向其投诉当地的空气、水质、建筑、街 道等内在问题。该系统的数据公开,使得CityNext可以将后端接入该系统, 通过对各类请求做关键词分析,来确定何地发生了何种事故。城市应急中心 根据这些数据快速进行资源调配,处理灾害损失。
中国政府逐步探索大数据的开发、应用 国家统计局在大数据方面与企业探索合作: 2013年11月,国家统计局与百度、阿里巴巴、卓创资讯等11家企业签订了大数据战 略合作框架协议,共同推进大数据在政府统计中的应用,增强政府统计的科学性和及 时性。 2014年初,国家统计局与卓创资讯联合发布流通领域重要生产资料价格,被视为拥 抱大数据的重要举措。 2014年2月25日,国家统计局局长马建堂赴北京中关村,考察中关村国家自主创新 示范区、中关村数海大数据交易平台和京东商城,调研如何进一步加快推进大数据在 政府统计中的应用。
北京市应用大数据技术,建成政务数据资源网 2012年,北京市开发了北京市政务数据资源网(bjdata): 提供政务部门可公开各类数据资源的下载与服务; 为市场上各类企业开展政务资源的社会化开发利用提供数据支撑; 推动信息资源增值服务业的发展以及相关数据分析与研究工作。 网站开设了资源目录、开放API、APP应用、互动交流四个栏目: 资源目录栏目下设包括旅游住宿、 交通服务等14类政务资源; 开放API栏目则提供了基础API、 地图API和搜索API,可以根据用 户自身的需求创建地图应用程序; APP应用栏目提供了包括游北京、 爱健康等相关应用; 互动交流栏目则提供了问卷调查、 咨询建议、常见问题等6个模块, 实现全方位的网上互动。
北京市大数据应用处于起步阶段,政务部门间仍存在信息孤岛 高级法院近年数据量增长曲线(单位:G) 分析: 1.数据存量的增长与人员增加没有因果关系; 2.数据存量的递增与高级法院信息化服务业务的能力和水平成正比关系; 3.非结构化数据是近年来数据爆发式增长的主因,蕴含着大数据时代的来临和巨大潜力。 年均增长率38%
市工商局近年数据量增长情况(单位:G) 2008年 2009年 2010年 2011年 2012年 存储量(G) 6564 7838 8434 9198 10364 年均增长12.2%
目 录 大数据时代到来 大数据在政务领域的应用 北京市的推进策略
推进基础设施建设 到2015年底,力争吸引社会滚动投资700亿,推动下一代信息基础设施加速建设 和广泛应用,建成符合首都功能定位,高速、泛在、绿色、可信的信息基础设施。 实现光纤到企入户,全市所有家庭用户宽带能力达100M,社区宽带能力达1000M,高 端功能区和重点企业宽带能力达10G,互联网国际出口带宽达1.5T。 实现宽带无线移动通信网深度覆盖,WLAN按照需求覆盖本市公共场所和服务场所等重 点区域,移动宽带普及率超过60%。 实现有线电视双向网络覆盖全市,高清用户交互式数字电视用户比例达到80%以上。 物联网基础设施基本建成。
建设全市政务云数据中心,打破政府信息孤岛 建设全市范围内的“一主多辅”政务云数据中心及备份中心,实现全市政务信 息基础设施的集约化利用。 政务云 主数据中心 政务服务 云数据中心 (南) (中) (北) 纳入政务云管理的委办局数据中心 云运营企业数据中心 备数据中心 同城 灾备中心 异地 高性能支持海量业务访问 良好的可扩展性适应云数据中 心规模的快速增长 为不同虚拟机提供有效隔离
立法保护大数据时代个人信息安全 将个人安全信息纳入立法,为大数据使用创造更好的社会法治环 境,保护个人信息安全。 将个人安全信息纳入立法,为大数据使用创造更好的社会法治环 境,保护个人信息安全。 在半月谈社情民意调查中心开展的《你被“大 数据”了吗?》网络问卷调查显示:有近半数 公民呼吁政府和社会对个人数据及个人信息保 护进行立法。 加快政策、安全标准的制定。明确个人信息保护 的一套基本规则,包括个人信息的定义(包括个人敏 感信息和个人一般信息);个人信息的范围(包括手 机号码、家庭住址、医药档案、职业情况等);个人 信息的权利(包括信息控制权、信息知悉权、信息更 正权、信息封锁权、信息对价权等);个人信息侵权 行为性质、归责原则、赔偿范围等。 提高移动互联应用软件的安全认证门槛。对软件 开发商获取个人信息行为提出明确规范,禁止采集不 需要的信息,允许用户在隐私授权上保留选择权。
加强政府原始数据开放 加强政府机构原始数据的公开透明化,方便其他政府部门、企业、民众对 有效数据进行开发利用。 加强政府机构原始数据的公开透明化,方便其他政府部门、企业、民众对 有效数据进行开发利用。 对国家:统一数据公开,提高各部门的 协调能力,提高整体的信息沟通、共享 和服务能力便于整合各部门的资源,实 现资源有效配置,有利于缩减成本。 对各级政府:增加政府行政的透明度。 能有效增强干部的廉洁自律。同时大大 提高了政府的影响力和公信力。 对于公众:能及时、准确、全面的掌握 第一手的数据,维护公众的知情权。增 加了对政府的信任感和认可度。 对于数据本身:增加数据的利用率,实 现数据增值;增加对数据可用性、数据 使用情况和数据的易用性的管理与控制。 公开政务活动所获取的数据信息。公开有 利于公民实现其权利的信息资源,允许用户 通过查询、阅览、复制、下载、摘录、收听、 观看等形式,依法利用各级政府部门所控制 的数据信息,使的广大市民可以获取所需的 原始数据,并对原始数据再加工,进一步利 用,以使得数据创造更大的价值。 包括:政府机构为履行职责而产生、获取、 利用、传播、保存和负责处置的数据。
将政府开放数据与互联网服务结合起来,创造更大价值 深化政府开放数据与互联网服务的融合,为社会提供更快速、更准 确、更实用的公共服务。 集成政府、企业食品安全、食品追溯数据,为消费者提供食品、农 产品防伪溯源。 为企业提供质量管理的抓手,为消费者提供全面获取产品质量安全信息的渠道, 借助微信、手机二维码扫描、短信、网络查询等方式,实现消费者对食品、农产 品质量安全信息的全方位、全过程获取。 集成各类交通信息,为出行者提供实时导航服务,包括地点查找、 路线规划、语音导航。 为用户提供了公交、自驾、步行路线查询功能,帮助用户找到指定的城 市、街区、 街道、建筑物等地理位置,及离用户最近的所有餐馆、学校、银行、公园等等。 百度地图
以市民需求为导向,推动大数据在公共服务方面的应用 以更精准、更有效的服务市民为出发点,推动教育、交通、医疗等 多个方面的大数据应用。 基于大数据的应用系统建设机制: 如交通领域: 系统设计:从市民的需求出发,利用大数据技 术抓取需求程度、用户规模等关键信息,辅助 综合性立体的交通信息体系的设计; 众包采集:通过众包的方式,让用户提出可能 利用的各种交通数据并纳入系统; 数据使用:构建公共交通信息集成利用模式, 发挥整体性交通功能,通过在大数据中进行集 成检索、利用和分析来提取相关信息,满足各 种交通需求,以解决实时交通障碍。 效果评估:市民使用并反馈系统使用效果。 完善改进:系统建设者对系统进行迭代完善。 市民需求导向 系统 设计 众包采集 数据使用 效果评估 完善改进
以领导决策为导向,推动大数据在辅助决策方面的应用 充分发挥大数据技术在预测、分析等方面的优势,为政府应急领 域决策及非应急领域决策提供服务。 北京市14个综合应急重点领域: 在应急领域,根据预防与准备、监 测与预警、处置与救援、恢复与重 建四个阶段的业务重点和处置特点, 利用大数据技术,获得准确的预测 预判和最佳应急决策方案。 1. 交通安全 2. 建筑工程 3. 消防安全 4. 森林防火 5.防汛抗旱 6. 生产安全 ………… 北京市10个非应急领域: 在非应急领域,从政府履职应关注 的四个方面“经济调节、市场监管、 社会管理、公共服务”出发,利用 大数据技术,做好各领域趋势预测、 数据分析等。 1. 人口服务 2. 交通服务 3. 资源环境 4. 经济运行 5.科技创新 6. 文化发展 7. 食品药品安全 8. 社会保障 9. 农村发展 10. 政府效能 …………
谢谢!