大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院 32478179@qq.com 2014.5.18
从马航失联谈起
主要内容 3 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据时代的隐私保护 大数据时代的大众生活
共识 大数据引发全球高度重视 大数据=战略资源 IT和其他行业 咨询公司 经济界 互联网 政府 IBM 、沃尔玛等传统企业大规模并购大数据公司,进军大数据领域 2012年初世界经济论坛讨论大数据一题引起政商界高度关注 2011年麦肯锡总结大数据现象并发布报告,点燃大数据热潮 IT和其他行业 咨询公司 经济界 2000年以来,搜索、广告和电商利用大数据获得丰厚回报 2012年,美国、英国、日本等政府积极开放数据,并资助大数据研发 共识 互联网 政府 大数据=战略资源
6 什么是大数据 无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合 —— 维基百科 无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合 —— 维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理 —— 美国NIST 体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力 —— Gartner公司
大数据的产业热 来源:Wikibon公司,2012年 据Wikibon公司测算,2011年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年均增速达到58%,是同期IT产业增速的7倍
大数据的投融资热 8
以数据为中心的时代 大数据 ICT产业发展周期
主要内容 10 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
“信息化”浪潮 硅介质 数字化 网络化 距今10万年前 距今5000年前 公元1000年 公元2000年 互联网 硅介质 数字化 网络化 大范围传播与持久保存 印刷术 保存与传承 文字 口耳相传 语言 距今10万年前 距今5000年前 公元1000年 公元2000年 古登堡印刷术发明后,50年书籍增加了800万册,增长1倍,是之前西方数据量的总和
12 史上的大数据:政府最先遇到 税收! 约前2200年大禹“平水土分九州数万民” 公元2年,汉书.地理志:全国103个郡国,人口是59,594,978人 1909年,秦政府颁布调查户口章程 古罗马,每5年一次 税收! 美国宪法规定10年一次人口普查 1880年统计用了8年,预计1890年要13年 穿孔卡片制表机的发明,要1年 1086年,英国《末日审判书》 人口、土地、财产登记
史上的大数据:天文学制造了数据大爆炸 13 第谷 开普勒 人肉的“大数据”资源 突破性的“处理”算法 伽利略 牛顿 工具的“大数据”资源 划时代先进的理论 13
数据量的增速 14 1980以来,每40个月翻一番 数据量增速,是GDP增速的4倍 数据处理能力,是GDP增速的9倍 2000年人类信息75%是模拟数据,2007年是6%,现在1%? 全球数据量预测(单位ZB)
计算能力的加速 15
3V 特性
4V/3V: 只是在说“大”! 17
“大”是相对的 不同企业,大的概念不同 18 2012年的“大” 2013年的“大” Hadoop Google Dremel 从几个TB(1TB=1,024GB)到多个PB Google, 1000PB 2013年的“大” 数PB(1PB=1,024TB) 百度1000PB Hadoop 开源模仿Google MapReduce,2003年的技术 Google Dremel 2012年,新的编程框架 18
从流程电子化到数据资产化 引爆此轮大数据的原因 大数据时代 1)数据更加丰富,有分析价值,从TB到PB 2)分析工具更加强大,成本够低,MapReduce 3)互联网商业上的成功,引起重视,麦肯锡报告 大数据时代 数据分析时代 2000年后,互联网公司开启数据分析挖掘新时代 数据库时代 1990年代,提出数据分析挖掘 数据耦合时代 1960年代,数据与应用分离,数据库技术蓬勃发展,但重视事务处理 1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分 1946 1961 1970 1990 2000 2003 2008 2013
主要内容 20 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
数据的内涵 21 可被量化、分析和再使用的信息 通常是测量获得的 可用图形图像可视化 模拟数据和数字数据 是最底层的抽象? 知识 信息 数据
22 史上数据理论的重大突破 市场经济 物理学 计算机 通信 复式记账法:商业、贸易、金融等的基础 图灵:让通用自动计算成为可能 伽利略:实验科学 牛顿: 物理世界数学化 量子力学:从宏观到微观 计算机 图灵:让通用自动计算成为可能 通信 香农:信息论
信息 能量 辐射 不断量化的宇宙 23 社会关系 时间 空间 颜色 长度重量 面积体积 人口天体 云计算 移动互联网 全部 随时随地 电流电压 声音图像 社会关系 Web1.0 被动 Web2.0 主动 碎片 移动互联网 随时随地 云计算 全部 23
上帝是数学家吗? 大数据 量化 量化 哲学 精神世界 物理世界 宗教 24
主要内容 25 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据与隐私保护 大数据的实践
思维的三大转变 相关关系 纷繁复 杂 全体数据 从样本 到总体 从因果到相关 26
从样本到总体 27 统计学的理论基础 样本分析 样本分析的缺陷 用尽可能少的数据,证实尽可能大的事实 精确性随着随机性的增加而大幅提高 精确性不样本空间数量的增加关系不大 样本分析的缺陷 绝对的随机性 不适合考察子类别 事先设计好的问题
从样本到总体:信不信由你 28 “样本”的统计,2003-2012年 “总体”的大数据 房价:全国143%,北京256% 收入:上涨180% CPI:中国涨幅34%,美国36% “总体”的大数据 货币发行量:+500%,超过美国,占全球50% GDP增长4倍,CPI应是100%涨幅! 股市:“上浮零” 淘宝TCPI指数:6.9% 全国工业用电量指数:4.7%
从精确到效率:用概率说话 29 大量信息和精确性,存在矛盾 关系数据库是数据稀缺时代设计的 算法的进步快于芯片,大数据优于算法 错误数据的混入,不准确性 关系数据库是数据稀缺时代设计的 “电信化”是短缺经济的产物 算法的进步快于芯片,大数据优于算法 用简单算法替代小数据的精确算法 简单算法+海量数据?
飞鸟派 新派 30 从精确到效率:自然语言处理的发展史 正例:TCPI,大众点评,Google翻译 要让机器翻译或语音识别,就需要先让机器理解自然语言 从基于规则到对大数据的统计 数据比算法更重要 反例:中国的英语教学
从因果到相关:Why—>Related 31 哲学争论:因果关系存在吗? 如果是,人的自由意志存在吗? 机器会告诉是什么,而不是为什么 语义网络 人工智能 人类认知水平相关 “丁蟹效应” 凡是播出由郑少秋主演的电视剧,恒生指数或A股就会有32个明显下跌 巧合?自我实现?大数据分析?
手机会致癌,相关吗? 32 对比丹麦1990-2007年所有手机数据库(358403人) 10729个中枢神经系统肿瘤患者数据库 研究目的 是否手机使用者更容易致癌? 是否通话时间长更容易会致癌? 结论:没有关系
33 大数据让社会学成为科学? 人类93%的行为是可预测的 人类的行为是随机的,不可预测的 人的行为是小概率事件, 人类需要的是随机的智慧 人类工作娱乐等活动具有间歇性,总是在长时间休息后突然爆发,然后沉寂 人类93%的行为是可预测的 自然界人类世界,符合幂律 人类的行为是随机的,不可预测的 人的行为是小概率事件, 人类需要的是随机的智慧
认知大自然 认知物理世界 认知信息世界 认知人类行为 34 假如人类的行为可以预测… 农耕文明 定居生活 阶级社会 工业文明 资本主义 毁了自然 认知信息世界 XX文明? 信息革命 毁了时间? 认知人类行为 技术生物? 毁“三观”?
大数据,经过1000年的发展后… 如何保存 如何打开 如何检索 如何甄别 壁画 1.1万年前 乌龟壳 前14-11世纪 磁盘 3-4年 磁带 30年 羊皮圣经 4世纪 普通CD 20-50年 《妙法莲花经》 南北朝 U盘 8-10年 35
36 永恒的忘记… 将隐私的讨论,扩展到时间维度 对于人类而言,遗忘一直是常态,记忆才是例外,而现在记忆却成了常态 大数据将所有人置于数字圆形监狱的中央
你不可能再造Google ,Facebook, 腾讯百度阿里 你在读书,书在读你 大数据是一种新资源 37 你不可能再造Google ,Facebook, 腾讯百度阿里 你在读书,书在读你 土地 人口 农业社会 资本 技术,机器,能源 工业时代 用户 数据 信息时代 可被消费,但没法被耗尽 可被创造,而不会被销毁,除非丢失或遗忘 大数据消耗的是注意力 每“滴”数据的价值不同 叠加效应不是加法的,而是指数的
38 多国政府的战略 国家/地区 时间 内容 美国 2012年3月 启动由联邦政府六个部门组织的大数据研究计划,投资两亿美元,力图巩固领先地位 欧盟 2012年9月 联合欧洲整体力量,制定大数据战略,作为欧盟Horizon 2020战略一部分,加速追赶 英国 2013年1月 英国把大数据作为八大关键技术领域之一,计划两年内向大数据关键技术投入1.89亿英镑,抢占先机 日本 2012年7月 《面向2020年的ICT综合战略》将“通过大数据应用促进社会发展经济增长”作为五大重点之一,并提出活力数据战略,提升日本竞争力 澳大利亚 2013年3月 发布大数据战略报告,宣布将于2013年7月前完成政府大数据制定,促进大数据在政府中的应用
美国政府大数据计划 2012年3月29日,奥巴马政府宣布“大数据的研究和发展计划(Big Data Research and Development Initiative)”。 首批共有包括美国科学基金会、卫生福利部/国家卫生研究所、能源部、国防部、国防部高级研究计划局、地质调查局等六个联邦政府的部门和机构宣布新的2亿美元的投资。 国防部 XDATA计划:旨在开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。 能源部 HPSS:是对磁盘和磁带系统上PB级数据进行管理的数据管理软件。 卫生福利部 生物传感2.0:是第一个考虑到区域和国家协调的情况下,通过互操作的网络系统对公众健康意识的可行性分析的系统。 共同提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平;扩大大数据技术开发和应用所需人才的供给;了解更多正在进行的联邦政府的计划,解决由大数据带来的机遇和挑战;计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。
开放政府数据联盟 截止2012年12月,美国的“开放政府计划”共有54个国家加入了由美国发起的“开放政府计划”。 网站Data.gov公开的数据类别(不涉及隐私和国家安全)超过400项,且数量仍在增加。 智利、爱沙尼亚、以色列、意大利、约旦、秘鲁、罗马尼亚、西班牙等国家建立了网站,向公民公布各类公共数据,包括犯罪统计数字以及政党资金、地方财政预算和政府采购数据。
财政透明 信息自由 财产公开 公民参与 41 加入“开放政府联盟”的门槛 能及时公开政府财政预算和支出的信息和文件 有专门的法律保证公民获取政府信息和数据的权力 有专门的制度规定如何公开高级政府官员的收入和财产 允许公民参与公共政策的制定、保护民权
主要内容 42 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
43 隐私保护的历史变迁 21世纪 数据为重心 20世纪 人为重心 19世纪 住宅为重心 个人控制、编辑、管理和删除关于他们自己的信息,并决定何时何地、一何种方式公开这种信息的权利。
传统隐私保护的“三板斧” 44 就像印刷业的发展促成了保护言论自由的立法,大数据也需要新的法律 告知与许可 匿名 模糊法
是运营商在云计算与大数据方面 一个战略性机遇 棱镜门与大数据 是运营商在云计算与大数据方面 一个战略性机遇 45
46 忘记的权力:数字遗忘 大数据使得网络匿名变成数学上不可能的事 你没有隐私,忘了这事吧 大数据使得网络匿名变成数学上不可能的事 你没有隐私,忘了这事吧 20年前, “性别+邮编+出生年月日”,识别出87%的人 大数据时代,通过分析用户4个曾经到过的位置点,就可以识别出95%的用户 “你不能在拥有100%安全的情况下,同时拥有100%隐私和100%便利” -奥巴马,2013.6
解除个人信息的价值:从收集到使用 47 世界经济论坛 没有坏数据,只有对数据的不合理使用 大数据 所有数据的收集都应该通过密码 大型机, 《公平信用报告法》 互联网 大数据 所有数据的收集都应该通过密码 所有对于数据的使用都应该登记 对于那些违反规定的人要采取处罚措施
主要内容 48 大数据的“热” 大数据的“大” 大数据的“数” 大数据的颠覆性 大数据的隐私保护 大数据与大众生活
搜索、电商、广告、SNS等数据驱动的互联网服务取得巨大成功,激发了大数据应用的想象力! 淘宝案例 53 我要买 关键词搜索 语音搜索 语音理解 关键词匹配 挑选 物品索引数据 评论/交易 商家信誉 用户行为数据 商户行为数据 购买 推荐其他 你历史数据 买家服务 交易数据 用户数据 商品数据 社交数据 数据: 系统: 10亿商品、交易额过万亿 每天30亿浏览、数千万交易 行业分析 店铺基础经营分析 商品优化分析 买家分析 营销效果分析 售后/运营支撑分析 需求挖掘 订单分析 供应链分析 信用评估 卖什么 怎么卖 卖给谁 我要进货 我要贷款 买家服务 集群规模3000台,每年扩大50% 50PB数据 衍生服务:金融、保险… 搜索、电商、广告、SNS等数据驱动的互联网服务取得巨大成功,激发了大数据应用的想象力!
互联网与传统行业融合创新大数据应用和产品 其它行业普遍仍在探索… 54 医疗 能源 零售业 传统行业大数据应用基本特点 传统行业 美国DNAnexus为医疗机构和用户提供了基因数据的管理、分析和可视化能力。 能源机构Vestas综合考虑温度、降水、风速、湿度、气压等因素,确定锋利涡轮机的最佳安置地。 沃尔玛零售数据商业智能分析系统,可以了解到全球4000多家门店每天的销售情况并辅助制定销售策略。 数据源主要来自企业内部、类型较少、实时要求较低 企业逐渐重视大数据,但当前应用相对简单,处于探索阶段 掌握大数据技术的企业较少,主要由ICT企业提供技术支持 金融 电信运营 制造业 美国征信所Equifax对海量信息进行交叉分析,推出70余项新服务。 西班牙电信“智慧足迹”产品可提供基于位置的大数据分析。 日本小松公司根据挖掘机工作情况进行大数据分析,判断下一年度的市场需求。 其它:农业、气象…… 互联网与传统产业不断融合,将催生新的大数据创新机会 互联网与传统行业融合创新大数据应用和产品 金融与互联网融合 交通与互联网融合 融合创新的大数据应用案例目前较少,应用处于起步阶段。 融合发展能够将互联网的在线、数据快速积累和获取等优势带至传统行业,为实体经济发展带来新的突破,将是未来大数据发展的重要方向。 阿里小贷:基于对用户交易行为的大数据分析,为阿里面向中小企业实施信用贷款提供支撑 德国电信利用大数据技术实施德国政府的无拥塞交通研究项目 其它: ……
我国大数据的挑战:来源和开放 55 我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12% 全球2010年新增数据量分布 我国已有数据资源还存在标准化、准确性、完整性低,利用价值不高 我国政府、企业和行业信息系统建设缺少统一规划和标准,形成众多 “信息孤岛”,数据跨部门整合与开放程度低 55
不易获得用户互联网或其他行业某一维度的深度行为信息 国外电信运营商大数据应用模式 56 优势资源应用模式 1、对内:优化自身业务 基本应用 智能管道:基于用户、业务及流量分级的多维管控机制。 精准的客户分析及营销:离网预警、套餐适配、广告精准投放等。大多数电信运营商已践行。 用户身份的锚点: 用户身份、用户账户 用户行为的全维度信息:访问记录、位置 2、对外:应用于社会服务 案例较多 智慧城市:利用位置和轨迹信息服务社会,为智慧城市提供海量数据预测服务。人口流量模型、城市人口流量等。 例:西班牙电信、中国电信、中国移动等 劣势资源应用模式 不易获得用户互联网或其他行业某一维度的深度行为信息 3、对外:与互联网合作 少数应用 与互联网企业合作,引入用户的深度行为信息。 例:Orange与Facebook合作推出Party Call,Facebook账号与电话号码绑定,将Facebook的开放社交图谱引入电信。 对外共享数据资源是趋势 电信运营商经历了从封闭到尝试合作,再到重新审视自身数据资源,提供更高级合作模式的过程。 4、对外:出售加工数据 最新应用 为其他行业提供API或加工后的用户行为特征信息。例:Verizon 推出的 Precision Market Insights, 包括位置和 Web 浏览信息在内的用户分组信息,并非用户原始信息,然后卖给体育场馆、商场等需要做营销的公司。如太阳队就用它来了解观众赛后是否更有意愿光顾比赛的赞助商。
中国运营商的大数据实践 构建数据共享服务体系深度数据挖掘将数据分析结果引入到应用开发支撑自有业务发展 离网预警、综合网管等等 数据源:在传统BI基础上叠加非结构化数据 闭环应用:将数据分析结果应用到客户挽留等流程 反馈修正:通过感知应用效果,不断纠正分析模型 离网预警、综合网管等等 建立数据分析平台,从而实现营销服务向“大数据、超细分、微营销”转型 自主研发大云分布式计算平台 经营分析、网管中逐步引入大数据技术 结合飞信等互联网业务推动大数据应用 大云、经分、网管、飞信等 以移动互联网流量监测分析平台为切入点 以“移动用户上网记录查询和分析系统”和“移动用户IP地址溯源和日志留存系统”、“3G基站辅助规划系统”、“移动用户NET取号系统”为基础 日志、地址、基站等
不易获得用户互联网或其他行业某一维度的深度行为信息 58 电信运营商的大数据核心资产 VS 电信运营商 互联网运营商 用户身份的锚点 不易获得用户的真实身份特征 用户身份:电话号码、姓名、职业等 互联网注册信息多为虚拟ID,少数为实名注册。 用户账户:语音、数据流量账户信息 用户行为的全维度信息 不易获得用户行为的全维度信息 什么时间,什么地点,访问了什么网站 淘宝:无法获得用户消费以外的行为信息。阿里入股新浪微博的原因之一。 用户访问记录:消费、社交、游戏等 用户位置:LBS 不易获得用户互联网或其他行业某一维度的深度行为信息 用户上网某一维度的深度行为信息 淘宝:用户消费行为的深度信息。 去了淘宝,买了什么?不知道,需对数据包进行深度分析,VPN网络更不易精确到某一用户。 腾讯:用户社交行为的深度信息。