GOOGLE FLU TRACKER If you want to know what's up with the flu at the moment, you have a few choices: You can get the latest information at Google Flu Trends. Or you can get the official word from the Centers for Disease Control and Prevention, which is based on data that's by now a couple of weeks old. 头脑风暴组 陈馨雨 张国安 胡奥 申中一 盛炜博
这是一个互联网的时代 这是一个大数据的时代 “我们重视发挥互联网对经济建设的推动作用,实施互联网+政策,鼓励更多产业利用互联网实现更好发展。” ——习近平 2015中美互联网论坛 这是一个大数据的时代 大数据的四大特征: ①海量的数据规模(vast) ②快速的数据流转和动态的数据体系(velocity) ③多样的数据类型(variety) ④巨大的数据价值(value)。 ——国际数据公司
Google Flu Trends 谷歌流感预测 大数据在公共卫生领域的尝试 ——An attempt to track flu outbreaks based on search terms 谷歌流感预测 大数据在公共卫生领域的尝试 谷歌作为全球第一大搜索网站,每日的搜索量是一个巨额的数字。如果把全部搜索信息进行整合,这本身也是一种巨大的资源。
目录 预测原理 应用实例 数据出错 原因分析 解决措施
GFT的原理 谷歌工程师发现:在流感季节,与流感有关的搜索会明显增多;到了过敏季节,与过敏有关的搜索会显著上升;而 到了夏季,与晒伤有关的搜索又会大幅增加。 如果一个人患了流感, 那么他很可能上网搜索 流感的相关信息。通过 监测一个地区某些与流 感相关检索词的数量, 就可以估计出该地区流 感流行的情况。
2008年11月,Google Flu Trends正式上线 GFT分析谷歌搜索引擎中与流感相关条目数量,利用关键词追踪技术搜集大量有价值的数据,从而判断各地流感爆发情况 当然,并不是每个检索流感的人都会患流感,但将所有的流感相关的检索词汇总后,就会发现有一些词汇在流感流行的高峰检索总数目明显升高,通过计算这些词汇被检索的频率,就有可能获得该地区流感流行的趋势。
数据出错 从2011年8月到2013年9月108周中,谷歌开发工具超估流感 流行高达100个周。2012 - 2013与2011 - 2012的季节相比, 它高估了流感流行趋势超过50%。 2013年2月,《自然》杂志发文指出,GFT预测的流感样病 例门诊数超过了美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)根据全美各实验室 监测报告得出的预测结果的两倍! 如此海量的统计 为何会出错?
应用实例 2009年,甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊。因为传统上,美国疾病控制中心要在流感暴发一两周之后才可以做到这些。
原因分析 1.大数据傲慢(Big Data Hubris) 2.算法变化 ——大卫·拉泽(David Lazer)
“大数据傲慢”:即认为大数据可以完全取代传统的数据收集 方法,而非作为后者的补充。这种观点的最大问题在于,绝 大多数大数据与经过严谨科学试验得到的数据之间存在很大 的不同。 ①很多关键词只是看似与流感相关,但实际上却并无关联; ②媒体对于流感流行的报道会增加与流感相关的词汇的搜索 次数; ③搜索建议(recommended search)也会进一步增加某些热 门词汇的搜索频率 ——算法变化
在2012年,为了响应对症状的搜索,谷歌开始提供诊断术语 当然不同的语言差别也是很大的
“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库” 大数据为研究人类行为和人与人之间大规模的互动提供了新 的方式。然而,由于大数据的搜集做不到像“小数据”那样精 确,因此分析解读大数据是一件十分复杂的事。 “数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库” ——维克托·迈尔·施恩伯格 《大数据的时代》
Dr. Dugas says Google's approach is no substitute for lab tests, hospital reports and on-the-ground data. And it's important to note that it's not tracking actual flu caused by influenza viruses — rather, it's identifying common symptoms like fever, cough and sore throat. 换季 实证明,很大一部分与CDC流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由季节产生的——那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关 着凉 搜索
在互联网时代,无法否认大数据在帮助公共卫生事 业方面具有巨大的潜力但如果没有足够的背景信息, 仅仅靠数字可能是会误导人的 综上所述: 大数据=更多的信息=更多虚假关系的信息 在互联网时代,无法否认大数据在帮助公共卫生事 业方面具有巨大的潜力但如果没有足够的背景信息, 仅仅靠数字可能是会误导人的 大数据本身的缺陷+ 公众搜索的偶然变化 +谷歌的统计方法 =GFT的错误
解决措施 在21世纪,我们不能否认互联网的巨大作用,也无法拒绝大数据所带来的冲击 唯有抓住机遇,迎接挑战,方能求生存,求发展 科学是一个是站在巨人肩膀上逐渐累积的过程,需要科学家能够不断地评估他们建立的工作,而知识的积累需要数据形式的燃料 在通往未来的道路上,没有捷径和坦途。 ——《环球科学》执行主编
我们可以试着: 更好的方法—— 改变追踪机制 最好的结果来自两个来源的信息和技术,即将大数据与小数据(传统的控制数据集)结合起来。 “流感”与“流感症状”是完全不同的概念 “榨菜指数”:根据畅销全国的涪陵榨菜这几年在各地区销售份额变化情况,推断人口流动趋势。 更好的方法—— 最好的结果来自两个来源的信息和技术,即将大数据与小数据(传统的控制数据集)结合起来。 取代谈论“大数据革命”的应该是“全数据革命”(all data revolution),应该用全新的技术和方法对各种问题进行更多更好的分析。
谢谢观赏 互联网时代,人类究竟应当去向何方? 究竟如何让互联网为人类所用? ——每个人都应当思考的问题