谷歌将取代人类智慧吗? 撰文 F.Lassagne, R.Iconikoff, A.Debroise, M.Grousson J.Michaux, M.Fontez 编译 王佳
“大数据”时代是否预示着科技的“去人类化”?不管怎样,有一点确信无疑,那就是它以一种突如其来的方式改变了科学家在科研中的角色。 “谷歌式”科技时代的到来,由机器完成的新发现,这是否敲响了人类智慧的丧钟?提出这样的问题是因为与“大数据”相比,我们可怜的大 这是一种基于“关键词”的科研方式,不需要假设,也不追求理论 脑似乎已被彻底超越。
在神经学、遗传学、天文学、化学、流行病学,以及其他越来越多的科学领域,那种在大量驳染的数据间寻找隐藏关联(它们是潜在的科学新发现之源)的能力不再依靠敏锐的头脑、强烈的直觉,而是基于不同算法所进行的不间断的、重复性的工作,它们不知疲倦地在成千上万的硬盘中进行着搜索,以寻找数据间的统计学关系,揭示世界各地服务器妥善记录的变量间隐藏的关联性。
正如哈佛大学伯克曼互联网和社会研究中心戴维.韦恩伯格(David Weinberger)所总结的:“大部分科学领域所要分析的数据量日益增长,借助搜索引擎,科学家得以找到藏在这些数据之间的各种无法预知的关联,并用实验和测试来验证这些关联的科学价值。”这不仅仅是一件新的研究工具,它彻底改变了科学研究的方式。
首先,作为科研工作关键的第一步,由学者精心设计并提出的问题有变“粗糙”的趋势。科学发现的初始步骤不再是一个睿智的精确假设,以及与之相伴的、有可能提供佐证的实验思路或理论计算,它已经变成了一个只待输入计算器的搜索请求,仅由几个变量或关键词构成。比如,肝癌研究专家只需要将“肝”、“癌症”、“细胞膜”、“生长因子”、“酒精”、“年龄”等词输入计算器,他们与信息专家共同开发的算法程序便会接手,在分担任务的成千上万台计算器上运行,从千差万别的海量数据中(细胞特征数据库、基因片段数据库、公共卫生数据库)搜索匹配的内容。
对任何一个科学家来说,以人力进行这样的大海捞针是他们从来不敢想象的事。最后,如果科学家期待的统计关联真的存在,那么不劳他预测,也不劳他动手寻找,程序的机械性搜索会将这些关联自动呈献在他面前。他可能会发现,饮酒诱发肝癌的可能性在某个年龄段前后出现明显差异;或者一组从未想到的基因与某种癌症特定的细胞缺陷之间存在联系。事实上,这个无与伦比的运算机器,它的能力来自对内容本身的无视。“统计算法考虑的只有数据间的相似性。”阿尔德西公司的数据可视化专家克洛德-亨利.梅勒多(Claude-Henri Meledo)指出。根据科学家设定的一般性参数,程序对数据间最常见的各种关联进行统计。新发现依靠的是毫无技术含量的重复性计算,而不是科学家的敏锐思想。
漫无目的地交叉比对数据 谷歌式科技不仅把科学家的思想排除在外,似乎也不再需要他们的手和眼。因为在大数据时代,不再有需要清洗的实验室仪器,不再有需要培育的细胞,不再有需要排序的基因,不再有需要调节的射电望远镜……这就是它和传统研究方法的第二个巨大区别,即在已有的或实时增加的、但从未进行交叉比对的海量观察数据间随机寻找关联的可能。这种摆脱实验束缚的方式很像上世纪80年代末开始在物理、生物、神经科学及力学等领域广泛应用的数字仿真技术,然而有一个很大的不同:“大数据”只能产出个别模型,不会触及支撑它们的整体理论。其分析材料全部都就地取用,来自这个真实世界的镜像,原汁原味。
经验主义的强势回归 大数据时代的第三个突破更加凸显“去人类化”的特征:不仅不需要提前进行任何假设,不仅不需要实验观测,而且研究完成后通常什么都不需解释。因为统计分析在数据中自动找出的关联本身就已经说明问题了。例如揭示一组基因与某种疾病的关系。以至于对理论的追求或将渐渐从科学的蓝图中抹去。“这是经验主义的强势回归。”让.维罗尼指出。经验主义,这是一个13世纪由英国人罗吉尔.培根(Roger Bacon)提出的学说,后来被他的同胞弗朗西斯.培根(Francis Bacon)于16世纪加以系统化。
经验主义推崇的正是这种纯粹的实验方法,甚至认为理论抽象会让人产生理性高于一切的幻觉,而这是十分危险的。经验主义者认为,不应去寻找超越现象本身凡普遍性规律,从现象直接获得个别规则便已足矣……让.维罗尼认为:“这正是今天科学家利用‘大数据’的方式。归根结底,这种‘谷歌式’的、有过度经过主义倾向的科研方法的可怕之处在于,它将造就一门能够预测但不提供解释的科学,满足于‘虽然我不知道为什么,但有效就行’。”
这种科学没有灵魂,不受约束,既没有要为之效力的假设,也不追求任何理论体系,它打算彻底摆脱对人类智慧的依赖吗?靠灵感的时代是否已经过去?实验再也没有必要?理解事物本源的意愿已属多余?人类智慧存在的意义只剩制造效率更高的机器?且慢仓卒下结论。
首先,不论问“大数据”发出搜索请求这个步骤有多么不起眼,它依然是人类智慧的产物。这是在一些数据研究专家看来尤其不能忽视的一点。微软研究部的达娜‧波伊德(Danah Boyd)与新南威尔士大学的凯特‧克劳夫德(Kate Crawford)在一篇名为《大数据的六大挑战》的重要文章中指出:“有些科学家笃信自己可以依靠‘大数据’在万米高空俯视一切。但事实上,对分析预设和所选研究方法的思考才是至关重要的环节……”这一点在21世纪初“大数据”洪水来临之前就已成立,今天则更是如此。
如果忽略这一点,统计发现之丰富将使人类面临无数的“自我应验预言”:我对自己所要的结果有一定预想,我为此付出行动(有意识或无意识),筛选出有助于结果生成的数据,于是,我“客观地”获得了我所要的……法国应用信息学研究所(INRIA)大数据可视化问题专家让 ---丹尼尔.菲柯特(Jean-Daniel Fekete)解释道:“科学思维永远跳不出这一循环。在进行‘大数据’科研时,对数据的初步筛选同样基于某种既有的模型和假设,没人能在没有预设的前提雨应对如此巨星的数据。”
需要建立新的平衡 因此,这一科研模式的核心问题在于,科研人员必须明智地把握他对相关数据的信任程度,以避免完全脱离现实。必须建立一种平衡,因为当神经科学家或物理学家利用计算器完成对海量数据的分析,他们的手段已和传统方法大相径庭。让丹尼尔.菲柯特指出:“今天任何人只要精通信息科学,哪怕大门不出也可以成为卓越的流行病学家。”
经典科学理论已成过去,“数据科学”是通向未来的必经之路 对源自数据的科学的追求仍将继续。因为我们必须认识到,在知识的大树上,最下方的大部分果实都已被采摘一空。胜利属于那些最伟大的发现,伽利略、牛顿、达尔文、爱因斯坦……他们一个个青史留名,为我们总结出了统治自然的伟大定律。除去解释无限大(广义相对论)和解释无限小(量子力学)的科学还有待统一,那些奠基性的、有划时代意义的发现都已经成为过去时。然而,大自然远远没有向我们透露它的全部秘密。
除了极少数唾手可得但之前未引起我们注意的“果实”,剩下的那些 ----即其他潜在的重要发现 ----都在知识树的更高处。要摘到它们,就不得不借助机器。因为还有很多极为复杂的谜题有待破解,如万有引力如何塑造星系,热力学和流体力学如何决定气候变化、神经连接如何指挥大脑运转、缺陷基因所引发的连锁分子反应如何导致整个细胞受损等。
要轻松理解某些复杂整体现象的变化,未必有可行的模型。而这就是大数据存在的价值:它针对的是那些可以描述的现象,而不是可用模型方程解释的现象。至少这是它的初步成就所在。“谷歌式”的科研方式是否同样可以施于数学符号、物理定律,找到它们之间的关联,获得纯理论性的发现呢?只有未来能告诉我们答案。
戴维‧韦恩伯格真心认为这些机器的智慧终将获得承认,就像我们承认爱因斯坦的智慧一样,他对这一天的到来翘首以盼:“或许某一天我们会将诺贝尔奖颁给那些帮助我们从巨大的数据库中找寻意义的算法?这在我看来完全可能。”的确,即使这些“果实”略显奇怪,但它们和过往的伟大发现一样,都来自同一棵知识之树。
大数据科学的六个关键步骤 要探索大数据的广阔世界,科研人员首先需要选定可能与其课题相关的关键词或变量,向计算器发出搜索请求,后者将联网搜寻所有或多或少与之沾边的数据。 1.发送搜索请求 计算器中的某个程序负责执行该任务,对成千上万台联网计算器组成的集群(由研究机构以小时、天或星期为租用)发出远程指令。为了最高效地完成任务,该程序将搜索和数据过滤任务分配给不同的计算器。
2.计算器集群进行数据搜集 计算器根据搜索请求中的关键词和变量将在互联网上搜集到的数据放入内存。这种谷歌模式的搜索不做细节区分,会带来十分丰富的搜索结果。这一步就如同“拖网捕鱼”,不加区分地汇集信息。
3.大致归类 初步搜索结果会生成PB量级的数据库,被储存在研究人员租用的数百台网络计算器中。这些数据来源千差万源,属性也大相径庭,聚在一起“不成体系”。程序将去除这些数据的原始宗索引信息,并大致归类。
4.数据分析 发出搜索请求时,科研人员已向程序指明他希望对筛选后的信息采取哪一类操作(寻找关联性、求平均值…)。为此,程序会根据在计算器集群中的所在位置来分配计算任务,从而加快计算速度。
5.数据汇总后返还拍指令计算器 为了保证科研人员能够理解输出结果,指令计算器会要求每台计算器就其所做分析形成简报。这些简报汇集后返回到指令计算器。
6.最终形成研究人员能读懂的文本 指令计算器收到的信息量仍然可达数TB,人类大脑同样难以掌握。一些可视化程序能将这些数据转化为图案,并在计算器屏幕上显示,以方便科学家迅速找到信息中的不规则现象、某些特殊区域、动机…在计算器的协助下,新发现自动呈现在科学家眼前。 全文完