什么是大数据

研究中心

一、大数据并非新事物

早在1980 年，著名未来学家阿尔文• 托夫勒就在《第三次浪潮》一书中，将大数据热情地赞颂为“第三次浪潮”。不过，直到2009 年前后，“大数据”才成为互联网信息技术行业的流行词汇。2013 年，随着互联网金融的空前热门，也才真正意义上将“大数据”推到了高潮。

如果探究互联网金融与大数据流行之间的关联，背后有一个很关键的因素，就是互联网金融一直无法解答一个核心命题——风险控制。即互联网没有找到比传统金融更具优势的风控方法，从而使得互联网金融在兴起的过程中饱受质疑。而横空出世的大数据成为了互联网金融支持者的一个重要精神支柱。大数据越不可测，就越具备想象力，对互联网金融而言，就越具解释力。

大概四五年前，美国《商业周刊》资深作家约翰•伯恩一本畅销书《蓝血十杰》，对今天中国互联网金融和大数据理论爱好者们产生了极大的影响。这本书讲述了十个年轻人，出身名校哈佛，心怀理想，是天才中的天才。他们二战期间成为了美国空军的后勤英雄，卓有成效地将数字化管理模式应用于战争，为盟军节约了十亿美元的耗费，帮助盟军取得了胜利。

这说明数据的分析和管理，很早就被用于国家战争和商业运营了，为什么现在非要在数据前面加个“大”字呢？

社科院一位知名教授曾提到，从本质上讲一切的社会现象都是统计现象，并不像实验室里的试验那样有明确的因果关系（如经济学的供求定理就是一个统计规律）。但是人类认知能力中最差的也是统计思维。

诺贝尔奖得主、心理学家卡尼曼曾经讲过，人类头脑中有两套思维。一套思维是本能的，比如我们的语言能力、模仿能力、第六感等等。如麻省理工学院的语言学家乔姆斯基指出，小孩子为什么到3岁就能学会说话，而要到十几岁才能学会微积分呢？语言学得这么快，不是小孩子自己能学会的，是他出生时大脑中就预装了一套系统。此外，察言观色的能力也不用特意学或教，小孩子就已经会了。所以这是人类的第一套系统，也是能够让我们快速反应的系统。第二套系统，是当我们做数学推理，尤其是统计分析时需要用到的。第二套系统运转很慢，因为占的内存太大，往往我们犯错误就是因为决策太快，在统计判断的方面出现问题。

所以，我们在谈大数据的时候，都认为是个新潮的概念，但是作为方法论而言，大数据已经有很长的历史了。那为什么现在大家突然讲大数据了呢？主要是因为现在的数据越来越多，一方面随着IT 革命，存储和计算能力在不断提高，未来可能会出现无限存储、瞬间计算的新时代；另一方面，能够被数据化的东西也越来越多，过去只有数字，而会计制度出来后，经济活动开始可以通过记账数据化。现在大家拿的pad 和电子阅读器中的文字、图像也是数字化的。随着能够变成数据的东西越来越多，计算和处理数据的能力越来越强，大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起，就会颠覆很多我们原来的思维。

二、大数据是非相关数据的相关性

现在大数据被说得神乎其神的一个重要原因，是普遍认为大数据可以有效推演和设定未来的走向，极为精准地推断某些事件出现的概率，体现在金融业里，就是可以很好地控制风险。那么，真的如此吗？

写于1942 年的科幻小说《银河帝国》，就讲述了在银河帝国最繁荣的时候，国内最有才华的数学家谢顿说他能够预知未来历史的变化以及潜在的危机，只要数据量足够大。当时的人口已经是上万亿，足够他准确预测未来的变化。所以，谢顿悄悄建了一个“基地组织”，还有“第二基地组织”。当出现所谓的“谢顿危机”时候，大家就把他事先录好的录像调出来，他在录像里会阐述已经预测到的此次危机及其99% 的可能性，并告知人们要怎么做。

书里的谢顿教授首先是个数学家，同时也是个心理学家。他从上千兆的社会民众中进行行为心理学的样本分析，来推断社会的演变。他把各种偶发性因素都设立了变量的幅度范围，一旦出现异变就予以扑杀，以使社会回归到设定的进程去。他也做了一些基本的定义，这些定义都隐含了一个社会假设，那就是“作为研究对象的人类，总数必须达到足以用统计的方法来加以处理，还有一个必要的假设是群体中必须没有人知道本身已是心理分析的样本，如此才能确保所有的反应都是真正的随机”。

可以看出，大数据的意义在于从海量的数据里寻找出一定的相关性，然后推演出行为方式的可能性。从这个角度来看，这与很多人所谈的大数据是相关数据的优化和整理的概念，有很大差别。

何谓非相关数据的相关性？比如说公共卫生领域，研究传染病是很难的，因为发病快，病人马上就死了，很难像癌症那样去研究它的病理学是什么。那最后是怎么发现传染方式的呢？以霍乱为例，实际上就是有两张地图，一张是得霍乱病人的分布图，另外一张是伦敦市水井的分布图，最后发现两张图之间有一些联系规律，所以觉得可能跟饮水有关。

在科学不发达的过去，我们是通过水井跟霍乱这两种非相关数据的分布寻找到了相关性，虽然不知道为什么，也无法解释，但是却能做出较好的防范。这种非相关数据的相关性是偶然发现的，并非刻意寻找的结果。原因在于，过去没有数据汇集技术，导致数据量太少，根本无法对非相关数据进行集中比对。另外一方面也是因为数据的处理能力有限，即使数据汇集了，也无法有效进行数据处理，要找出各种数据的相关性的手段极为有限。

所以，过去的数据挖掘也好，数据分析也罢，更多还是对带有相关性的数据的整理和分析，事前都是有逻辑作为基础的。包括《蓝血十杰》里面的行为，也包括阿里金融的所谓大数据风控等，本身就是可推导的数据，在此之上进行概率计算。如果这些都定义为大数据，那么大数据就不是什么新概念。要讲大数据，必然是海量的不同维度数据的相关性分析，对于本身具备相关性的数据，顶多称为数据优化罢了。

我觉得，大数据的出现更多是基于两个方面：第一是互联网使得数据产生量大大增加，有了现实的不同数据的比对和处理的可能性；第二是计算能力大幅度提高，原先单一的中央式计算方式变成了以云计算为特征的分布式计算方式，使得处理能力海量增加，最终可以把统计学和现在大规模的数据融合在一起，从而发现很多有意思的事情。

一方面是发现了很多有相关性的事件，但是不知道为什么相关；另外一方面是发现很多原先认为是没有关联的事情，原来内在都是有联系的。最终可以成为我们决策的依据，大大提升我们的管理效率或者处理事情的能力，也极大地颠覆我们原来的思维。

我认为应该多谈小数据而不是大数据。为什么呢？因为大数据要尽量收集更多的非相关数据来计算其相关性，必然带有极大的成本和结果的不确定性。成本大，是因为数据收集成本和整理成本都很高；结果不确定，是因为都是非相关数据，你之前是很难确定这些数据的相关性的，需要不断碰撞和测试，不但耗费成本，而且很可能穷尽之后发现，这些数据真的是不相关，所以投入和产出就经常极不对称。截至2014年，全球有能力进行所谓大数据应用的公司应该不会超过50 家，很多公司即使可以用大数据，往往所获得的收益也根本不足以覆盖巨额的成本。

注：本文中的部分信息为根据公开资料整理，其中的原创信息版权归其相应作者