研究中心

大数据探讨:过去能否预测未来

一、大数据的相关性基础条件

大数据涉及海量非相关数据的相关性的统计,其相关性的存在基础又是什么呢?非相关数据,两者的相关性可能是真相关,也可能是伪相关。需要注意,这种相关性要成为可推演的行为逻辑,首要前提就是确保这种相关性的基础是恒定不变的。

再以前文霍乱与水质关系为例,这里存在一个基础前提,就是霍乱弧菌在水中存活时间较长,有些菌株还可以在水中越冬。所以一次污染后有可能使水体较长时间保持传播能力。而且,当水栖动物被污染后,霍乱弧菌有可能在其体内存活较长的时间,继续污染水体。所以,经水传播的特点是呈现暴发状态。如果这个霍乱弧菌不是通过水传播了,那这种相关性就消失了。

因此,我们要注意和警惕的是,大数据并非是一个万能的事物,它的缺陷在于立足于统计学基础之上,必然是会因为统计样本的变化而发生变化的。尤其在适用于人群分析的时候。 拿前面的《银河帝国》来举例,把社会公民作为样本来进行分析,通过过去的样本行为,得出未来的可能结论。这里的理论基础是,在人群的社会性特征不发生改变的情况下,作为社会构成的绝大部分人,思考问题的方式不会有太大的差异,行为逻辑也是相对固定的。如果是将一个人特列出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。

但是要注意,这个理论成立的核心前提是,社会性特征要保持不变。因为只有在相对稳定的基础性环境里,被列为样本分析的群体才会是一致行为逻辑。在基础性环境发生变化的情况下,人的行为跟过去必然是不同的。

一个简单的推论是,如果一个人未来做的事情跟过去一致,那么这个社会必然是不发展的。因为即使有人做出了创新性突破,但是当社会多数群体都拒绝创新使用的话,社会还是停滞的。 因此,在一个发展的社会里,社会群体必然是不断改变其行为模式的。而一旦行为模式改变,所有过去的数据积累所构建的相关性都会消失,因为人们不再按照过去的生活习惯进行生活了。

当然很多人会说,社会前进,必然使得数据也是前进的,所以还是可以用新的数据来推断未来。这里的悖论在于,由于大数据的核心是通过分析过去而判断未来,隐含的前提条件必然是未来跟过去的基础性特征一致。而且,数据由于需要海量积累,匹配处理后的推论结果永远是慢于社会前进的步伐的。

二、过去能否预测未来

问题的焦点在于,过去是否一定能预测未来?如果大数据无法解答这个命题,那么它必然在很多领域是失效的。

我们先看一个简单的堆沙子的实验。在海边堆沙子,无论你怎么堆积,必然是要倒塌的,问题在于什么时候倒塌?通过数学模型一直无法测算出精确的结果,也就是无法计算出到第几粒沙子的时候,沙堆就会倒。这里如果用过去预测未来的逻辑进行推演,第1 粒沙子没倒,第2 粒没倒,第3 粒没倒……第1000 粒也没倒,我们可否有效认定,第1001 粒就不会倒了呢?事实上,过去的每粒沙子的往上堆积,都是在为最后一粒沙子的倒塌做准备。

过去几年的金融危机告诉我们,原来的经济学、金融学理论都存在巨大缺陷。按照传统的标准正态分布的金融学模型,2008 年的金融危机大概250 亿年才会爆发一次,怎么就让我们赶上了呢?为什么打开新闻,我们遇到了50年不遇的旱灾,100 年不遇的水灾,历史上从来没有过的雾霾天气,等等,怎么都让我们赶上了呢?这种黑天鹅事件即使在大数据时代,也仍然是没有办法预测的,因为这些数据都是为了未来某个黑天鹅事件做的准备。

在《黑天鹅》这本书里面,有一句非常好的话:“你不知道的事情比你知道的事情更重要。”在以前,很多东西我们没有办法把它数据化,也没有办法把它预测出来。但现在,数据足够多,它会给你一种幻觉,让人觉得能找到看得见、摸得着的规律,让人们觉得有足够的能力把握未来。但往往在人们过于自信的时候,会犯更大的错误。到目前为止,越是大的系统性危机,人们越是越束手无策。

美国金融危机爆发后,美联储前主席格林斯潘到美国国会去作证,他说,“我发现了一个缺陷,但我不知道它有多么严重,也不知道它会持续多久,这件事情使我深感苦恼。”有一个国会议员马上打断他,说:“格林斯潘先生,你的意思是不是说你根本不知道为什么会发生这次金融危机?”格林斯潘说:“是的,因为在过去40 多年甚至更长的时间里,我都有非常雄辩的证据证明我的做法会如愿以偿。”这么大一场危机到来了,美联储的掌舵人却不知道为什么会发生金融危机!

所以在未来,真正需要我们高度警惕的是,即使你有了大数据,也没有办法完全知道系统性的风险和危机,例如“黑天鹅”事件。 事实上,人类历史的场合中,黑天鹅事件的层出不穷,已经是被验证的定论,社会的每一次技术突破,其实就是黑天鹅事件。也就是说,黑天鹅事件,本来就是人类自我创造和努力的结果。

牛顿莫名其妙地被苹果砸了头,创造引力理论,然后极大地改变了社会的发展逻辑,使得人类呈现不同的生活方式,从而使得过去所有既定的规则都发生了变化,而事实上,人类社会已经表现出了加速进化的趋势,这个趋势还在加速过程之中,技术的迭代更新更加迅猛,最终使得过去预测未来的可能性越来越小。 过去预测未来,是无法反映出时代进步和调整的可能性的。过去所做的推断,永远只代表了过去那个阶段为止的最高极限,本身是不会自我演化和发展的。

很多年前,有一个假想的理论模型,跟大数据有点类似。因为所有的前提都是建立在当时的极限值上,所有的推演变化其实都在过去的科技水平之上,所以,人工智能永远只能达到生产者那个阶段的智力水平,它本身无法改变这个局限而实现自我进化。这必然决定了它要依附在生产制造它的群体的进化之上,只有如此,它才可能继续进化。

三、信号与噪音

一个数据分析师写过一本书叫《信号与噪音》,其中讲到真正的信号是有用的信息,还有很多没用的信号是干扰决策的噪音。“我们总觉得信息量越大,能够得到的真理就越多。其实不是的,信息增长的速度要远远快于真理增长的速度。”所以不要以为你的数据越多,就能离真理越近,有时候信息越多,噪音越多,反而干扰决策。换句话说,知识的边际收益是递减的。

因此,在“过去预测未来”的这个逻辑上,需要明确几个方面:一、经济生活加速,技术革命随时到来的情况下,稳定期限到底能维持多久;二、判断主体的前提是主体不知道自己被作为样本;三、社会生活中,稳定的群体是谁?不稳定的群体是谁?稳定的群体更容易被样本化而呈现可推演性。不稳定的个人意志往往改变社会,脑残和精英主导了社会的前进;四、人会因为未来而改变过去的可能性到底有多大?

四、被移动互联重构的社会:随机性加大

在移动互联网出现之前,人类社会骨子里还是个部落族长制社会,这种社会的特征是需要绝大多数人形成共同的价值观,然后基于此来展开社会分工协作。即使你不认同这种共同的价值观,一种被称为法律或者道德的东西,也会迫使你按照这种规则做事情。

总之,一旦形成了主流价值观的趋势,你只有接受和不接受的权利。由于这种价值观在一定时期是固定的,这就使得社会整体的行为逻辑是可以很大程度上被推演和归纳的。所以,我们会发现在国家和民族内,都有共同的生活习惯,尽管很多生活习惯是被强加的,并不代表认同。

在过去的社会里,你如果是一个生活在群体性特征下的异类,你的前途基本上很渺茫,会被不断地边缘化,处于自生自灭的境地。当然这个还算好的,如果你要反对这个社会的主流价值观,你的下场一般就是哥白尼之类的了。当然也有极个别的成功案例,就是被边缘化和不认同后,通过他自己的努力或者是运气,不但活下来了,还活得挺好。毕竟这样的人真不多。 但是互联网出现之后,情况有了很大的变化。一个被自己原先所在群体边缘化的人,通过互联网,往往能找到另外一些和他一样被群体边缘化的人,然后一拍即合,构建起一个新的群体。所以从这个角度来看,互联网其实是极大地促进了社会群体的分化。社会更趋向多元化的分布,主流价值观会被打破,越来越多的价值观会涌现。这就使得对群体性行为的预测难度加大,就算每个群体的行为都可以被预测,但所有群体叠加之后整个社会行为的预测难度会很大。

以前我们的社会讲究讲究规矩,例如播音员要字正腔圆,写文章要条理清晰,逻辑分明。现在发现不是了,你普通话越不标准,可能观众还越喜欢;你文章没人看得懂,但无数少男少女却为之疯狂。这意味着社会旧有的运行秩序会被重构,背后所反映的是样本分析、群体分析的难度在加大。

由此判断,未来的社会形态将呈现出“现代社会的部落制形态”,过去那种集中式、大一统的社会可能会进一步走向多元、分散,甚至去中心化,但由此带来的是整个社会更易陷入小团体有意识,整体无意识的社会方向,从而使得社会的前进方向更具随机性。

未来社会的另一个特征,是不可测事件的频发性。人类的进化并不是按照最优路径进行的,从进化通道来看,基因本身也会同时出现多种方向,并不是最先进的基因决定了进化方向。进化的方向往往带有极大的偶然性,随着外界环境的变化而变化,但外界环境又带有极大的不确定性,大量的事情是非必然的。

最好的例子是恐龙。恐龙的灭亡,很大程度是因为小行星的碰撞,这个突发的偶然性事件,使得统治了地球近1.4 亿年的恐龙在很短的时期里全部死去,代表了当时最先进生产力的恐龙就此灭亡,地球的进化方向转向了。没有任何数据可以推导出这个偶发性的外部因素,以及由此所造成的影响。

人类进化历程也必然如此,前进是必然的,如何前进却是偶然的。由于样本分布太少,数据不够充分,现实中恰是无法进行数据推演的。

简而言之,正确归纳和推演社会普遍群体的某一逻辑,其背后需要稳定的社会环境基础,而稳定的社会环境基础,却往往会被少数人所改变。因此,结论是社会群体的推演其实是无法预测的,而且移动互联时代更加剧了进程的不确定性。

注:本文中的部分信息为根据公开资料整理,其中的原创信息版权归其相应作者