研究中心

数据管理、数据连接及未来

今天,我们正处于决策成本产生巨变的爆发点,过去那些想尽办法都无法获取的数据,在今天唾手可得,而当有些表面上完全不相关的数据关联起来时,竟然产生了新的商业价值。更重要的是,过去,我们更多地是带着问题去寻找能够验证自己观点的数据,而今天我们却可以使用数据去预测可能出现的问题。

数据常常是“脏”的

在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?

美国有一家公司,专注于与地理位置相关的数据收集、整理和查询服务。它将地理位置的相关指标,按照酒店和旅馆等属性划分为不同细类,对外提供基于位置信息的实时查询,为包括美国最大点评网Yelp在内的多个知名应用提供底层数据服务。这家公司最令人印象深刻的是,它对于所收集来的数据会提供一个数据质量评分,以反映数据的可信度和质量水平。它会对这些数据的源头以及对处理数据阶段所用的算法进行评分。也就是说,这家公司在提炼数据的每一个阶段都进行了数据化管理。

这家公司的做法让我们看到了一个非常重要的趋势。它首先接受了数据源肯定是脏的和数据源一定会被污染的事实。所以,它在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水,这在大数据时代将是一个非常重要的趋势。

事实上,我们今天在处理的大数据,依然只是冰山一角,而更大的数据都隐藏在我们的语言中,比如我们说的话和写的字。所以,将来我们要准确地从互动中抓取数据,也一定要依赖对自然语言的处理。现在,美国的很多数据研究人员都在研究语言处理这一非结构化数据领域。

数据淡化

数据是有优先值的,在数据中有些是特别核心的,而有些即使缺失了也没有多大问题。所以,我们要学会真正坐下来盘点那些对公司最有价值、对用户最有价值的数据。

想要确定数据的优先值,就要先解决以下几个问题。一是数据的标准化。在大数据时代,我们需要一个标准化的交流语言。二是我们到底如何对接和交换数据,如何在交换的时候保持数据的稳定性。比如自然语言,比如在无线和PC不同场景下会受到不同的影响。第三个重要的问题是数据的存储,这将涉及数据的时效性问题。即数据需要还原到它产生的场景(时间、空间、情境等)中才具有更大的价值。所以,有人提出了数据淡化(DataDecay)的概念,意即数据的价值通常会随着时间的推移和场景的变化而减小。

数据的标签化管理

数据的属性标签是人类的经验判断,是数据后的数据。例如,当你要为一件物品打上标签时,其实就已经对你的经验数据进行了分析和总结,然后结合当下的环境给出了判断。如果没有考虑环境的影响及准确性的评估,这种经验加上直觉的判断是不稳定且难以解释的。但从数据收集的角度去看,数据的属性标签又是一个潜力极大的数据。

在数据属性的管理上,对于用户来说,每个人身上贴的标签都是多种多样的,但是对于企业来说,如何将这些标签归一和串联起来去描述这个用户,这是个重要的核心问题。

比如说,你要去应聘一家公司,A公司对你的评价是“很可靠”,B公司对你的评价是“不可靠”,而C公司准备雇用你,然后C公司看到了A公司和B公司给你贴的两个标签:“可靠”和“不可靠”,它就会困惑。

这样的问题常常发生,那么,我们要怎么去做标签的管理呢?我们需要有明确的标准,比如在上例中,“可靠”这个概念是没有标准化意义的,在定义标签之前,我们需要界定清楚这个“可靠”的标准是什么。有了这些标准,我们就有了一种可以还原数据的能力。否则,数据的属性是毫无价值的,而且,将来我们也依然不知道该怎么使用这一数据。

大数据价值的实现,在于数据与数据的连接

Google做了一件非常惊人的事情——Google甚至能在不明白某个网页语言的情况下,知道其内容是什么。试想一下,如果你懂俄语,看出俄语网页里在讲什么当然很简单。但是,如果你仅仅通过看字词的排列和网站的分类,就知道网页的内容,这是不是很令人惊叹?

这就是知识图谱,它是一个无穷无尽的世界。事实上,知识图谱并不是数据,而是数据和数据之间的关系。但这里有一个非常大的弊端,就是数据的储藏量非常大、储存的方法也很复杂,且稍微改变一点点关系的定义,整体就会产生巨大的变化。

比如说,有一个知识图谱在说电商平台用户之间的关系,那数据信息就非常庞大了。试想一下,今天电商平台里有多少个用户跟你有关系?假如说有25个,那么25个人的关系就演变成了25×25条关系。这时候,我再问你“什么是关系”、“见过就算关系,还是一起买过东西叫关系”的问题就具备了一定的难度。

关系建立的维度是无限大的,而且定义稍微改变一下,整个存储和整个数据库都会发生变化。所以,知识图谱的把控是有难度的。举个贴近我们生活的例子,比如说银行很早之前就给你开办了信用卡,决定银行这一决策的不是你的个人关系而是总关系。银行决定是否贷款给你,是要看你爱人做什么职业以及你家中其他人的经济情况如何。当这种种关系关联起来时,就会产生一个极为重要的知识图谱。

数据的实时化与实时性分层

我们千万不要把所有的能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机(RightTime)处理,有的数据是重要的,但不紧急。

以上讲到的很多内容都是关于数据收集和管理层面的,而在数据的处理上,LinkedIn上可以看到一个很有趣且有价值的做法。LinkedIn在处理数据时,会把公司的数据服务分为几层,一方面是紧迫度,另一方面是重要不重要。比如,它会把数据分为“快数据紧急”、“快数据不紧急”和“慢数据重要”等。

对数据实时性分层的做法有较大的合理性,也有一部分人觉得数据的实时化处理是趋势。RealTime是“实时”,RightTime是“恰当的时机”。但是,在很多情况下,数据的处理不一定要实时。比如,我们常见的情况是,每家公司都有财务的相关数据,这类数据的处理都是“T+1”,意思是你想要的数据在第二天才可以拿到。因为在其他数据没有到位的情况下,数据实时化的价值也不大。

但是,换个场景来看,银行若要判断某个人的信用卡是否被盗用,那么肯定要对之进行实时化处理。数据的实时化,让我们从商业的角度去认知数据,值得注意的是,在具备了实时化的数据处理能力后,很多以前不能解决的场景开始变得能够解决。比如,在如今手机、电视、游戏机和PC等多屏运作的时代下,作为一个网站,有多大的能力在非常快速的情况下,让自身在非常小的时间点里抓住消费者,卖出产品,这种实时的能力会在未来的商业中变得越来越重要。

一个网站必须要让自己的实时能力更高,甚至用户接下来的每一步你都应该猜到,但我们千万不要把所有的能力都用在实时化处理上,因为依然会有大量的数据需要在恰当的时机(RightTime)处理,有的数据是重要的,但不紧急。

未来是人机的结合体

人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。

很多人会问,大数据目前发展到什么阶段了?我的答案是——水分太多的阶段。但毋庸置疑,大数据已经极大地影响了我们的社会,但还远远没有达到它的爆发点。因为有了大数据,人的经验开始和数据结合,两者相互激活,让人的智慧得到了规模化地放大,这也使得整个社会开始伴随着数据的发展产生巨大的改变。但是,在大数据的使用上,未来的发展空间注定会比现在取得的成绩更加宏大,“数据化运营”和“运营数据”这个数据与人之间的闭环系统也会越来越完善,人机结合仍然有巨大的空间让我们去挖掘。

未来,数据的种类将超出我们的想象。以前的数据更多集中在外部行为的监控上,不论是网络购买行为,还是网上社交行为,都是用户在“远距离”提供数据,即便这样,我们仍然还没有运用好这些数据。随着可穿戴设备的出现,数据和人将真正融为一体,类似谷歌眼镜这样的设备,将让我们看到的东西即时数据化;类似健康手环类设备和可以深度收集脑电波数据的设备,将随时会使我们人体的活动转化成数据。目前,记录睡眠状况只是其初步的应用,在不远的未来,用数据记录我们每一秒钟的生活也将成为可能。

当万物皆数据的时刻到来时,商业发展的更多新机会将会出现,数据将会帮助我们更好地做出判断,比如,什么时候最适合吃饭、什么时候身体疲惫适合睡觉和什么时候记忆力最好等,这些都能通过数据来进行预判。甚至于,当记录了人的足够数据之后,数据就可能告诉我们此时此刻应该做些什么及最佳的策略。也许在那时,决定人是否聪明的指标,已经不是IQ,而是是否拥有足够优质的数据。

注:本文中的部分信息可能为根据公开资料整理,其中的原创信息版权归其相应作者