未卜先知的神器:关于大数据的观察与思考
所有的批评家都喜欢把“尿布和啤酒”的故事作为大数据分析的开始:在20世纪60年代,沃尔玛超市连锁店发现给孩子买尿布的男人会顺便买几瓶啤酒。为此,超市在尿布旁边放置啤酒架,以方便顾客。这是半个世纪前的事了。
20世纪80年代,著名的未来学著作《第三次浪潮》预言“大数据”必须应用于未来的信息时代。然而,就在五年前,在线百科全书*不愿意开放“大数据”这个术语,认为它只是两个词的组合。当时,互联网上普遍认为,大数据更多的是概念和愿景,它的野心不小,但它的成就并不大。
在过去两年中,大数据应用突然爆炸,丰富多彩的想法变成了现实。即使最谨慎的观察家也承认,大数据的商业应用时代已经到来,因为它具有前所未有的准确预测能力。
数据爆炸带来了“新石油”
去年,扮演白宫政治的《纸牌屋》成为美国收视率最高的电视剧,这对于制作人来说并不奇怪。经过多年的数据分析,电脑发现一部包含三个元素的电视连续剧肯定会很畅销:导演大卫·芬奇、奥斯卡奖得主凯文·斯派西·福勒和英国广播公司风格。《纸牌屋》就是在数据的指导下,做同样的事情,果然红透半边天。这个例子可以很好地说明大数据应用的特点:从海量数据中发现以前没有意识到的联系,并将其转化为利润。
迈尔-勋伯格和库克·叶所著的《大数据时代》一书认为,一旦数据量变得“大”,基于数据的预测将非常可靠,而不是小数据时代的模糊推测。他们认为大数据的核心是预测。
美国工程师阿奇奥尼发现附近的乘客比他登机时便宜。所以他开发了一个预测机票价格的系统。截至2012年,他的“faircast”系统使用互联网上的10万亿价格记录来预测票价的时间和内容,预测准确率为75%,帮助乘客平均每张机票节省50美元。
一龙不了解航空业。他所做的只是查阅过去的数据并做出有价值的判断。
另一个例子广为人知。谷歌可以从互联网用户的搜索关键词中推断出流感疫情。工程师们对4.5亿种不同的数学模型进行了实验,最终发现45个搜索词组合成了一个特定的数学模型,这与过去的流感数据非常吻合。结果,谷歌在2009年首次发现甲型H1N1流感的传播,比官方确认早了一两周。
同样,为了发布消费物价指数数据,美国*雇佣了许多人调查90个城市的8万种价格信息,每年花费2.5亿美元。两位来自麻省理工学院的经济学家也做了同样的事情,他们使用软件在互联网上捕捉50万种商品的价格信息。在金融危机期间,他们在雷曼破产后发现了通货紧缩趋势,比*早了两个月。
大数据预测并不复杂,不管是价格预测还是疫情预测,只要有大量的数据。在Word程序中用于语法检查的四种算法已经大大提高了它们的性能,因为它们所依赖的数据量已经从500万变成了10亿。谷歌的人工智能专家彼得·诺维格写道:“基于大数据的简单算法比基于小数据的复杂算法更有效。”
然而,在“尿布和啤酒”时代,仍然很难获得10亿条信息。人们只能建立数据库,将一些信息存储起来,而丢弃其他信息。直到最近,计算机处理速度和低成本存储的飞跃才实现“一切都有记录”,使大数据分析成为现实。
目前,美国股市三分之二的交易是由基于大量数据的计算机程序预测和自动完成的。从这个角度来看,2012年3月美国“大数据研发计划”中提出的“大数据是新油”并不完全理想,但已经部分实现。
记录一个人的过去,你就会知道他的未来。
即使是普通人也能注意到,在各个领域收集的数据量正在爆炸式增长。人类存储信息的增长率比经济增长率快4倍,而计算机数据处理能力的增长率比经济增长率快9倍。
信息爆炸的线索可以在美国的斯隆数字巡天望远镜上看到:仅仅运行了几个星期,斯隆收集的数据就超过了天文学史上的全部数据。2016年,智利的“广角全景天空观测望远镜”预计将在五天内收集同样多的信息。不仅科学仪器,而且互联网、视频监控网络和传感器网络(物联网)都在提供大量信息。有人甚至预测,由信息爆炸引起的年度数据量将在短时间内超过人类历史上积累的所有数据量。
如今,一个人的电子邮件、手机通话记录、网上购物记录、网上发布内容等。,都存储在各个公司的硬盘中;同时,他的手机记录了他的行踪。这个数字被街道监视器捕捉到了...一旦这些数据联系在一起,这个人的一举一动几乎是不可能隐藏的。
令人惊讶的是,根据《爆发》一书的作者巴拉巴斯的观点,人类的行为是高度重复性和可预测性的(巴拉巴斯甚至计算出93%的行为是可预测的)。因此,一旦一个人了解了自己的过去,他就掌握了自己的未来。
大大小小的组织都想从大数据时代的神奇现象中获益。一些对人类行为的预测已经显示出它们的力量。在今年的奥斯卡奖之前,微软纽约研究所的大卫·罗斯·蔡尔德通过大数据分析预测了主要奖项的归属。除了最佳导演奖,他几乎猜对了。在2012年美国总统选举中,他根据过去的数据准确预测了51个选区中50个选区的选举结果。
大型超市Target Company根据20多种商品判断顾客的怀孕期,并适时发送推荐清单。有时,甚至在顾客知道自己怀孕之前,塔吉特的系统就可以根据他们购买偏好的变化进行判断。
一家美国个人消费评估公司推出了“遵循医生建议评分”,这将帮助医疗机构知道需要提醒谁及时服药。这个分数是通过分析一系列变量来确定的,比如一个人在某个地方住了多久,他们是否结婚了,他们换了多长时间的工作,以及他们是否有一辆私家车。
如果你想知道一个人是否会及时服药,为什么你需要检查他的工作简历或私人汽车?没人能说。但事实是,只要过去的数据显示,拥有私家车且很少换工作的人更愿意按时吃药,那么将来肯定也会如此。
然而,微软与华盛顿*医院合作,发现如果充血性心力衰竭患者在第一次就诊时出现“抑郁”之类的词,再次入院的可能性也会增加。
知道就足够了,不要问为什么
《大数据时代》一书强调大数据不关心“因果关系”,而是“相关性”。这一点也被这本书的粉丝反复强调。由于大数据分析,人们了解了世界,不再需要讨论“内部机制”。大数据没有教会机器像人一样思考,但是简单的数学算法被用于海量数据,让数据为自己说话。
在人类科学领域,因果关系是最难确定的,大数据分析也取得了许多成功。中英人寿保险公司使用数百种生活方式数据,如爱好、网站、项目和收入,来确定哪些人更容易患高血压、糖尿病和抑郁症。
丹麦癌症协会在2011年发表了一篇文章,使用了自1985年以来所有手机用户的数据和同期所有癌症患者的数据,发现癌症与手机的使用无关。
根据16个不同的数据,美国研究人员还发现,早产儿稳定的生命体征不是好转的迹象,而是暴风雨前的平静。研究人员不知道具体原因,只有数据显示是这样。
对于大数据,分析不需要知道原因。著名的谷歌翻译团队甚至不需要语言学家。他们只是让电脑根据互联网上的数据来判断中文英语的哪一段可能对应。起初,这种翻译的质量不会很好。随着信息量的增加,机器翻译会越来越令人满意。
对于大数据,分析不需要太精确,因为批处理允许存在缺陷。ZestFinance是一家由电脑决定是否向客户提供贷款的公司。其客户信息表中有许多空白。甚至10%的客户都“死了”,这显然是错误的。事实上,这些客户已经偿还了贷款。该公司不会过于准确地处理其数据,但其贷款拖欠率比行业平均水平低三分之一。
英国石油公司在美国的一家炼油厂安装了许多无线传感器。由于高温和电干扰,许多传感器读数错误,但一旦数据很大,这些错误可以弥补。通过随时监测管道上的压力,工厂可以发现并防止一些原油更具腐蚀性。
联合包裹快递在所有卡车上安装了传感器。如果发现异常数据,他们会提前更换零件,从而节省数百万美元的维修费用。他们不在乎传感器数据是否准确。但它确实有效。
俗话说,“量变导致质变。”当有大量数据时,数据分析显示一个不熟悉的属性——因果关系正在消失。个人数据的准确性不再重要;这个预测几乎肯定是准确的。大数据,就像女巫的魔力一样,让我们感到奇怪和兴奋。