华为内部狂转好文:有关大数据,看这一篇就够了
科学技术的进步总是会在很多时候超出我们的想象。如果我们拥有的计算机设备超过了当前全球计算能力的总和,一个人产生的数据量超过了当前全球数据量的总和,甚至你的宠物狗产生的信息量也超过了当前全球数据量的总和,世界将会发生什么?阅读本文,大数据将告诉你一个充满幻想的世界。
(引言)科学技术的进步总是会在很多时候超出我们的想象。如果未来我们拥有的计算机设备比当前全球计算能力的总和还要多,一个人产生的数据比当前全球数据的总和还要多,甚至你的宠物狗产生的信息也比当前全球数据的总和还要多,世界将会发生什么?阅读本文,大数据将告诉你一个充满幻想的世界。
来源:华为信息技术产品解决方案
作者:潘韶
时尚词汇的详细解释:大数据
大数据似乎一夜之间成为了信息技术行业最流行的词汇。
首先,大数据并不是一个全新的东西。谷歌的搜索服务是典型的大数据应用。根据客户的需求,谷歌可以从海量的全球数字资产(或数字垃圾)中实时快速找到最可能的答案,并呈现给你,这是最典型的大数据服务。然而,在过去,这种规模的数据处理和具有商业价值的应用太少,无法在信息技术行业形成一个概念。如今,随着全球数字化、网络宽带和互联网在各行各业的应用,数据的积累量越来越大。越来越多的企业、行业和国家已经发现,大数据的概念可以通过使用类似的技术来逐步形成,以便更好地服务于客户、发现新的业务机会、拓展新的市场和提高效率。
有一个关于奢侈品营销的有趣故事。普拉达在纽约旗舰店的每件衣服上都有射频识别代码。每当顾客拿起PRADA进入试衣间时,射频识别就会被自动识别。同时,数据将被传输到PRADA总部。每件衣服都存放在哪个城市,哪个旗舰店,什么时候,多长时间进入试衣间,并进行分析。如果一件衣服的销量很低,以前的做法是直接杀死它。然而,如果射频识别返回的数据显示,尽管这种服装的销量很低,但它进入试衣间的次数却很高。这可以解释其他一些问题。也许这条裙子的命运将会完全不同,也许在一些细节上的一个小变化将会重现一个非常受欢迎的产品。
从这个案例来看,大数据并不是一件神奇的事情。就像电影《无尽》中提出的问题一样,人类通常只用20%的大脑。如果剩余的80%的大脑潜能被激发,世界会是什么样子?在企业、行业和国家的管理中,通常只有不到20%(甚至更少)的数据得到有效利用。如果剩余80%数据的价值被激发,世界会是什么样子?特别是,有了新的海量数据摩尔定律,数据将会爆炸,然后被更有效地使用。世界将会发生什么?
个人数据没有价值,但随着越来越多的数据积累,数量的变化将导致质量的变化,正如一个人的意见不重要,但1000和10000人的意见更重要。数百万人足以引起巨浪,数亿人足以改变一切。
与美国航班的准时性相比,中国的航班非常晚。其中,美国空中交通管制署的良好做法发挥了积极作用。也很简单,美国将公布过去一年各航空公司和各航班的延误率和平均延误时间,这样客户在购票时自然会选择准时率高的航班,从而拉动航空公司通过市场手段提高准时率。这种简单的方法比任何管理方法都更直接有效。
没有集成和挖掘的数据,就无法显示值。库珀在《无尽的》中没有价值,如果他不能整合和连接公司股票价格的大量信息。
因此,海量数据的生成、获取、挖掘和集成显示出巨大的商业价值,这就是我所理解的大数据。今天,当互联网重建一切时,这些问题不是问题。这是因为大数据是互联网深度发展的下一波应用,是互联网发展的自然延伸。目前,信息技术可以说大数据的发展已经到了一个临界点,成为信息技术行业最热门的词汇之一。
其次,大数据将重组许多行业的商业思维和商业模式。
我想用对未来汽车工业的天马行空的想象来开始这个话题。
在一个人的一生中,汽车是一项巨大的投资。以一个30万辆汽车、7年更换周期为例,年折旧成本超过4万英镑(这里不包括资本成本),加上停车、保险、加油、维修和保养等各种费用,年成本应该在6万英镑左右。汽车产业也是一个产业链长的主导产业。只有房地产可以匹配这一方面。
但与此同时,汽车产业链是一个低效率、变化缓慢的产业。汽车一直是四个*,一个方向盘和两排沙发(李书福)。对于如此昂贵的东西,汽车周围产生的数据很差,而且产业链之间几乎没有任何数据传输。
我们在这里想象野生,如果汽车将完全数字化,所有的大数据,将会是什么结果?
有人说汽车的数字化只是为了增加一个MBB模块。不,这太幼稚了。在我的理想中,数字化意味着汽车可以随时连接到互联网,汽车是一个带有传统车轮、方向盘和沙发的大规模计算系统,它可以自动进行数字导航和驾驶,你采取的与汽车相关的每一个行动都是数字化的,包括每一次维护、每一条驾驶路线、每一个事故视频、汽车关键部件的每一个状态,甚至每一个驾驶习惯(例如每一次刹车和加速)都被记录下来。这样,你的汽车每月甚至每周都会产生T比特的数据。
好吧,让我们假设这些数据可以存储并与相关*、行业和企业共享。假设数据可以在隐私保护的前提下*共享,隐私问题的影响就不在这里讨论了。
那么,保险公司会怎么做?保险公司对你所有的数据进行了建模和分析,发现了几个重要的事实:第一,你主要开车上下班,南山到坂田的路线是一条繁忙的路线,红绿灯少,过去一年这条路线的事故率很低;你的汽车状况(使用寿命和型号)很好。这种模式在深圳的事故率也很低。即使算上你的驾驶习惯、平均加油量、较少的临时刹车、较少的超车、与周围车辆保持适当的距离以及良好的驾驶习惯。最后的结论是,你有一个好的汽车模型,良好的条件,良好的驾驶习惯,低事故率的频繁路线,并在过去一年没有事故,所以你可以给一个更大的折扣。通过这种方式,保险公司彻底重组了它的商业模式。在没有大数据支持之前,保险公司只对汽车保险客户进行简单分类,并将其分为四种类型。第一类是连续两年没有车祸,第二类是过去一年没有车祸,第三类是过去一年有车祸,第四类是过去一年有两次或两次以上车祸。有了大数据的支持,保险公司真的可以以客户为中心,将客户分成成千上万种。每个客户都有自己的个性化解决方案。这样,保险公司的运作就完全不同了。对于低风险的客户,他们敢于大胆打折;对于高风险的客户,他们可以报高价,甚至拒绝报价。因此,一般保险公司完全难以与此类保险公司竞争。拥有大数据和使用大数据的保险公司将比传统公司拥有压倒性的竞争优势。大数据将成为保险公司的核心竞争力,因为保险是一项基于概率评估的业务。大数据无疑是准确评估概率的最有利武器,而且它只是一种定制的武器。
在大数据的支持下,4S店的服务完全不同。车辆状况信息将定期发送到4S商店。4S店会根据情况提醒车主及时保养和维修车辆。特别是,对于可能危及安全的问题,车主甚至会在客户同意的情况下采取远程干预措施。同时,车主可以提前备足车辆,并且车主可以在到达4S商店时立即修理车辆而无需等待。
对于驾驶员来说,当他们不想驾驶时,在大数据和人工智能的支持下,车辆可以自动驾驶,并且可以学习和优化你经常驾驶的路线。谷歌的自动驾驶汽车,为了预测周围环境,每秒需要收集近1GB的数据,没有大数据的支持,自动驾驶是不可想象的;当离周围车辆太近时,车主会被提醒及时让路。在上下班的路上,根据实时大数据,你会被提醒你经常驾驶的路线,绕过拥堵点,并帮助你选择最合适的路线。在市中心找一个停车位是一件非常麻烦的事情,但是在将来,当你到达购物中心的门口时,你可以让汽车自己找一个停车位,并且当你想返回时,你可以通知汽车提前来取车。
车辆是城市中最大、最活跃的移动物体,是拥堵的源头,也是最大的污染源之一。数字车辆和大数据应用将带来许多变化。交通灯可以根据不同道路上的拥堵情况自动优化和调整,甚至在许多地方可以取消交通灯。城市停车场也可以大大优化,城市停车位的设计也可以根据大数据的情况进行优化。如果与车辆的自动驾驶功能相匹配,停车场将会发生革命性的变化,专为自动驾驶车辆设计的停车楼也可以设计出来。地下和地上楼层可以高达几十层,停车楼层可以短一些,只要高于车辆高度(或车辆可以竖立停车),这将对城市规划产生很大影响。*还可以每年公布各类车辆的实际排放、税收、安全等指标,鼓励人们购买更多节能、安全的车辆。
电子商务和快递业也可能发生巨大变化。快递车辆可以自动驾驶。他们不必在白天赶上拥挤的道路。他们在晚上午夜开门。他们在你家门口设计了一个自动接收箱,用密码打开它,自动发送出去,就像过去的报童一样。
所以想象下来,我认为,汽车数字化、互联网、大数据应用、人工智能,将会给汽车产业和相关的长产业链带来难以想象的巨大变化和产业革命,带来无限的想象空间,并可能被完全重构。当然,为了实现我所描述的场景,估计至少50年后,100年后,我将无法在我的生活中看到它。
在本章的最后,我想总结一下我对大数据的看法。
首先,大数据使企业能够真正从以自我为中心转变为以客户为中心。企业是为顾客创造的,目的是为股东创造利润。只有服务好顾客,我们才能盈利。大数据的使用可以将企业的业务对象从客户的粗略归纳(所谓的提炼归纳的“客户群”)一个接一个地缩减到活的客户,从而使运营更有针对性,对客户的服务更好,投资效率更高。
第二,大数据将在一定程度上颠覆企业的传统管理方法。现代企业的管理模式源于对军队的模仿,依靠逐级组织和严格的流程,依靠逐级信息的收集和汇聚来做出正确的决策,然后通过决策在组织中的传递和分解以及流程的标准化,保证决策的实施,保证每一项业务活动的质量保证,也保证一定程度的风险规避。
第三,大数据的另一个重要作用是改变业务逻辑,提供从其他角度直接回答的可能性。目前,人们的思维或企业的决策实际上是一种起主导作用的逻辑力量。大数据给了我们另一个选择,那就是利用数据的力量直接得到答案。就像我们学习数学的时候,我们在1999年学习乘法表,在高中学习几何,在大学学习微积分一样,我们遇到了一个难题。我们用多年的学习经验试图解决这个问题,但是如果有这样的问题,我们也有办法直接在网上搜索。如果有,最好直接抄下答案。许多人会批评这是剽窃和欺骗。但是我们为什么要学习呢?不仅仅是为了解决问题。
第四,通过大数据,我们可能会有一个新的视角来发现新的商业机会和重组新的商业模式。我们现在正在看世界。例如,对家庭食物腐败的分析主要取决于我们的眼睛和经验。然而,如果我们有显微镜,我们可以立刻看到坏细菌,那么分析就完全不同了。大数据是我们的显微镜。它可以让我们从新的角度发现新的商业机会,并可能重建商业模式。我们的产品设计可能不同,很多事情不用猜,顾客的习惯和喜好一目了然,我们的设计可以轻松打动顾客的心;我们的营销也完全不同。我们知道顾客喜欢什么,不喜欢什么,更有针对性。尤其是显微镜加上广角镜子,我们会有更多全新的视野。这个广角镜子是一个跨行业的数据流,它让我们能够看到过去看不到的一切。
最后,我想谈谈大数据开发对IT自身技术架构的革命性影响。大数据的基础是信息技术系统。我们现代企业的信息技术系统基本上是基于IOE(IBM小型机、甲骨文数据库、EMC存储)+思科模型。这个模型是按比例放大的体系结构。它适用于在已建立的模型下解决一定数量数据的业务流程。然而,如果是在大数据时代,它将很快面临成本、技术和商业模式的问题。大数据对信息技术的需求将很快超过现有制造商架构的技术极限。信息技术支出的增长和超大数据的增长之间的线性关系将使企业不堪忍受。因此,目前业界提出的采用横向扩展架构+开源软件取代纵向扩展架构+私有软件的去异构化趋势,实质上是由大数据业务模式带来的,也就是说,大数据将推动信息技术行业新一轮的结构性变革。IOE趋势中的所谓国家安全因素完全是次要的。
因此,美国人说大数据是资源,就像大油田和煤矿一样,他们可以不断挖掘出大量财富。此外,与一般资源不同,它是可再生的,价值越来越高。这违反了自然法则。企业、行业、国家和人民都是如此。
第三,新的智能生物的诞生?
自然语言的机器翻译是人工智能研究长期以来的重要体现。人工智能从过去到未来都有着清晰而巨大的商业前景,信息技术过去一直是信息技术行业的热点。它的热度不亚于当前的“互联网”和“大数据”。然而,过去人类在推进人工智能的研究中遇到了巨大的障碍,最后几乎绝望了。
当时,人工智能是模拟人的智能思维来构建机器智能。在机器翻译方面,语言学家和语言专家不得不煞费苦心地编纂与语法、句法和语义相关的大型词典和规则。几十万个单词组成一个词典,语法规则高达几万条。考虑到各种情况和背景,他们模拟人类翻译,计算机专家构建复杂的程序。最后,我们发现人类的语言太复杂了,穷尽式的翻译方法无法达到最基本的翻译质量。这条道路的最终结果是,在20世纪60年代后人工智能的技术研究和发展停滞了几年之后,科学家痛苦地发现,以“模拟人脑”和“重建人脑”的方式定义人工智能进入了死胡同,这导致几乎所有的人工智能项目都进入了冷宫。
后来,有人想,为什么机器要向人学习逻辑?这既难又难学。最强大的机器是它们的计算能力和数据处理能力。为什么不走另一条路,而不是利用优势和避免劣势呢?这就是IBM“深蓝”所走的路。1997年5月11日,象棋大师卡斯帕罗夫宣布,他未能与IBM开发的计算机“深蓝”对抗。结果,计算机“深蓝”赢得了这场影响深远的“人机对抗”。
类似的逻辑后来被应用于机器翻译。谷歌、微软和IBM都走了这条路。也就是说,主要采用匹配方法,同时结合机器学习,依靠海洋数据和相关统计信息,不管语法和规则如何,将原始文本与互联网上的翻译数据进行比较,找到最相似和最频繁引用的翻译结果作为输出。
总而言之,使用这种技术,计算机教会自己从大数据中构建模式。有了足够的信息,你可以让机器学会做看起来很智能的事情,不管它们是在导航、理解单词、翻译语言、识别人脸还是模拟人类对话。
让我们假设刚刚出现的可穿戴计算设备已经取得了巨大的进步。这进展到什么程度了?甚至你的宠物狗也配备了各种传感器和可穿戴设备,例如图像采集、声音采集、气味采集、用于监测狗健康的小型医疗设备,甚至用于监测狗胃消化的电子药丸。当然,小狗也连接到互联网,这也产生了大量的数据。此时,我们假设基于这些大数据建模,我们可以模拟狗的喜怒哀乐,然后我们也可以通过拟人化处理进行声音表达。换句话说,我们可以模拟狗说人类的话,比如当主人回家时,小狗摇尾巴,汪汪叫。然后附在狗身上的人工智能系统会说,“主人,我很高兴看到你回家。”不仅如此,你还可以与狗的人工智能系统进行对话,因为这种人工智能系统可以基本理解你的意思,并且可以取代狗的拟人化表达。
我们将继续扩展这个故事,用未来的人来代替小狗。人们在生活中会产生大量的数据。基于这些数据,建模可以直接推断出许多结论,比如他们喜欢看什么样的电影,喜欢什么样的菜肴,遇到问题时会采取什么行动。
这样的数据一直积累到那个人去世。我们有一个大胆的想象,这些巨大的数据能让这个人以某种方式继续存在吗?当后代有任何需要回答的问题时,比如生活中的关键决定,比如上什么专业的大学,是否要娶一个女孩,你能问问这个虚拟的人(祖先)他有什么建议吗?答案当然是。在这种情况下,数字化生存不仅存在于生命之前,而且可以在死后继续存在。人死了,可以继续存在于虚拟空间。如果一个人死了一辈子或一辈子,这些虚拟智慧可以继续存在。假设许多年过去了,这些虚拟智慧的祖先太多了,活着的后代甚至可以组成一个“祖先联合参谋委员会”,选出那些通过考试(如获得一等奖)、担任高级国家公务员(如省长)、企业高管(如CEO)、教授、作家等的祖先。作为成功人士,是专门用来为子孙后代咨询和消除疑虑的。让这些先人死后有竞争,不死,也没什么可做的。
这是什么意思?随着大数据和机器学习的进一步发展,新的智能生物已经出现在这个世界上!大数据和机器学习,在改变、重建和推翻了许多企业、行业和国家之后,终于到了改变人类自身的时候了!人类进化的一个新分支出现了!
一些科学家画了下图来描述这两种智能生物。一种是生物性的,进化了数百万年。一种是基于信息技术、大数据和机器学习,通过自我模拟和自我学习。前者更符合逻辑,更感性,更有创造力,但寿命有限。后者没有强大的逻辑和生物情感,但它有强大的计算、建模和搜索能力。理论上,生命是无限的。
当然,这些事情会在非常非常远的地方发生。无论如何,我们活着的时候看不到,死了的时候也看不到,因为当我们死了的时候,我相信这种基于大数据和机器学习的虚拟生活还不会存在。
四.结束语
我最后想说的是,我们对未来的认知主要基于对未来的常识和想象。据统计,《纽约时报》现在一周收到的信息比18世纪一个人一生收到的信息还多。第18个月产生的信息超过了过去5000年的总和。现在,我家一台5000元的电脑的计算能力比我刚进大学时整个学校的都强。科学技术的进步总是会在很多时候超出我们的想象。想象一下,如果我们拥有的计算机设备超过了当前全球计算能力的总和,一个人产生的数据量超过了当前全球数据量的总和,甚至你的宠物狗产生的信息量也超过了当前全球数据量的总和,世界将会发生什么。这取决于你的想象力。