大数据:热潮中切忌一哄而上 科学规划很重要
“通过大数据挖掘,用户的可靠性可以从数据完整性、交友真诚度和账户安全性等方面进行评估。一家知名婚介网站最近发布广告称,“大数据”技术可以用来打击婚介欺诈者。
如今,“大数据”是一个时髦的词,许多企业都推出了“大数据”服务。世界各地的大数据技术研发机构吸引了许多风投和眼球。
大数据让眼睛变亮,也让眼睛变暗。9月,著名的信息技术分析公司高德纳(Gartner)发布了一份名为“2013年大数据普及背后的投机”的报告,指出30%的企业在2013年开始了大数据工作,另有34%的企业计划在两年内开始。然而,大多数企业告诉调查人员,他们不知道自己在做什么,也不知道为什么要做大数据工作。
根据这份报告,超过一半的企业不知道如何从数据中获取价值。三分之一的企业缺乏大数据处理能力;甚至超过五分之一的公司不知道什么是大数据。
如果连敏感的企业家都不真正理解大数据,那么其他人就更难全面了解它。大数据时代仍处于初级阶段,没人能确定它会是什么样子。
源于科学的商业热词
尽管商业界喜欢谈论大数据带来的商业机会,但首先讨论大数据时代的是科学家。"生命与医学、粒子物理学、天气预测、遗传学、地震预测等等已经是数据密集型应用."清华大学自动化系教授肖天元表示:“一个典型的例子是,美国气象局的年数据量为30pb(1pb = 100万GB),日观测数据超过35亿次。DNA序列分析使用网络大数据分析工具进行数亿次DNA短链分析,产生基于DNA的分子物质。科学家还引入了一个大规模的数据管理框架和可视化方法,这样花了10年时间解码的人类基因组就可以在一周内完成。”
上海大学的费·基恩教授说:“像华大基因一样,分析的数据量是几百PB。他们在世界上发现了25种栽培稻和24种野生稻。由于他们的大数据分析能力,他们扫描了这些水稻的整个基因图谱,发现了162个决定水稻产量的基因。
人们经常提到大型强子对撞机(LHC)的例子。LHC每秒生成1PB的数据,并使用45,000个磁带驱动器进行归档。它目前是世界上最大的数据生产商。
在这种背景下,2008年9月,《自然》杂志推出了一期关于大数据的特刊,讨论科学研究模式的变化。《科学》杂志也在2011年推出了一期关于大数据的特刊,将对大数据的深入分析作为未来研究的切入点。
“大数据讨论的真正开始通常被认为是《自然》2008年专辑的结果。”电子科学研究所的研究员王继鹏说,“根据测量文献,关于大数据的论文在2011年就已经过时了。在过去几年里,每个人都在谈论大数据,但它主要在于应用,而不是理论研究。”
科学家担心大数据难以处理。肖天元说:“电脑已经超过1万亿次,天河二号已经达到2万亿次,未来10年可能达到1000亿次。但是软件开发非常缓慢。美国也是如此,该国认为高性能计算算法的发展滞后。这就是为什么我国高性能计算机的利用率不高。”
典型的数据管理困境,比如一位国内信息技术工作者说:“我为一颗卫星做了信息资源管理,它每天产生数百GB的数据。经过处理后,文件都有相应的磁盘、磁带等。,它们通过几个系统呈现。一年的数据量相当大,但没有大数据的特征。”
工业部门也提出了类似的问题。肖天元举例说:“某著名发动机公司提出将航空发动机数据实时传输到总部,并结合以往数据,实时检测和预测故障。数据量如此之大,很难同时检测、计算和预测。”肖天元将这一困难概括为“科研智能如何赶上感知”。
在科学研究界对大数据挑战进行讨论后,互联网商务在大数据领域发现了一个“金矿”。这也是当今每个人都熟悉的一个大数据话题。最典型的例子是宏源证券研究所副所长易欢欢,他说:“从B2B到B2C,阿里巴巴聚集了数千万中小微型企业,形成了5.4亿注册用户。这家公司的牛在哪里?这些数据背后的因素是什么?销售数据、产品数据、应收账款、库存、资金流、房产信息等一系列综合信息,而且是实时的,远比银行对账单准确。它包含一系列信息,如您的消费偏好、家庭住址和还款卡号,这些都是非常大的数据。”
信息技术研究公司M&M发布的最新报告指出,未来五年,全球大数据市场的复合年增长率将高达26%,从今年的148.7亿美元增至2018年的463.4亿美元。快速扩张显示了市场对大数据概念的热情反应。
不同行业从不同角度发现了数据爆炸的挑战和机遇。最终,大数据频繁出现在媒体上,并在达沃斯等国际峰会上成为热门词汇,但正如上述报告所显示的,企业家对这一概念并不确定。
数据披露让美国领先
大数据业务机会出现后,2012年3月,奥巴马*发布了“大数据研发倡议”,并成立了“大数据高级指导小组”,标志着美国将大数据提升到了国家战略层面。
国防大学的胡小凤教授说:“我认为奥巴马正试图通过大数据发展计划重复信息高速公路计划带来的互联网霸权。美国人已经将目光投向了大数据的未来。我认为这是为了奠定未来大数据霸权的基础。”
“美国*提出的大数据计划的根源在于十多年数据披露的基础。”北京科技大学教授丁表示,美国网站反映了*披露数据的努力。“你可以在网上看。DATA.GOV拥有大量数据,与世界银行和联合国的数据相当。其中许多都是敏感数据,但它敢于公布这些数据,认为只有公布这些数据,才能有更好的国际合作来应对危机。欧盟、英国,包括巴西等发展中国家,都加入了DATA.GOV。
丁·说,联合国组织和美国一些研究机构在过去10年里一直在尽最大努力披露数据。每年都有各种促进数据披露的活动。
美国数据的开放使得许多基于*数据的服务创造了巨大的利益。例如,硅谷有一家“气候公司”,该公司利用美国气象局数据库中几十年的天气数据,研究多年来降雨量、温度、土壤条件和作物产量之间的相关性,并预测该农场明年的产量,以出售保险。由于前景光明,这家公司最近被农业巨头孟山都收购了。
还有利用天气信息和航班延误信息来预测航班延误概率的服务,这可以促进航空公司提高正点率。另一个例子是城市拥堵控制,这里也使用*数据——美国和英国是第一个使用大数据来管理交通并给出交通预测以允许公共和私人车辆及时行驶的国家。
关于*数据披露的好处,美国商务部首席信息官西克曼(Sickmann)在一次信息技术会议上表示:“*实现预期目标的真正障碍不仅在于收集数据,还在于如何将数据转化为实用的信息产品和开发知识。”
“毕竟,许多有能力想出好主意的人才分散在各种私人组织中。他们可能会提出一些出色的数据利用计划。”西克曼说,“分享我们的数据不仅仅是为了所谓的*事务的透明度。让我们生成和传播的数据以一种全新的方式发挥不同的力量是完全有可能的,而这一切在我们现有的规划和有限的资源面前是无法实现的。”
丁·说,他已经联系了中国一些著名的互联网公司,并申请分享他们的数据。该公司表示,“给你一段时间,数百TB甚至几PB,但连续数据是绝对不允许的。”他认为,对于研究人员来说,可以随时随地访问的长期数据就是大数据。
“*和行业之间共享数据应该是大数据的基础。没有共享政策,就没有大数据。”丁对说:
大数据繁荣需要共享+立法
对于中国人来说,关注大数据还为时不晚。2012年7月,中国《国家战略性新兴产业发展第十二个五年规划》明确提出“加强以海量数据处理软件等为代表的基础软件开发”2012年12月,中关村大数据产业联盟宣布成立。
根据信息技术分析公司国际数据中心的数据,中国的大数据技术和服务市场将在2016年快速增长到6.16亿美元。但是这个数字只是世界市场的一小部分。
网络研究专家秦安在接受媒体采访时表示,中国大数据组织的建立在时间上似乎并不落后于美国。然而,大数据应用涉及以互联网为核心的整个产业链。美国在大数据应用领域的领先地位取决于思科、微软和谷歌等跨国信息技术公司的实力。恐怕中国在几十年内无法完全超越它。
9月30日,**政治局在中关村进行调查时,百度CEO李彦宏做了一个关于大数据的演讲。他认为大数据在两个方面最有价值:一是促进信息消费,加快经济转型升级;二是关注民生,推进社会管理创新。李彦宏还表示,为了在国家层面发展大数据,有必要促进数据开放、支持科学研究和培养人才。
这种“开放数据”观点代表了中国大数据行业观察人士的共识。互联网评论家葛佳指出:“数据的开放不能靠分散的互联网上企业的力量来实现。它只能从*层面推广。目前,制造大数据的公司太多了,事实上,大多数公司只是一个空壳,没有实际内容。大数据的基础是海量数据,没有一定数量的数据是无法做到的。因此,李彦宏提出了数据开放的概念
葛佳认为,开放数据的困难“在于配套的管理制度和法律法规。*的作用是维护公平,坚决维护小企业的商业利益,发挥好管理者和仲裁者的作用,不涉及自身的经济利益”。
信息产业专家、中国工程院院士吴在今年的《大数据时代的机遇与挑战》一文中写道:“中国是世界上人口最多的国家,也将成为数据量最大的国家。然而,我们对数据保存不够重视,存储数据的利用率不高。此外,我国一些部门和机构拥有大量数据,但不愿意与其他部门共享,导致信息不完整或重复投资。*应该通过*和机制的改革来打破数据*政权和*。”
另一位业内专家告诉记者,*对大数据行业的支持,除了促进数据披露外,还应该采取购买服务的方式,而不是接管和设立不必要的*项目。
此外,吴还指出应尽快制定《信息公开法》。“现在很多机构和企业都有很多客户信息。我们不仅要鼓励面向群体和社会服务的数据挖掘,还要防止侵犯个人隐私。我们不仅应该提倡数据共享,还应该防止数据被滥用。”他认为有必要明确数据挖掘和利用的权限和范围,防止信息被破坏、篡改、泄露或窃取,保护公民的信息安全。
“(大数据)标准和产业结构尚未形成,这是中国实现跨越式发展的宝贵机遇。”吴说:“我们要注意科学规划,不要急于求成。”
上一篇:《观乌龙山瀑布》
下一篇:脑科学研究热潮正在全球兴起