李国杰院士谈大数据热:近期力戒忽悠
李国杰
■我们的记者肖杰
“事实上,生物信息学、脑科学和空间科学等基础研究长期以来一直使用PB级的大数据,但未能引发大数据浪潮。大数据现在吸引了各方的关注,主要是因为它具有巨大的经济价值。”
近日,在北京举行的“大数据背景下的计算机与经济发展高层论坛”上,中国工程院院士李国杰表示,在中国开展大数据研究,必须以企业为主体,必须充分调动企业和经济界学者的积极性。
经济领域大数据应用的一个有趣案例是通过社交网络预测股价波动。社交媒体监控平台DataSift监控了脸书首次公开募股当天推特上的情感倾向和脸书股价波动之间的关系。在脸书开通之前,推特上的情绪逐渐转为负面。25分钟后,脸书的股价开始下跌。当推特上的情绪转为积极时,脸书的股价在8分钟后反弹。最后,当股市接近收盘时,推特上的情绪转为负面,10分钟后脸书的股价又开始下跌。该机构得出的最终结论是,推特上的每一次情感转变都会影响脸书股价的波动。
“预测股价被认为是一项艰巨的任务,但大数据分析也能发挥作用。”李国杰说,“也许大数据分析可以用于以前认为不可能的其他事情。因此,我们的首要任务是多实践,实践知识和实践理论。只有深入分析各个领域的数据,才能提出数据科学的共同问题。”
虽然大部分单位仍处于“小数据”处理阶段,但李国杰认为,企业和*部门不需要太在意是否在分析“大数据”,也不需要在各种术语和定义的无意义争论上花费精力。“只要在垂直方向上有一定的时间积累,在水平方向上有丰富的记录细节,从同一物体上收集的各种数据就可以通过多种来源有机地结合起来,仔细的数据分析可以产生巨大的价值。”
李国杰还提醒我们要清楚了解中国在大数据方面的落后技术基础。由于中国拥有最多的人口和最多的互联网用户,许多人估计中国每年新增的数据应该是世界上最高的。然而,就数据量而言,中国还不是一个数据大国。根据麦肯锡的报告,2010年美国新增数据量为3500铅,欧洲为2000铅,中国仅为250铅。换句话说,中国的数据年增长率只有美国的7%,欧洲的12%。
“当然,大数据的关键不是数据的大小,而是获取有效信息的能力和分析数据的能力。”李国杰说,“但在大数据领域,中国与世界先进国家不在同一起跑线上。”
现在有许多涉及大数据的会议,但李国杰认为*、企业和学术界可能并不真正理解大数据的重要性。“许多人倾向于高估革命技术在不远的将来带来的好处,而从长远来看则低估了这些好处。”
他自己的判断是,像云计算和物联网一样,近年来大数据的市场规模不会很大,世界上只有数百亿美元。然而,大数据市场的增长率将是传统IT行业的数倍。“我们不能高估最近的大数据市场,自欺欺人。我们必须对大数据的研究和应用有长远的眼光。”
中国科学新闻(2013-028,第一版集锦)