如何用好地球大数据?
■本报记者甘晓
“世界上有1000多颗遥感卫星,世界上存档的遥感数据量约为10亿GB,有数千个陆基和海基观测网络,互联网上各种地球系统模式产生的数据达到2亿至4亿GB。”
最近,以“地球大数据”为主题的第628届象山科学大会在北京召开。作为中国科学院常务院长徐冠华院士,当在会议报告中分享上述数据时,会场里爆发出阵阵惊叹。即使是从事大数据研究的专家也很难想象这样的天文数据。与会专家认为,如何利用好地球大数据,准确理解和预测复杂的科学问题,促进地球系统科学的进步,已成为地球系统科学的一个热点。
新科学范式
据统计,从有记录的文明开始到2003年,人类总共创造了5TB的数据,到2019年,人类产生的数据预计将达到40ZB。在仅仅十几年的时间里,人类创造的数据量是以前的8000亿倍。
与实验、推理和传统计算科学不同,基于大数据的科学研究已经形成了一种新的科学范式。徐冠华指出,基于大数据的分析带来了科学思维的重大变化。“大数据时代的研究过程直接以人群为研究对象,不再进行抽样,避免了抽样质量对结果的影响。这使得大数据在更大范围内更加精确,并提高了预测的准确性。与此同时,大数据分析已经从因果分析转向相关性分析,从而实现了数据分析的实用性。”
作为科学大数据的重要组成部分,地球大数据正成为地球科学的一个重要前沿领域。“地球的大数据具有空间属性。一方面,它具有海量、多源、多时相、异构、多尺度、非平稳等大数据的一般属性,同时又具有很强的时空和物理相关性。”会议执行主席、中国科学院遥感与数字地球研究所研究员、中国科学院院士郭华东指出。
今年,中国科学院正式启动“地球大数据科学工程”一级试点项目,建设国际地球大数据科学中心。科学家们期望它对推动地球科学的发展和促进世界的可持续发展具有重要意义。
一个“火花”出现了
地球大数据的用途已经成为与会专家共同关心的话题。目前,科学界和工业界已经开始尝试利用地球大数据从不同角度解决实际问题。
“大数据研究将有助于提高对地球系统行为的预测能力,”徐冠华说。例如,近年来,中国学者建立了基于24年观测和再分析资料的机器学习框架,实现了长达2天的台风预报,48小时预报准确率超过85%。在海冰预报方面,中国学者根据北纬30度以北36年的所有观测数据,利用大数据时空网络分析方法,获得了北极海冰覆盖的6个重要时空影响因子。
不仅如此,遥感大数据还被用于预测经济活动。许多企业利用遥感大数据在不同的太阳仰角下观察矿石的室外堆积和储油罐的阴影,跟踪和预测大型矿物和原油的供需变化,最终预测其价格波动。
与会专家认为,目前地球系统科学仍处于大数据的萌芽阶段,上述成功案例将成为这一领域的“火花”,这意味着未来有巨大的应用潜力。
迫切需要良性生态系统
与会专家认为,地球大数据方法论的建立和大数据的应用需要跨学科,建立良性生态系统。会上,徐冠华提出要完善云计算基础设施,实现以机器学习为代表的人工智能与大数据的深度融合,制定面向企业、面向市场的大数据发展政策,促进基于数据共享的地球大数据产业健康发展。
郭华东指出,地球大数据还需要服务于全球变化和可持续发展目标。
会议执行主席、中国科学院遥感与数字地球研究所研究员吴指出,计算机视觉领域深度学习的快速发展为数据集成和分析提供了新的方法,而地理多源大数据的普及加速了深度学习在科学数据中的应用。
例如,总部设在美国芝加哥的遥感度量公司基于对美国45个主要购物中心和连锁餐厅的100,000多个停车场的交通流量变化的分析,预测企业的业务状况,并为华尔街对冲基金提供工具。“这是将计算机视觉、机器学习和其他技术应用于分析云中大量高分图像的成功案例。云计算和机器学习技术是其成功的主导技术。”徐冠华说。
同时,面向企业、面向市场的大数据发展政策也是形成良好大数据生态的重要保证。专家建议,由于中国大部分地理科学大数据来自大学和研究机构,仍然需要良好的政策来引导企业在大数据的科学开发和应用中发挥作用。
此外,打破行业和部门之间的壁垒以实现最大程度的数据共享也是专家们普遍关心的“老”问题。他们认为,只有确保数据的充分流动,才能有效促进地球大数据产业的健康发展。
中国科学新闻(2018-08-09第四版)
下一篇:宇宙的本质是计算