靠“脑补” AI将卫星“废片”变成高分辨率地图资源
虽然卫星被形象地称为“天眼”,但事实上,卫星数据的应用很难实现“充分利用”。
中国工程院院士杨小牛曾说,卫星在空中飞来飞去,但效率不高。地面只需要每天几分钟内收集的数据。
有没有可能利用大量被认为是无效数据的“废胶片”?
近日,清华大学科学研究所所长、地球系统科学部部长龚鹏介绍,在高性能云计算的支持下,清华大学地球系统科学部完成了中国首套30米每日无缝遥感观测数据集,以及季节性土地覆盖和土地利用年度数据集,使“解不开谜团”的卫星“碎片”成为高分辨率地图资源。
人工智能深度“补丁”
“传统的地球卫星观测在不同的时间拍摄照片,这些照片放在一起是不完整的,使用门槛很高。”龚鹏解释说,卫星直接获得的图片不能直接使用,因为卫星图片并不自然和连续,很可能像100块拼图,有时少了50块,但也有可能是几块相同的拼图。
不仅如此,卫星轨道的偏离也将使得在同一地点不同时间拍摄的照片难以重叠。云层遮挡和雾的不均匀散射将导致大量卫星遥感数据难以反映地球表面的真实情况,成为难以使用的“废膜”。
清华大学地球系统科学系团队在以往10米分辨率全球地表覆盖制图数据处理经验的基础上,自主开发了时空数据融合与重建技术。
“我们已经建立了人工智能所需的知识库,包括世界上第一个全球四季通用样本库和相关领域的知识。该数据库分为训练样本数据库和完全独立的验证样本数据库清华大学博士生刘汉表示,该团队设计了一套适合遥感大数据的深度遥感特征学习和分类模型。人工智能系统已经通过使用机器学习和数据建模进行了训练,因此它可以“理解”或“推断”缺失的块,然后填补空缺。
“就像现在的一些应用认证一样,将会有一个映射步骤。训练后的模型还可以大规模分析现有的卫星图像,自动对地图进行修补,使数据符合实际情况。”刘汉说。
通过训练,该模型能够完成高性能推理,将不完整的“拼图”重建成时空一致的图像库,建立该深度遥感制图模型的“超能力”,完成各种不合格“碎片”的修补工作,从而生成符合实际情况的遥感观测数据集。例如,人工智能技术可以用来识别路面是沥青路、土路还是水泥路。
云计算避免了巨大的资源消耗
“地球系统科学使用和产生的数据极其庞大。例如,气候模拟和预测将生成每小时间隔和地面分辨率为3公里的气候数据。这些数据的数据规模通常相当于数百万部高清电影。”因此,龚鹏说,这需要超强的计算力来完成。
如果数据中心是为这些数据建造的,它将需要300或400个机柜,这将花费大量的土地和时间。当对这些数据集中的数据进行人工智能处理时,如果不是在云上进行,而是在下载后进行,可能需要几个月的时间来单独携带数据。
然而,通过云中的高性能计算,计算力量可以围绕公共数据集部署,并围绕数据进行计算。据报道,亚马逊云服务(AWS)已经为该项目的完成提供了约100,000核心云高性能计算资源。
此外,AWS还提供了一整套人工智能和机器学习套件和服务,以及自动化多层堆栈集成技术,可用于模型结构和参数的深度优化以及分布式高性能推理。
“现在,中学生和小学生很容易处理数据,从数据中绘制一些曲线,或者提取一个区域进行检测、变化和趋势分析。”龚鹏说,卫星公共数据的整理和重建大大降低了卫星遥感图像的使用门槛。如果只有专业用户才能从以前的数据中获得价值,那么将来更多的普通用户可以理解和使用这些数据。(记者张家星)