欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 自然科普

数百万幅图像迫使科学家寻找储存数据新方法

科普小知识2021-12-13 13:26:42
...

对于生物学和物理学的研究者来说,“图像过剩”的挑战正日益成为一个沉重的负担。

美国宇航局的太阳动力学观测站每天收集1.5兆字节的太阳活动数据。

资料来源:空间发展组织/美国航天局

随着果蝇幼虫在视频中向前蠕动,爆裂的神经活动迅速传递到它们半毫米长的身体。当它向后蠕动时,“波浪”在另一个方向上升和下降。这段11秒的视频片段在YouTube上已经被观看了10万次,它展示了幼虫的中枢神经系统,其分辨率几乎只有一个神经元。创建视频的实验产生了数百万图像和数万亿字节的数据。

这段视频是由菲利普·凯勒领导的一个团队制作的,他是美国霍华德·休斯医学研究所简·利亚农场研究园的发育生物学家。对凯勒来说,这种产生大量图像的实验是一个巨大的挑战。“在过去五年中,我们仅在数据处理中使用的计算方法上就花费了大约40%的时间。”问题不在于存储图像——数据存储的成本不高,而在于组织和处理图像,以便其他科学家能够理解它们并得到他们想要的东西。

对于生物学和物理学的研究者来说,“图像过剩”的挑战正日益成为一个沉重的负担。凯勒和另外两个领域——天文学和结构生物学——的科学家向《自然》解释了他们是如何解决这个问题的。

成像太阳

在新墨西哥州拉斯克鲁赛斯城地球同步轨道的某个地方,太阳动力学观测站(SDO)追踪着天空中的一个八字结。这颗卫星持续观察太阳,并用三个仪器记录每一次打嗝。这些仪器通过10个滤光器对太阳成像,记录它的紫外线输出并跟踪它的地震活动。这些数据然后被传送到下面的地面卫星接收站。美国国家航空和宇宙航行局的承包商——ADNET的太阳能科学家杰克·爱尔兰说,SDO每天产生“大约1.5万亿字节的图像数据”。据美国宇航局称,这一数据量相当于音乐软件iTunes上大约50万首歌曲。

爱尔兰表示,为了帮助研究人员导航这些图像,ADNET团队和欧空局联合开发了一个网站太阳神观测器,用于浏览SDO图像和可下载的应用程序。使用这些工具的研究人员和天文爱好者看到的不是原始数据,而是他们的低分辨率图像。

每个原始的空间数据组织科学图像是一个4096像素×4096像素的正方形,大小约为12兆字节。它们每12秒钟被拍摄一次,到目前为止已经收集了数千万张图片。

用户可以跳到自2010年推出SDO以来的任何特定时间,选择彩色滤光片并获取数据。后来,他们可以放大图像,浏览,剪切并串连在一起形成一部电影,从而可视化太阳动力学。爱尔兰表示,用户平均每天制作约1000个视频,自2011年以来,至少有7万个视频上传到了YouTube。

一旦用户选择了图像或裁剪区域,例如特定太阳耀斑周围的区域,他们仍然可以下载初始的高分辨率图像。如果有必要,他们还可以下载一个1万亿张小图片的完整文件。

更快的文件格式

对于凯勒在珍利亚农场研究园的发育生物学团队来说,在网上发布他们的数据供外部人员获取并不存在这样的问题。如果其他人想要数据,团队可以使用特殊的文件传输工具或简单地传输硬盘来共享图像。然而,该团队必须首先以每秒10亿字节的速度管理和分类从实验室显微镜流出的图像。“这是一个巨大的挑战。”凯勒说。

凯勒的实验室使用显微镜向果蝇、斑马鱼和老鼠等小生物的大脑和胚胎发射光线。这些生物已经被基因改造,因此它们的细胞可以发出荧光作为回应,这使得研究小组可以对每个细胞进行数小时的三维成像和追踪。为了存储这些数据,实验室花费了大约140,000美元在一个文件服务器上,这个服务器可以提供大约1拍的存储。

这些服务器上数百万个图像的高度结构化组织使团队成员保持头脑清醒。每个显微镜将相应的数据存储在自己的目录中;文件以树形结构排列,描述了给定实验的数据、使用的模型生物及其发育阶段、用于细胞可视化的荧光标记蛋白等。凯勒说,实验室建造的数据处理管道将遵循上述结构。

然而,该目录不包括大多数显微照相师熟悉的JPEG图像文件。JPEG格式压缩了图像文件的大小,使它们更容易处理和传输,但是读取和写入这些数据到磁盘的速度相对较慢,对于3D数据来说效率太低。凯勒的显微镜收集图像的速度如此之快,以至于他需要一种文件格式,这种文件格式可以像JPEG一样高效地压缩,但在读写时要快得多。凯勒需要一种简单的方法来提取特定的空间位置或时间点,因为实验室通常研究数据的各个子集。

凯勒和他的团队开发了凯勒实验室数据块(KLB)文件格式。它将图像数据切割成可以被多个计算机处理器同时压缩的块。这使得文件读取速度快了3倍,所以KLB在压缩文件大小方面表现得和JPEG格式一样好。

共享原始数据

拍摄照片来确定分子结构的生物学家也产生了大量的图像数据。一项越来越受欢迎的技术是cryoEM,它产生了更多的数据。

冷冻电子显微镜用户发射电子束来快速冷冻蛋白质溶液,收集成千上万的图像,并将它们结合起来重建分辨率接近原子水平的蛋白质三维模型。这些重建的大部分小于10千兆字节,研究人员可以将它们存储在电子显微镜数据库(EMDB)中。然而,用于创建它们的原始数据的这种存储不起作用,因为后者比结果模型大大约两个数量级。英国剑桥附近的欧洲生物信息学研究所(EBI)的EMDB欧洲蛋白质数据库项目负责人阿尔丹·帕特瓦尔丹说,EMDB不是用来处理这些数据的。再现性受到影响:研究人员无法在没有获得原始数据的情况下验证其他测试的有效性或开发新的分析工具。

2014年10月,PDBe启动了一个试点项目:原始的冷冻电子显微镜数据数据库,也由Patwardhan领导,被称为冷冻电子显微镜实验图像档案(EMPIAR)。目前,EMPIAR包括49个条目,每个条目的平均大小为700千兆字节,最大值超过12tb,而整个系列大约有34tb。一般来说,用户每月下载大约15tb。

下载如此大量的数据会带来自己的问题:用于在计算机之间传输文件的标准协议——文件传输协议——必须处理大量的数据集;连接丢失变得很普遍,而下载速度在很长一段距离后会显著降低。EBI付钱给EMPIAR用户,让他们获得两种高速文件传输服务——阿斯帕和Globus online。帕特瓦尔丹说,这两种服务都以“每24小时几兆字节”的速度传输数据。EBI也使用这些服务来传输大规模基因组数据集,已经为业务的另一面付出了代价。EBI每年在阿斯帕服务上花费数万美元。

然而,EMPIAR的原始数据证实了它的价值。弗吉尼亚大学的结构生物学家爱德华·艾格曼和其他人合作发表了一种叫做MAVS的蛋白质结构。MAVS是一种聚合丝状结构蛋白,但最新公布的结果不同于之前的另一种模型。通过下载和重新处理原始数据集,埃格尔曼证实了以前的结构是错误的。EMPIAR的资金将在2017年用完,但是Patwardhan说,cryoEM的研究人员告诉他,他们认为EMPIAR是必要的,并希望从文件名称中删除“实验性”一词。“他们认为这应该被视为生物领域的一个重要文件。听起来不错。”帕特瓦尔丹说。(宗华)

中国科学新闻(2016-06-13,第三版国际)

阅读更多

《自然》杂志的相关报道