用两斤DNA,就可以装下“全世界”
对尼克·戈德曼来说,用DNA编码数据的想法是从一个笑话开始的。
那是2011年2月16日,格洛德曼和一些生物信息学的朋友在德国汉堡聊天,讨论他们如何存储来自世界各地的大量基因组序列和其他数据。他记得当时的科学家为传统计算机技术的高成本和局限性而懊恼,他们开始开玩笑说他们可能会尝试科幻小说的方法。“我们想,‘什么能阻止我们用脱氧核糖核酸来储存信息?“
然后,笑声戛然而止。"这是一个突然意识到的时刻。"高盛说,他是英国辛克斯顿欧洲生物信息学研究所(EBI)的一名团队负责人,当时他们认为,与在硅基存储芯片上读取和写入信息的微秒范围相比,DNA存储可能非常慢。通过合成脱氧核糖核酸链形成特定的基本模式来编码数据可能需要几个小时,使用测序仪来恢复这些信息也可能需要更多的时间。然而,如果使用了脱氧核糖核酸,整个人类基因组可以被装进一个肉眼看不见的细胞中。就信息存储的纯密度而言,除了硅以外,DNA可能是存储长期数量级信息的最佳方式。
"我们拿着餐巾纸和圆珠笔坐在酒吧里。"高盛说,然后开始记录我们的想法:“需要做什么才能让它工作?”研究人员最大的担忧是,错误经常发生在DNA合成和测序中,而且这一比例高达每100个核苷酸组一个错误。这将使大规模数据存储完全不可靠,除非他们能找到一种可用的纠错方法。他们能把这些信息编码成碱基对来识别和消除错误吗?"经过一夜的讨论。"高盛说,“我们知道我们可以。”
DNA数据存储
高盛和EBI的同事伊万·伯尼把这个想法搬到了实验室。两年后,他们宣布已经成功地用脱氧核糖核酸对五份文件进行了编码,包括莎士比亚的十四行诗和马丁·路德·金关于“我有一个梦想”的简短演讲。当时,哈佛大学生物学家乔治·丘奇和他在马萨诸塞州剑桥的团队已经公开展示了单独使用DNA编码。然而,当时EBI的文件是739千字节。直到今年7月,来自微软和华盛顿大学的研究人员声称,这是在被编译成200兆字节(MB)文件之前最大的DNA文件。
利用DNA作为存储介质的最新实验信号已经超越了基因组学:世界正面临着一场数据争夺战。到2020年,从天文图像和期刊文章到YouTube视频,全球数据档案预计将达到44万亿千兆字节(GB),是2013年信息储备的10倍。
这就是为什么难以获得的数据现在依靠老式磁盘来记录永久文件。这些信息介质的存储密度比硅高得多,但读取速度非常慢。然而,华盛顿特区美国智能高级研究计划(IARPA)的计算神经科学家大卫·马克维茨说,即使是这种方法也变得越来越不可持续
他说很难想象一个数据中心在磁带驱动器上有10亿字节的信息。这样一个中心将花费10亿美元在10年内建造和运行,并且需要数亿瓦的电力。"分子信息存储有可能将这些条件减少三个数量级."马科维茨说。如果信息可以被包装成与大肠杆菌基因相似的密度,那么这些全球信息存储需求可能只需要大约1千克的DNA。
实现这一潜在目标并不容易。在将DNA用作传统存储技术的可行竞争对手之前,研究人员需要克服一系列挑战,从DNA编码信息的可靠性和用户所需信息的恢复,到以低价格、方便和快速获得核苷酸链。
然而,应对这些挑战的努力仍在继续。北卡罗来纳州半导体研究公司(SRC)正在进行DNA信息存储。“10年来,我们一直在寻找除硅以外的物质”用于数据存储,俄罗斯研究中心主任兼首席科学家维克多·日尔诺夫说。“很难替换。”他说,然而,DNA作为一个强有力的候选人“似乎有可能实现”。
长期记忆
1988年,艺术家乔·戴维斯与哈佛大学的研究人员合作,第一个用4个碱基对绘制数据信息,如1和0。他们在大肠杆菌中插入了一个仅编码35位的DNA序列。在形成一个5×7的矩阵后,所有的1对应于暗像素,所有的0对应于亮像素,形成了记录生活和女性故事的古代德国诗歌。
现在戴维斯正与丘奇的实验室合作,从2011年开始探索DNA数据存储。哈佛团队希望这一应用将有助于降低合成DNA的高成本,就像基因组学降低了测序成本一样。丘奇在2011年11月与目前在加州大学洛杉机分校工作的斯里·科苏里和约翰·霍普金斯大学的基因组学专家高远合作进行了一项概念验证实验。该团队使用了许多短链的DNA来编码一本由丘奇合著的659kB的书。每个短链的一部分是一个地址,解释这些片段在排序后应该如何排序,而剩余的短链包含数据。最后,在对这些链排序之后,科苏里、丘奇和高发现了22个错误,这些错误对于可靠的信息存储来说显然太多了。
与此同时,在EBI,高盛、伯尼和他们的同事也在使用大量的DNA链来编码739千字节的数据存储,包括图像、文本、视频文件和沃森和克里克的里程碑式的文件——DNA的双螺旋结构。为了避免重复垒位和其他失误,ENI队采用了更复杂的方式。ENI的科学家还通过使用一条100碱基的长链来确保在碱基组合中有不同的纠错和交叉引用版本,该长链逐渐改变25个碱基并相互重叠。
然而,讽刺的是,他们仍然失去了25个基地中的两个。然而,这些研究结果让高盛相信,DNA有潜力成为一种低成本、长期的数据存储介质,实现大规模数据存储只需要很少的能量。“最多10年后,也许没有人会相信磁带存储。如果你需要确保文件副本的安全,一旦你能把它写在DNA上,你就可以把它放在一个山洞里,直到你想再看一遍的时候再把它忘掉。”
新兴领域
自从2013年在访问英国期间听到高盛谈论DNA存储以来,这种可能性已经引起了华盛顿大学计算科学家路易斯·塞兹和微软研究公司雷德蒙的卡琳·斯特劳斯的注意。" DNA的密度、稳定性和成熟度使我们对它非常感兴趣."施特劳斯说。
在伊利诺伊大学厄巴纳-香槟分校,计算科学家奥尔吉卡·米勒托维奇和他的同事开发了一种随机存取方法,可以重新编辑编码数据。他们的方法可以在处理长DNA链两端的序列时存储数据。然后,研究人员通过聚合酶链式反应或CRISPR-Cas9来选择、添加和重新编程DNA链。
科苏里说,DNA数据存储的其他挑战是扩大和加速分子合成,他承认由于这些原因,他自己对这种方法并不乐观。他回忆说,在哈佛实验开始时,“我们达到了700千磅。把它增加1000倍到700兆是一张光盘的容量”。然而,要真正解决世界上的数据文件问题,至少需要字节的存储容量。“这并非不可能。”科苏里说,“但人们需要认识到,如此大的规模是基于百万倍的增长。”这当然不容易。
高盛坚信这只是时间问题。“我们的估计是,存储容量需要增加100,000倍,才能体现这项技术的优势。我们认为这非常可靠。”他说,“过去的表现可能无法解释任何事情。现在每一两年都会有新的阅读技术。六个数量级的增长对基因组学来说是小菜一碟。请等着瞧。”