欢迎您访问科普小知识本站旨在为大家提供日常生活中常见的科普小知识,以及科普文章!
您现在的位置是:首页  > 科普文章

绘制基因组的“谷歌地图”

科普小知识2022-07-15 14:22:10
...

可视化是基因组生物学的一个关键因素。来源:双胞胎项目

染色体的功能远远超出了保持DNA有序的范围。基因组DNA和蛋白质的复合体有许多不同的结构和构象。这些结构和构象可能影响周围基因的表达。在某些构象中,线性DNA中相距甚远的两个序列实际上可能非常接近,并影响彼此的活性。在其他形式中,这两个序列可能相距很远。

麻省理工学院的研究生艾雷兹·艾登和他的同事共同开发了一种新工具,可以揭示染色体在基因组水平上的折叠方式。这项名为Hi-C的技术不仅能详细描述影响基因表达的DNA环和结构域,还能将复杂的基因组拼接在一起。

鼓舞

虽然这只是2D矩阵中的数据,并记录了染色质相互作用的信息,但艾登在2009年还没有找到一种简单的方法来探索这些空间构象。因此,他开发了自己的技术。

艾登回忆道:“当时,我只能打印多种分辨率的高分辨率矩阵,需要数百张纸。我还会找到最大的会议桌,把所有的印刷矩阵放在上面,看看大规模的空间形态。”

即便如此,艾登认为Hi-C是一个很好的界面。然而,他也承认需要一种更环保、可持续和共享的方法来观察染色体构象。

最后,艾登开发了juicebox,一个基于java的桌面应用程序。它可以提供谷歌地图式的染色质相互作用数据集,允许研究人员从基因组水平放大或缩小以观察其结构特征。

2014年发布的Juicebox已经被下载了大约14000次,今年研究人员发布了另一个基于浏览器的版本。Juicebox只是探索2D基因组相互作用数据的一系列免费程序中的一个:一些程序专注于相对狭窄的染色体位点,而另一些程序可以探索基因组。然而,这些程序的出现反映了染色质相互作用数据集的增加。事实上,像4D核集团项目这样的大型项目极大地促进了染色体相互作用数据集的爆炸性增长。

马萨诸塞州波士顿哈佛医学院的生物信息学专家彼得·帕克指出,“可视化尤其重要,因为数据变得如此复杂。”

目前,由加州大学圣克鲁斯分校开发的基因组浏览器是探索基因组数据最受欢迎的门户之一。像大多数基因组浏览器一样,它将序列数据呈现为一维“轨迹”,显示表观遗传特征的线性特征阵列,如组蛋白修饰和甲基化位点。

艾登和其他人受到了谷歌地图的启发。加州大学圣地亚哥分校的詹姆斯·罗比索说,有了谷歌地图,用户可以从全球视角无缝切换到街景。因此,整个数据集非常大,但谷歌不会一次提供所有数据。相反,该软件“将世界分成不同分辨率的小块”在任何时候,用户只能查看少量的图块。这些瓦片被组织成使得相邻的瓦片更容易获得。

类似地,Juicebox的hic文件可以以多种分辨率存储每个可能染色体对的切片集。该软件的查找表可以直接检索数据,从而加快了访问速度。因此,Juicebox用户可以无缝地探索整个基因组的相互作用,然后放大以看到细微的特征。

基因组同步

今年3月,哈佛医学院的生物医学信息学专家尼尔斯·格林伯格开发了一个基于网络的2D基因组互动可视化工具——HiGlass,它也提供了类似于谷歌地图的体验。

像Juicebox一样,在HiGlass中,研究人员可以导入基因组轨迹来理解他们所看到的。此外,高级类允许用户在浏览器窗口中打开多个高级类视图,并对它们进行同步,以便它们总是显示相同的区域。

Gehlenborg说,这将使研究人员能够在不同的条件或实验中比较染色体的构象。"我们正在为研究人员和分析师提供新猜想的灵感。"他说。

该团队建立了一个高等级服务器来挖掘公共数据。由于需要分析定制数据集的研究人员必须在本地安装软件,Gehlenborg团队为此提供了一个Docker容器。

事实上,Juicebox和HiGlass的网络版本都允许用户创建可共享的网址——特定于数据的视图。艾登称这个功能为软件的“杀手级应用”。他认为,如果用户注意到基因组结构与特定的1D轨道完全重叠,“那么点击那个网址并复制它就可以推动它,所有收到共享的人都可以点击它,然后得到相同的参数设置”。

另外两个可视化软件——三维基因组浏览器和华硕表观基因组浏览器可以提供更多的本地化视图。用户可以选择感兴趣的区域,浏览器将显示该区域的基因组相互作用信息。

此外,Juicebox和HiGlass将热图映射为矩形的镜像,而这些浏览器将热图显示为三角形。“我们删除了一半多余的信息,”加州大学圣地亚哥分校基因组学生物学家任冰说。

也许这种变化听起来不太好,但是宾夕法尼亚州立大学的岳峰认为这种变化可以让研究人员更容易识别功能区域。例如,3D基因组浏览器允许用户叠加两个物种的热图来评估折叠结构。“虚拟4C”模式允许用户查询与特定基因组位点相互作用的高-C序列数据集,从而便于研究人员观察基因调控区之间的相互作用。

另一个流行的基因组交互可视化软件是由加州大学圣地亚哥分校的仲胜和其他人开发的GIVE。“给”允许研究人员使用几行HTML代码将全功能基因组浏览器(包括2D互动数据浏览器)整合到他们的个人或实验室网页中。钟指出,研究人员可以与同事分享数据,并在发表文章时附上链接。整个操作大约需要20分钟。

意大利米兰FIRC分子肿瘤研究所的计算生物学家弗朗切斯科·费拉里使用R编程语言和生物导体软件库来显示他的高-C数据。虽然很难与其他软件交互,但这“更方便”,因为该团队一直在使用电阻和生物传感器进行数据分析。

实现3D

最后,2D相互作用矩阵可以提示三维结构。毕竟,如果这两个区域相互作用,它们可能会非常接近。越来越多的研究人员使用他们的2D数据直接计算和可视化三维结构。

Csilla Várnai是英国剑桥baburahan研究所的博士后研究员,今年早些时候参与了单细胞Hi-C研究的三维模型构建。她使用一个名为Gromacs的通用分子建模包将染色体建模成一串珠子——每个珠子代表大约100,000个碱基,然后折叠珠子,而高-碳相互作用数据是折叠时的“约束”。

有些软件是专门为染色体结构建模设计的。挪威奥斯陆大学的生物信息学专家乔纳斯·保尔森开发的Chrom3D软件,将Hi-C数据与核膜距离信息结合起来,模拟染色体在细胞核中的位置。保尔森提到“这对基因调控非常重要”。靠近细胞核外围的基因往往被抑制,而位于中心的基因通常是活跃的。

西班牙巴塞罗那基因组监管中心基因组分析中心的马尔康·雷诺姆和迈克·古德斯特开发了另一种3D工具——TadKit。TADkit允许用户在相应的2D热图和1D轨迹旁边查看3D染色体模型。只要选择了视图中的某个特征,软件就会在其他尝试中自动照亮同一特征。

然而,由于大多数高-中数据集包含数以百万计的细胞,它仍然是有待观察的信息三维视图可以提供更多的2D视图。

对此,麻省理工学院生物信息学科学家列昂尼德·米尼做了一个类比。你拍了一堆人的照片,然后把它们平均,最后的照片看起来不会像其他任何人。3D视图也可能存在此问题。钟指出,尚不清楚哪种工具(如果有的话)将成为基因组可视化的金标准,现在争论非常激烈。

任说,可视化是基因组生物学的一个关键因素。他解释说,分析工具是根据统计数据设计的。有时他们会遗漏一些东西,有时他们会推导出根本不存在的函数。“因此,科学家应该谨慎。自己检查和分析数据非常重要。”(唐毅宸编译)

中国科学新闻(2017-09-14第三版国际版)