遗传分析走向大众
双胞胎映射项目
我们可以在现场获得运营信息,这样我们就可以快速决定如何前进。
对于寻求治疗没有明显病因的患者的医生来说,基因测序技术可能会给他们提供指导。然而,大量的信息也使得很难快速找到答案。
两三年前,位于秘鲁利马的六个美国海军医学研究所(NAMRU-6)的医生不得不将他们的测序数据送到美国进行分析,这一过程可能需要数周时间,并且需要太长时间来进行需要紧急决定的治疗。“如果你所能做的就是获取数据并将其运送到美国,那就几乎没用了。”该中心基因和病原体发现研究所的负责人马里亚纳·莱吉亚说。
但是现在莱吉亚不再需要等待分析结果,她可以在几天甚至几小时内得到结果,而且她可以在自己的实验室里这样做。她的研究所将利用授权基因组学专业知识(EDGE,一种隐藏常见微生物基因组任务的生物信息工具,如序列组装和物种鉴定)的发展,使用户能够生成高质量的分析结果。“我们可以在现场获得运营信息,这样我们就可以快速决定如何前进。”莱吉亚说。
EDGE不是第一个通过单击界面简化信息学的工具。事实上,它缺乏银河系统和基础空间平台等既定选项的灵活性和远见。但是它的简单性吸引了可能避开生物信息学的用户。"使用过(EDGE)的人再也不会为学习命令行工具而烦恼了."佐治亚州亚特兰大市美国疾病控制和预防中心的克林顿·帕登说,他利用边缘技术进行病毒病原体研究。正因为如此,它代表了基因组信息学*化的一个案例——这个案例帮助纯生物学家加速他们在这个领域的吸收。
领域信息学
在新墨西哥州的洛斯阿拉莫斯国家实验室(LANL)领导软件开发的帕特里克·凯恩(Patrick Chain)说,EDGE的创建是为了试图将快速增长的低成本DNA序列的可用性与相对缺乏合理化数据的专业知识联系起来。马里兰州美国海军医学研究中心生物防御研究委员会(BDRD)的计算生物学家乔·安德森说,它是为缺乏生物信息学技能的设备设计的。
它也是开源和独立的。它可以一键读取物种鉴定和系统发育的原始序列,为微生物遗传学提供端到端的分析。安德森说,该系统运行起来也相对便宜,因为推荐的硬件配置(256千兆字节的内存和64个处理器)不到1万美元。这意味着大多数有能力实施连续项目的实验室都有能力购买硬件。“这不是扔钱。它足够便宜。”安德森说。同样有益的是,该设施可以由发电机驱动,而不是依靠互联网连接。
拥有可靠互联网连接的用户可以将系统安装到云网络。英国伯明翰大学的生物信息学科学家尼古拉斯·罗曼指出,这就是他帮助开发的微生物生物信息学云基础设施的情况。爬升是一项免费服务,专为英国微生物基因组研究人员提供。
英国医学研究委员会资助了该项目840万英镑,并整合了许多信息工具,包括测序数据库和一个名为基因组学虚拟实验室的分析工作台。"我真的认为边缘是一个可能的选择."罗曼说。
总的来说,BDRD基因组学和生物信息学主管塞隆·汉密尔顿(Theron Hamilton)表示,EDGE可以正式安装在美国国防部和与之合作的18个国家实验室,并且可以用于除南极洲以外的任何大陆。
其中之一是柬埔寨金边的NAMRU-2设施,该设施利用该系统跟踪虫媒疾病。"这不是你传统上做生物信息学研究的地方."安德森说。但是EDGE正在改变这一点。“我意识到的一件事是,如果你给研究人员不受干扰的工具,他们会让你大吃一惊。”安德森说。
简单的段落
EDGE的最新版本1.5于2016年10月发布,包括54个第三方工具。所有的构建包括公式、数据库、虚拟工具和参考基因组,它们覆盖在能够驱动6个相互连接的分析模块的服务器上:序列清洗、组装和注释、与参考基因组的比较、分类和鉴定、进化分析和聚合酶链反应引物设计。Chain表示,包括核糖核酸分析和病原体鉴定在内的其他模块将被添加到即将发布的EDGE2.0中。
去年11月,Chain和他的同事在一项研究中验证了EDGE的能力。他们利用该平台对炭疽杆菌和鼠疫杆菌之间的进化关系进行了组装、分类和作图。确定了一个模拟人类的微生物群。分析了一系列人类临床样本,包括埃博拉病毒和大肠杆菌感染病例。然而,第一篇使用该系统的研究论文实际上是在几个月前。莱吉亚的实验室使用EDGE优化了登革热病毒的全基因组测序方法,研究结果于去年6月公布。
用户可以使用LANL服务器上的免费演示样本来浏览这些和其他数据。希望分析自己序列的研究人员必须在他们的系统中安装该软件。Chain表示,代码可以从GitHub免费下载,Docker收藏和虚拟机镜像也可以获得,但可能需要信息技术专家来安装。人们可以微调源代码并添加其他工具和工作流,但是Chain承认这超出了许多用户的能力。他说,正在开发一种简化流程的机制。
拥有计算机科学背景的帕登说,该工具的简单性使得研究人员更容易接触到计算生物学,他们通常很容易被生物信息学研究的传统工具吓倒。
Chain表示,该团队之所以让EDGE部分可用,是因为担心未来的融资,这也将影响未来的发展计划。“可持续性是我们需要考虑的一个问题。”Chain说,“这就是为什么我们试图让第三方实现者更容易插入和播放他们的项目,就像使用Docker一样。”
很多工具
EDGE不是第一个提供用户友好界面的生物信息学系统。Galaxy最初于2005年发布,允许研究人员基于网络界面组装大量灵活*的软件工具箱。用户可以用不同的方式组合这些工具来解决他们想到的任何问题。
但是银河可能会吓跑用户。与EDGE生成的图形表示(如系统树或分层饼图)不同,银河系统的输出通常采用处理数据文档的形式,用户需要在其他地方进行可视化。
"银河更像一个没有餐厅的厨房."宾夕法尼亚州费城儿童医院生物医学和健康信息部的软件开发专家杰里米·莱比锡说。"这个系统并没有真正以一种吸引人的方式提供输出."“有了EDGE,他们可以真正思考一下这份报告是什么样的,”他说。
澳大利亚阿德莱德大学的生物信息学专家内森·沃森-黑格说,EDGE有助于减轻工作过度的生物信息学专家的压力。然而,他警告说,EDGE仍然是一个复杂的生物信息工具,对有计算机经验的生物学家来说,在对其结果过于确定之前咨询专家更明智。
加州大学圣地亚哥分校计算生物学和生物信息学中心代理主任凯瑟琳·菲施补充说,就像任何工具一样,他们需要知道公式在做什么,以及不同的参数如何影响输出。"仅仅因为你能运行这个工具并不意味着你应该运行它."他说。
随着生物信息学工具变得比以往更容易使用,信息学可能会摆脱其复杂性的名称。对生物学家来说,这将导致更广泛的采用和*化。(晋南编)
中国科学新闻(2017-04-11第三版国际版)
阅读更多
《自然》杂志的相关报道
上一篇:法国拟建高速基因组测序分析平台
下一篇:研究分析以吸血鬼为食的吸血鬼