生物信息学为大数据 “插上翅膀”
图为陈润生院士做报告。
“今天,生物信息学正在发挥越来越重要的作用,它也是信息时代生物医学的巨大推动力。”8月3日,在第14届国际生物信息学论坛(IBW,2019)上,哈佛大学教授刘小乐说,在生物医学领域已经产生了大量的数据。如何通过生物信息学和计算科学来理解这些数据已经成为生命科学领域专家共同关心的课题之一。
共有20位国内外顶尖学者应邀就表观遗传学、基因组学、转录组学、蛋白质组学、系统生物学和其他前沿科学领域的最新研究进展、技术发展和临床应用发表专题报告。
越来越多的科学研究表明,不同个体携带的DNA信息的差异可能成为探索生命奥秘的关键密码。也正是基于基因组研究在人类医学和农业生产领域的潜在应用价值,世界上许多科研机构和商业公司在组织学技术领域展开了激烈的竞争。
中国科学院生物物理研究所研究员、中国科学院院士陈润生首先介绍了非编码基因领域的一些最新研究进展。他说,一些非编码基因可以被翻译成小肽,这个过程不是随机的,而是受调控的。研究发现,约46%的小肽,如编码基因,使用AUG作为起始密码子,而对于非AUG起始的小肽,目前正在借助体外翻译系统进行进一步研究。此外,非编码核糖核酸也有“过度翻译”的现象。例如,通过多次循环,环核糖核酸可以被翻译成更长的肽段。
“非编码基因有可能成为良好的肿瘤标记物或药物靶标,如lncTCF7和lncKdm2b。”陈润生说,随着DNA计算机的发展,如何突破液相反应体系中结果提取的速度限制将成为关键问题。
目前,国内外已经开发了100多种序列比对软件。哈佛医学院助理教授亨利表示,新一代短序列比对软件将在达到150bp的基础上进一步提高速度,这在大数据时代意义重大。同时,参考基因组需要进一步完善,为其在科研和临床工作中的应用奠定更坚实的基础。
宾夕法尼亚大学病理学系副教授王锴指出,基因组中重复序列的变异与一系列疾病有关,如亨廷顿舞蹈病等。然而,传统的短阅读和长阅读基因测序技术难以实现准确鉴定,而长阅读和长阅读测序平台能够更好地鉴定重复串联变异。RepeatHMM是一种识别重复序列的工具,它在算法层面进行了一系列改进,以避免传统方法在识别重复次数时出现错误。目前,他的团队开发的LinkedSV可以准确地识别各种结构变异,包括倒位和缺失。
可以说,积累的大量组织学数据正在帮助科学家们越来越多地揭示一系列复杂疾病的发生和发展机制。“如果将基因组学、转录组学和其他数据与化学反应结合起来考虑,它还能帮助我们提高对肿瘤等疾病的认识。”佐治亚大学教授徐莹说。
同时,组织大数据的积累和挖掘给相关行业带来了新的机遇,但随之而来的问题是如何高效地分析和解释数据。那么,近年来新的生物云计算平台将如何提供更好的帮助呢?
中软国际科技服务有限公司云服务工程师表示,生物信息产业全年都有高峰和低谷。当业务处于低谷时,本地服务器集群等系统可以满足业务对IT资源的需求,但当面临业务高峰时,由于规模限制,本地资源无法及时满足需求。此时,公共云资源可用于灵活扩展资源规模,从而缩短分析时间,提高解释效率。与此同时,华为云将容器技术应用到生物信息领域,并发布了基因容器服务(GCS),为广大生物信息人员提供了一个“更便宜、更快捷、更容易”的云计算平台。
其中,GCS由三层架构组成:底层是Docker层,主要解决软件安装和升级问题;中间层是库本内特层,主要解决大规模集群中部署和运行Docker的问题。顶层是流程管理层,主要负责业务流程控制,并提供细粒度的监控、操作和维护管理功能。
在采访中,记者了解到,华为最近推出了业界性能最高的基于ARM的处理器——鲲鹏920和泰山服务器。其中,台山服务器主要面向大数据、分布式存储和ARM本地应用场景,充分发挥了ARM架构在多核和高能效方面的优势,为企业用户构建高性能、低功耗的新型计算平台奠定了基础。此外,与传统的x86服务器相比,该服务器在实际应用中具有明显的性价比提升。
据悉,本次会议将由北京大学生物信息学中心主办,北京大学数学科学学院/统计科学中心、北京大学分子医学研究所、北京大学健康科学中心基础医学院、北京大学肿瘤医院生物信息学中心、蛋白质与植物基因研究国家重点实验室、上海嘉荫生物技术有限公司和中国软国际技术服务有限公司协办
上一篇:科技云:为科研插上信息化的翅膀
下一篇:卵泡成熟后多久排卵