美国发布《从数据到发现:基因组到健康》白皮书
2014年3月,国家数据科学联盟(NCDS)发布了白皮书《从数据到发现:基因组到健康》,以解决基因组学面临的主要挑战。白皮书是通过召集数据科学和基因组学领域的领导者讨论基因组学当前面临的挑战和集思广益,就最合适和技术先进的建议达成的共识。
基因组学可以为数据科学相关研究提供一些良好的前景。然而,新发布的白皮书指出,基因组学领域仍存在六大挑战:数据源、收集和管理、定义表型、控制基因组变异、生物统计学和生物信息学、数据共享、生物伦理和法律。
数据源、收集和管理是在不知道数据将如何被重用的情况下维护数据源,这给大型数据集的收集和管理带来了重大挑战。然而,由于缺乏标准化的数据元素和协调的数据集,以及缺乏从大数据集获得表型数据的相关技术,定义表型的问题变得更加复杂。
由于缺乏表型和变异数据的标准,变异的定义也非常模糊。此外,由于统计模型和软件不足,计算机处理能力不足,运行复杂模型的时间延迟不可接受,以及使用有限的联合分布式数据系统来促进数据集成和共享等。生物统计学和生物信息学的主要挑战已经出现。
此外,在基因组学中,未解决的生物伦理问题比比皆是,包括一些意外发现、基因检测结果的披露和敏感人群的隐私问题。物理产权、知识产权和信息产权之间的法律区别,以及基因组数据的隐私性和保密性之间的法律区别仍然需要公开讨论。
为了积极应对这些挑战,白皮书还制定了关键建议,以不断促进基因组学的发展。
一是在基因组学研究领域,促进跨学科合作,协调相关工作,形成“联盟”,协调各研究群体的科研成果,不断推动相关标准的制定,促进跨学科合作。
第二,促进分析方法和工具的相关标准以及联合分布式数据系统的广泛采用,同时协调现有数据集、综合分析、数据重用和科学发现。
第三,我们将继续促进数据共享。同时,通过激励机制和全新的技术解决方案,我们将实现对数据共享的不同技术方法的成本效益分析,并维护其隐私性、安全性和来源问题。
第四,开发一个自动化的、易于使用的、利益相关者驱动的、开源的临床决策支持系统。该临床决策支持系统能够以简单、综合的方式显示基因数据,反映所有利益相关者的观点,整合类似维基的功能,使授权的临床医生和其他利益相关者能够解读和应用基因组的相关研究成果,从而充分实现个性化医学的巨大潜力。
第五,基于大数据信息技术、数字存档和分析的教育和培训计划。对于广泛的专业、培训和职业发展而言,将基本的生物统计学概念纳入现有的培训计划可以显著提高科学家和临床医生有效解释和应用基因组数据的能力。
第六,解决合理使用和滥用基因组数据与其他生物伦理和法律政策问题之间的差异。(李木子)
《中国科学新闻》(生物学,第8版,2014年4月8日)