基因测序:数据深度挖掘和解读难题待解
基因测序作为一种新的基因检测技术,可以分析和确定血液或唾液中基因的全序列,预测患各种疾病的可能性,个体的行为特征和行为是合理的。基因测序技术可以锁定单个病理基因,并提前进行预防和治疗。正因为如此,华大基因今年的上市引发了资本市场的热烈追捧。
前几天在北京举行的第四届全国功能基因组学高峰论坛上,与会专家就基因技术的发展方向和面临的机遇与挑战进行了深入交流和讨论。
基因测序被广泛使用。
目前,与基因测序相关的产品和技术已经从实验室研究发展到临床应用。一些学者甚至认为基因测序技术可能是下一个改变世界的技术,因为基因测序在自然界甚至在人类世界中发挥着不可替代的作用。
今年5月,由中国科学院昆明植物研究所牵头的联合研究团队,通过基因库建设和测序等一系列关键技术,克服了茶树基因组测序的难题,率先在国际上获得了高质量的茶树基因组序列。
中国科学院昆明植物研究所研究员高丽芝坦言,这将在揭示决定茶叶适宜性、风味和品质的遗传基础以及茶树的全球生态适应性方面发挥重要作用。
例如,华中农业大学的张献龙团队对棉花品种和野生品种的全基因组进行了重新测序,发现棉花人工选择过程中存在明显的亚基因组不对称选择过程。“在10多年的功能基因组研究中,已经发现了20多个与重要性状形成相关的基因,这将在棉花分子设计和育种中发挥重要作用,”张献龙团队成员王茂军告诉记者。
同样,基因测序在人类医学的发展中扮演着重要的角色。中国科学院生物物理研究所研究员、中国科学院院士陈润生表示,基于大数据组织学的精密医学作为一个划时代的产业,已经被纳入各国的战略规划。它有可能直接解决医疗行业目前面临的诸多困难,并将在未来几年实现爆炸式增长,预计到2018年全球市场规模将达到2238亿美元。
基因大数据时代开启
华大基因科技服务原负责人、北京白脉科生物技术有限公司董事长郑宏坤指出,随着基因测序技术的不断发展和成本的大幅下降,以及国家在基因研究领域的大力支持和投入,科学家们对基因领域的研究越来越深入,基因大数据的积累也越来越多。"世界已经花费了数百亿美元,产生了近20Pb的大量基因数据."
“随着测序技术的发展,基因数据的积累速度远远超过了摩尔定律,海量数据对科研人员提出了新的要求,”中国科学院北京基因组研究所研究员张章说。
张章说,据不完全统计,中国的生物信息学数据产量约占世界总量的40%,但这些宝贵的数据资源是由他人管理的。主要原因是中国长期缺乏涵盖多种生物信息数据资源的生物信息数据中心。为此,中国科学院北京基因组研究所生命健康大数据中心围绕国家精准医学和重要战略生物资源,构建了海量生命健康大数据存储、集成、挖掘和分析研究系统,初步构建了多群体生命健康数据交换和共享平台。
迫切需要深度挖掘和科学解读
与国外相比,目前中国基因组学和基因测序的进展并不缓慢。从学术角度看,中国科学院北京基因组研究所和中国农业科学院基因组研究所实力雄厚,华大基因和白脉克等一批从事基因测序的公司也在逐步壮大。然而,在专家看来,基因组学仍然面临许多挑战,因为随着信息、仪器等领域的快速发展,数据总量不断增加,并且随着各种新指标和参数的增加,数据变得越来越复杂。
“在海洋调查序列的结果面前,数据深度挖掘和解释的严峻挑战日益明显。如何在基因大数据时代更好地利用这些数据资源,已经成为生物研究新时代的一个重要课题,”郑宏坤说。
陈润生还指出,目前,迅速积累的数据没有得到有效解释。高度异构数据的集成仍处于初级阶段。样本端的挑战直接威胁到数据质量。然而,他同时表示,“这些挑战通常意味着机遇,大量无法解释的数据也为创新带来无限可能。”