计算医学:跑在超算上的医学
谭光明(左)和张春明正在分析数据。
2019年是吴双最艰难的一年。年初,我以为是感冒引起的咳嗽,但没想到3个月后被诊断为*型肺腺癌ⅳ期,纵隔淋巴结转移和肾上腺远端转移。
"当我得到诊断报告时,我没有流泪。"说这句话的时候,吴双转过头看着窗外,故意避开记者的眼睛,但泪水从他的眼睛里闪闪发光。
41岁的吴双是一名城市职业女性。病后,她和家人去了北京许多著名的三甲医院,尝试了靶向药物、化疗、中药等方法,但病情并未缓解。“我还在肿瘤基因检测上花了一万多元。不幸的是,报告显示没有耐药基因突变。
没有相应的“药物治疗”,也没有手术和放疗的积极干预,只能在临床上“盲目”使用,即尝试使用一些临床上常用的药物进行治疗,然后定期评估治疗效果。然而,盲目药物治疗的效果只能是“听天由命”,而在医院里,有许多像吴双这样的病人。
“即使可以检测到相应的基因突变,靶向药物对不同患者的治疗效果也不尽相同。”中国工程院院士、中国医学科学院肿瘤医院主任医师孙艳说,肿瘤的发生是多基因组合的结果。虽然通过基因检测等手段可以获得大量数据,但现有的认识仍然集中在个体基因与肿瘤治疗的关系上,如携带致病突变的BRCA1/2基因与乳腺癌和卵巢癌的关系,以及突变的EGFR基因与肺癌的关系。“尚不清楚是否会有其他基因参与,以及每个基因将扮演什么角色。”
事实上,孙艳的困惑也是肿瘤领域最“头痛”的问题。对此,中国科学院计算技术研究所高性能计算机研究中心主任谭光明在接受《中国科学日报》采访时表示,目前生物医学大数据的规模和生产速度远远超过普通计算机的处理能力,迫切需要超级计算帮助科学家从多维、三维和融合数据中找出规律,以便更准确地辅助疾病的诊断和治疗。
“查字典”式的有限应用
自从人类基因组计划开始以来,以NGS和质谱为代表的各种组织化学技术发展迅速。加上传统显微镜、生化方法、免疫组织化学、生理信号检测和临床成像技术等数据源的聚集,海量生物医学数据呈指数级增长。
不可否认的是,即使没有引入信息科学的大型工具,这些大数据也给医生和临床研究人员提供了越来越详细的维度来理解疾病的发生和发展,极大地扩展了医学研究的深度和广度。
“例如,目前,基因组测序已经能够对单基因突变引起的某些特定疾病进行准确诊断,帮助临床患者更好地区分不同的疾病,并采用更合适的治疗方法。”北京大学第三医院病理科分子病理学实验室吴锐博士说,21三体综合征和新生儿遗传性耳聋基因筛查都是测序技术的良好临床应用。
然而,对于由复杂多基因变化引起的疾病,我们仍然无法有效地解读患者的生命数据信息。以癌症患者为例,绝大多数突变具有“个体特异性”。除了个别基因(如EGFR等)。),相同的基因在不同的患者身上发现相同的突变是非常不可能的。然而,根据数据呈现的网络调节模型,由特定信号通路上关键节点基因的不同突变驱动的下游细胞内事件可能是相同的。
现在,生物医学专家经常用现有的知识系统“检查”基因组数据(通常称为“字典查找”)。“虽然这种方法在某种程度上解决了相应的问题,但人体的复杂性绝对超乎想象。真的有“字典”可以查吗?袁哲科技(中国科学院计算技术研究所孵化的人工智能企业,正在建设生命数据分析平台)首席运营官虞照表示。
“这要求我们有能力将生物学和医学相关学科的知识转化为数学模型。”中国科学院计算技术研究所副研究员、中国科学院计算技术研究所西方先进技术研究所常务副所长张春明表示,应充分利用现有生物医学数据,引入系统科学理论和观点,设计新算法挖掘数据之间的关系,找到解决现有问题的新途径。最后,生物医学大数据被用来将生物医学研究从最初的假设驱动模式推向数据驱动模式。
算法和计算力量有助于大数据应用
然而,长期以来,医生们一直接受循证医学的培训,更加强调“可靠”的知识。他们善于收集大量的临床数据样本,将基础理论研究与临床经验相结合,最终将临床数据总结成临床诊疗指南和路径。
在精密医学时代,清华大学人工智能研究所的杨斌教授认为,在循证医学的基础上,应更加重视患者的个体化诊断和治疗,通过对患者资料的分析,结合临床经验,给出最佳的治疗方法。
“传统循证医学以群体证据为核心基础,通常无法解释个体差异。精确医学考虑个体疾病的发生和发展过程以及个体因素如基因和环境的治疗反应。与只考虑患者共性的传统循证医学相比,精确医学能够更好地解释个体差异,更好地提供个体化药物治疗方案,更安全、有效、合理地配置医疗资源。”中国工程院院士、中国医学科学院北京协和医科大学院长王晨说。
此外,中国工程院院士樊也指出,传统的生物医学数据分析思路和方法难以满足大数据分析的需要。生物医学大数据实现了以患者为维度的多源数据集成。要分析的数据如此之多,因此它不再依赖于分析少量随机抽样的数据,也不热衷于探索数据之间难以捉摸的“因果关系”,而是更加关注数据的“相关性”。与传统随机对照研究中常用的差异统计分析方法不同,生物医学大数据更有可能使用控制混杂的数据模型和统计分析方法。
所以,即使有高质量的生物医学大数据和相应的算法,我们也一定能发现疾病的发生和发展规律吗?
谭光明的回答是否定的。他说,光靠数据和算法是远远不够的,还必须有强大的计算能力支持。他说,例如,在过去,只需要简单的程序来处理和计算普通服务器上分散的数据。现在是多维大数据。为了解决复杂的生物医学问题,用多维大数据来模拟生命,需要设计复杂的算法。算法的复杂性和计算量远远超过普通服务器所能处理的规模,迫切需要高性能的计算资源。
计算医学肩负着数据分析的“大旗”
“基于此,用于人类健康的大数据不能简单地理解为需要大规模存储和处理的数据。大数据的概念不同于统计抽样。它不是根据小规模抽样调查推断出被观察物体的全貌,而是试图用物体的所有测量数据来描述物体。因此,大数据通常是指能够全面描述客观对象的所有数据的集合。”中国科学院计算技术研究所图灵达尔文实验室主任牛刚说。随着数据量的指数级增长和数据更新速度的不断加快,精密医学要想尽快落地,迫切需要一个计算机驱动的临床决策支持系统。
在谭光明看来,这必然会产生一种新的跨学科——计算医学。“它致力于开发定量方法,应用数学、工程和计算科学来智能地理解人类疾病的机制,并基于工业化数据、算法、计算能力和生物医学技术系统为医疗服务提供新的见解。”
对此,谭光明从四个维度解释了计算医学的内涵。首先,计算医学将复杂系统科学的整体论作为其思维模式,以理解在生物分子、细胞、组织和器官、群体等生物层级结构之间的相互作用中“出现”的新属性,并从系统的角度捕捉疾病发生的机制。其次,计算医学采用密集的数据驱动科学范式来挖掘隐藏在高维、高通量和多维融合生物医学大数据中的新见解。第三,计算医学将生物医学领域的知识模型转化为数学模型,以生物医学大数据为输入参数,用人工智能算法迭代训练模型,输出接近生命系统的真实结构和功能特征,从而理解疾病发生的本质。最后,计算医学将高性能计算作为新一代计算基础设施,为数据存储、计算精度和计算速度方面的新科学发现提供支持。
“循证医学和计算都是达到精确的技术手段。计算医学已经在更高的维度上实现了循证医学。”张春明说,在未来,以基因测序为代表的数据生产必将迎来一个*的时代。数据挖掘将成为最终的价值输出。基于生物医学科学研究和工业需求,我们建立了一个“生命信息引擎”。归根结底,该引擎是一个面向生物医学数据的计算机系统,屏蔽了海量数据管理、理解和计算的技术细节,使生物医学专家能够轻松地利用信息技术解决行业问题。
文章开头提到的吴双最终借助“生命信息引擎”给出的数据分析结果,采用了一种可能的处理方案。目前,在该方案治疗后,她的体内没有可见肿瘤,血液肿瘤指数也回落到正常水平。
最后,张春明呼吁生物学家、医学专家和计算科学家携起手来,丰富计算医学的内涵,以推动疾病的预防、诊断和治疗走向精确。
权威观点
生物医学数据分析的传统思维和方法难以满足大数据分析的需求。生物医学大数据大多使用数据模型和统计分析方法来控制混杂。
——中国工程院院士范
我们发现的许多新基因是关键基因还是“沉默基因”?目前,还缺乏更广泛和深入的研究。
——中国工程院院士孙艳
由于生物医学数据的多样性、数据的分散性、高维性和复杂的内部结构,大数据分析比其他领域更加困难。如果生物医学领域仍然只使用传统的计算机技术,如字符串比较和搜索,就很难挖掘生物医学大数据的潜在高价值。
——中国工程院院士李国杰
作为一名医生,一个人需要改变主意。在未来,每个医生都应该熟练使用智能工具来处理海量信息,以寻求更准确的诊断和治疗。
——中国工程院院士胡盛寿
随着数据规模的增加,传统的数据模型和数据组织方法已经不能满足海量数据结构、数量快速增长和数据结构不断变化的管理需求。
——中国科学院院士何霖
伴随大数据积累而来的问题是如何将这些数据资源转化为有价值的信息并指导临床实践。
——中国科学院院士卢琳
生命的完整性和疾病的复杂性使得信息化和大数据在生命科学研究中不可避免。
——中国工程院院士王红阳
大数据分析正在成为生物医学领域的下一个前沿。集成数据存储、共享、分析和质量控制技术可以不断为大数据应用行业的发展创造新的机遇。
——中国工程院院士刘长笑
下一篇:医学机器人研发中心在沈成立