机器学习和大数据正帮助化学家搜寻药物
资料来源:瓦萨瓦
2016年,制药公司Sunovion给一群有经验的员工分配了一项不寻常的任务。在该公司位于马萨诸塞州马尔伯勒的总部,药剂师们被要求玩一个游戏来决定谁能找到这种新药的最佳先导化合物。他们的工作台是由数百个化学结构组成的网格,其中只有10个被贴上了生物效应的标签。专家们必须利用他们来之不易的化学结构和生物学知识来选择最终可能成为候选药物的其他分子。在11名参与者中,有10人花了几个小时才艰难地完成任务。然而,一个参与者只需要几毫秒就可以轻松通过——因为这是一个算法。
这个计算机程序是威廉·范·胡恩的心血结晶。范·胡恩是——exsciencia化学信息学的负责人,这是一家利用人工智能设计药物的初创公司。该公司总部设在英国邓迪,并希望扩大与苏诺维翁的新兴合作伙伴关系,因此这场竞争非常重要。“我的信誉面临巨大风险。”范·胡恩说。20轮比赛后,他数了数比分,松了一口气。只有一个寻找药物的专家打败了这台机器。
从那以后,Exscientia和Sunovion继续合作发现精神治疗药物。“这场竞赛确实帮助赢得了那些做出化学研究决策的人的支持。”苏诺维翁大学负责计算化学的斯科特·布朗说。
探索化学宇宙
如果你想在化学宇宙中“航行”,你最好有一张地图。2001年,瑞士伯尔尼大学的化学家让-路易·雷蒙德开始使用计算机绘制尽可能多的化学空间。16年后,他积累了世界上最大的小分子数据库——一个包含1660亿种化合物的巨大虚拟图书馆。这个名为GDB-17的数据库包括了所有由17个原子组成的有机分子,并且化学结构合理。这也是雷蒙的计算机可以处理的数据量的上限。
为了理解这些不同的可能的药物起点,雷蒙想出了一种组织化学世界的方法。受元素周期表的启发,他将化合物归入多维空间。在这个空间中,相邻的化合物具有相关的性质。位置是根据42个特征来分配的,例如每个化合物有多少个碳原子。
每一种进入市场的药物,都会有数百万种化学性质几乎相同的化合物。其中一些化合物的性能甚至比批准的药物更好。没有外界的帮助,药剂师很难想象所有这些差异。"单单用纸和笔,你肯定无法算出这些异构体。"雷蒙说。
Reymond和他的同事通过寻找化合物之间的相似性,确定了具有治疗前景的已证实药物的“近邻”。以一种特定的药物为起点,该团队在短短三分钟内就对数据库中的所有1660亿种化合物进行了梳理,以找到有吸引力的候选药物。在一项概念验证实验中,雷蒙德编制了一份最终候选药物名单,包括344种相关化合物,从一种已知的结合烟碱乙酰胆碱受体的分子开始(烟碱乙酰胆碱受体是神经系统和肌肉功能相关疾病的有用靶标)。该团队合成了三种药物,发现其中两种能强烈激活上述受体,这可能有助于治疗衰老过程中的肌肉萎缩。雷蒙德说,这种方法就像使用地质图来找出金矿的位置。"你需要一些方法来选择在哪里挖掘。"
另一种替代方法
另一种替代方法是使用计算机获取大量金矿位置,而不用太担心起点。就寻找药物而言,这意味着在一个巨大的化合物库中进行筛选,以找到与特定蛋白质结合的小分子。首先,研究人员使用x光结晶学来拍摄蛋白质快照,以确定结合位点的形状。然后,使用分子对接算法,计算化学家一步一步地搜索整个化合物数据库,以找到任何给定位点的最佳匹配小分子。
随着计算能力的爆炸式增长,这些算法的性能也得到了提高。2016年,由布赖恩·肖希特(Brian Shoichet)领导的旧金山加州大学化学家展示了这种方法在寻找新型止痛药方面的潜力。该团队筛选了300多万种市售化合物,目的是寻找能够选择性激活μ阿片受体信号以减轻疼痛而不干扰密切相关的β-抑制素信号通路的候选药物。研究表明,β-抑制素信号通路与阿片类药物副作用有关,包括呼吸频率降低和便秘。研究人员很快从一个庞大的化合物数据库中筛选出23种排名靠前的化合物,用于后续研究。
在试管中,7种候选药物具有所需的活性。进一步的研究和开发将把其中一种转化为pzm21,一种作用于μ-阿片受体但不需要激活β-抑制素的化合物。目前,总部位于旧金山的生物技术公司Epiodyne正试图基于这些发现开发更安全的止痛药。肖希特计划用同样的方法找到调节其他G蛋白偶联受体的化合物(GPCR)。GPCR是一个蛋白质家族,估计占药物靶标的40%。
他的团队也在使用一个1亿种化合物的虚拟“星云图”进行类似的实验。这些化合物以前从未生产过,但应该很容易合成。行业药物开发商也在测试这种方法:总部位于马萨诸塞州剑桥的生物技术公司宁避士(Nimbus)将具有天然化学性质的化合物整合到分子对接筛选中。通常,为了获得天然化学物质,人们不得不努力从自然环境如土壤中收集它们。上述过程避免了这个麻烦。然而,尚不清楚他们是否能推广新药。
使用机器学习
这些数据搜索方法不断地被尝试和测试,但是所涉及的计算机只能遵循脚本指令。计算药物开发领域的最新前沿技术是机器学习,即该算法利用数据和经验自学识别哪种化合物与哪种目标结合,并发现人眼不可见的模式。大约12家公司出现并创造了药物发现算法。他们通常与大型制药公司合作来测试它们。
Exscientia首席执行官安德鲁·霍普金斯提出了一个强有力的案例来证明这些算法的威力。寻找和优化临床前测试的候选药物平均需要4.5年,而药剂师通常需要合成数千种化合物才能获得有前景的先导化合物。即便如此,他们最终进入市场的机会非常小。Exscientia的方法-使用各种算法,包括一个给Sunovion研发主管留下深刻印象的算法,可以将时间缩短到一年,并大大减少药物研发活动中需要考虑的化合物的数量。
2015年,Exscientia完成了总部位于日本大阪的住友制药有限公司为期12个月的药物研发活动(Sunovion是其子公司)。研究人员训练他们的人工智能工具来寻找调节GPCR的小分子,并发现他们可以通过合成不到400种化合物来识别好的候选药物。接下来的药物现在正在为治疗精神疾病的临床试验做准备。自今年5月以来,该公司已与总部位于法国巴黎的赛诺菲公司和总部位于布伦特福德的葛兰素史克公司签署了价值数亿美元的协议。
总部位于加州圣布鲁诺的人工智能药物设计公司Numerate的首席技术官布兰登·奥尔古德(Brandon Allgood)表示,除了识别先导化合物,机器学习算法还可以帮助药物开发者尽早决定放弃哪些化合物。如果一种化合物在几个月后不能通过毒性或吸收测试,那么生产和测试它是没有意义的。奥尔古德说,在人工智能的帮助下,只需要几毫秒就可以决定它是否应该被“淘汰”。今年,Numerate与制药公司达成两项协议,对人工智能发现的用于心脏病和心律失常患者的药物进行临床试验。(宗华编译)
阅读更多
《自然》杂志的相关报道