整个已知的宇宙中充斥着无穷无尽的分子。但是这些分子中,有多大一部分具有潜在的类似药物的特性,可以用来开发拯救生命的药物治疗?几百万?几十亿?还是数万亿?答案是:十万亿,或10^60。这个巨大的数字延长了像Covid-19这样快速传播的疾病的药物开发过程,因为它远远超出了现有药物设计模型所能计算的范围。从这个角度来看,银河系有大约1000亿颗,或10^11颗恒星。
在一篇将在国际机器学习会议(ICML)上发表的论文中,麻省理工学院的研究人员开发了一个名为EquiBind的几何深度学习模型,在成功将类药物分子与蛋白质结合方面,比现有最快的计算分子对接模型之一QuickVina2-W快1200倍。EquiBind以其前身EquiDock为基础,EquiDock专门使用Octavian-Eugen Ganea开发的技术结合两种蛋白质,Octavian-Eugen Ganea是麻省理工学院计算机科学与人工智能实验室和Abdul Latif Jameel Clinic for Machine Learning in Health(Jameel Clinic)的一名博士后,他也是EquiBind论文的共同作者。
在药物开发之前,药物研究人员必须找到有希望的类似药物的分子,这些分子可以适当地结合或 "对接 "到某些蛋白质目标上,这个过程被称为药物发现。在成功与蛋白质对接后,结合的药物,也被称为配体,可以阻止蛋白质的功能。如果这种情况发生在一个细菌的基本蛋白质上,它可以杀死该细菌,给人体带来保护。
然而,药物发现的过程在费用和计算方面都可能是昂贵的,在这个过程中投入了数十亿美元,在获得食品和药物管理局的最终批准之前要进行超过十年的开发和测试。更重要的是,90%的药物一旦在人体中测试,就会因为没有效果或副作用太大而失败。药物公司收回这些失败的成本的方法之一是提高成功药物的价格。
目前寻找有希望的候选药物分子的计算过程是:大多数最先进的计算模型都依赖于大量的候选物抽样,再加上评分、排名和微调等方法,以获得配体和蛋白质之间的最佳 "契合"。
该论文的主要作者、麻省理工学院电子工程和计算机科学系的Regina Barzilay和Tommi Jaakkola指导的一年级研究生Hannes Stärk将典型的配体与蛋白质结合方法比作 "试图将一把钥匙插入有很多钥匙孔的锁里"。典型的模型在选择最佳模型之前要对每个 "适合 "进行耗时的评分。相比之下,EquiBind在一个步骤中直接预测精确的钥匙位置,而不需要事先了解蛋白质的目标口袋,这被称为 "盲对接"。
与大多数需要多次尝试才能为配体在蛋白质中找到有利位置的模型不同,EquiBind已经有了内置的几何推理,帮助模型学习分子的基本物理学,并成功地进行概括,在遇到新的、未见过的数据时做出更好的预测。
这些发现的发布迅速吸引了行业专业人士的注意,包括Relay Therapeutics公司的首席数据官Pat Walters。Walters建议该团队在一种已经存在的用于肺癌、白血病和胃肠道肿瘤的药物和蛋白质上尝试他们的模型。大多数传统的对接方法未能成功结合对这些蛋白质起作用的配体,而EquiBind却成功了。
"EquiBind为对接问题提供了一个独特的解决方案,它同时包含了姿势预测和结合点识别,"Walters说。"这种方法利用了数千个公开的晶体结构的信息,有可能以新的方式影响这个领域。"
"我们感到惊讶的是,当所有其他方法都完全弄错或只弄对一个时,EquiBind却能把它放到正确的口袋里,所以我们非常高兴看到这方面的结果,"Stärk说。
虽然EquiBind已经收到了大量来自行业专业人士的反馈,帮助团队考虑计算模型的实际用途,但Stärk希望在即将于7月举行的ICML上找到不同的观点。
"我最期待的反馈是关于如何进一步改进该模型的建议,"他说。"我想与这些研究人员讨论......告诉他们我认为可以采取的下一步措施,并鼓励他们去把这个模型用于他们自己的论文和自己的方法......已经有许多研究人员联系我们,询问我们是否认为这个模型对他们的问题有用。"
这项工作部分由药物发现和合成联盟、Jameel诊所、DTRA发现对抗新的和正在出现的威胁的医疗对策计划、DARPA加速分子发现计划、MIT-Takeda奖学金和NSF远征基金合作研究资助。
这项工作是为了纪念Octavian-Eugen Ganea,他对几何机器学习研究做出了关键性的贡献,并慷慨地指导了许多学生--一位有着谦逊灵魂的杰出学者。
预测类药物分子如何与特定的蛋白质靶点结合是药物发现中的一个核心问题。一个极其快速的计算结合方法将使快速虚拟筛选或药物工程等关键应用成为可能。现有的方法在计算上是昂贵的,因为它们依赖于大量的候选样本,再加上评分、排名和微调步骤。我们用EQUIBIND挑战这种模式,它是一个SE(3)等价几何深度学习模型,对i)受体结合位置(盲对接)和ii)配体的结合姿势和方向进行直接拍摄预测。与传统和最近的基线相比,EquiBind实现了显著的速度提升和更好的质量。此外,我们显示,当它与现有的微调技术相结合时,以增加运行时间为代价,有了额外的改进。最后,我们提出了一个新的快速微调模型,该模型基于冯-米塞斯角距离与给定输入原子点云的全局最小值来调整配体的可旋转键的扭转角,避免了以前昂贵的能量最小化的差分进化策略。