新智元报道
众所周知,整个宇宙充满着无数分子。
这些分子中又有多少具有潜在的类似药物的特性,可用于开发挽救生命的药物呢?是百万级?还是十亿级?又或是万亿级?
答案是:10的60次幂。
如此巨大的数字,大大延缓了新药的研发进度,像新冠等快速传播的疾病,目前迟迟未有特效药,也是因为分子种类和数量太大,远远超出了现有药物设计模型可以计算的范围。
MIT的一个研究团队偏不信这个邪。算不过来是吧,那把之前的模型加加速总可以吧?
这一加速,就是1200倍。
他们研究了一款名为「EquiBind」的几何深度学习模型,该模型比之前最快的计算分子对接模型「QuickVina2-W」快了1200倍, 成功地将类药物分子与蛋白质结合,减少了药物试验失败的机会和成本。
研究论文即将发表在ICML 2022上。
初识「EquiBind」
「EquiBind」是基于其前身「EquiDock」研发的,「EquiDock」使用了已故的麻省理工学院AI研究员Octavian-Eugen Ganea开发的技术,去结合两种蛋白质。Ganea也是「EquiBind」论文的合著者。
在药物开发开始之前,研究人员必须找到有前途的药物样分子,这些分子可以在药物发现的过程中正确地结合或「停靠」在特定的蛋白质靶点上。
在与蛋白质成功对接后,结合药物(配体),可以阻止蛋白质发挥作用。如果这种情况发生在细菌的一种基本蛋白质上,它可以杀死细菌,从而保护人体。
然而,不论是从经济角度分析,还是从计算角度分析,药物发现的过程都可能是昂贵的,研发过程动辄耗资数十亿美元,并且在FDA最终批准之前,会进行超过十年的开发和测试。
更重要的是,90%的药物在人体试验后由于没有效果或副作用过多而失败。
所以制药公司收回这些成本的方法之一就是,提高最终成功研发药物的价格。
走进「EquiBind」
目前,寻找有希望的候选药物分子的计算过程是这样的:大多数最先进的计算模型依赖于大量的候选样本,再加上评分、排名和微调等方法,以获得配体和蛋白质之间的最佳「匹配」。
Hannes Stärk是MIT电子工程与计算机科学系的一年级研究生,也是这篇论文的主要作者,他把典型的「配体-蛋白质」结合方法比作「试图把钥匙放进有很多钥匙孔的锁中」。
典型的模型在选择最佳模型之前会花费时间对每个「拟合度」进行评分。相比之下,「EquiBind」无需事先了解蛋白质的目标口袋,只需一步就能直接预测出精确的关键位置,这被称为「盲对接」。
与大多数需要多次尝试才能找到配体在蛋白质中的有利位置的模型不同,「EquiBind」已经具有内置的几何推理功能,可帮助模型学习分子的潜在物理特性,并成功地进行归纳。以便在遇到新的或者无法识别的数据时成功泛化,以做出更好的预测。
EquiBind模型架构
这些发现的发布迅速引起了业内专业人士的注意,其中包括Relay Therapeutics首席数据官Pat Walters。
Walters建议,研究小组可以在一种现有的用于肺癌、白血病和胃肠道肿瘤的药物和蛋白质上去尝试他们的模型。尽管大多数传统的对接方法都未能成功地结合这些蛋白质上的配体,但是「EquiBind」成功了。
Walters说:「EquiBind为对接问题提供了一种独特的解决方案,它结合了姿态预测和结合位点识别。」
「并且这种方法利用了来自数千个公开的晶体结构的信息,有可能会以新的方式影响该领域。”
Stärk表示:「当其他所有方法都完全错误或仅有一个正确时,我们很惊讶,因为EquiBind能够把它放进正确的口袋,看到这个结果,我们是十分激动的!」
EquiBind解决的结构药物结合问题概览
助力「EquiBind」
尽管「EquiBind」已经收到了大量的来自业内专业人士的反馈,并且这些反馈帮助了团队考虑计算模型的实际用途,但Stärk仍希望在7月份即将举行的ICML上找到不同的观点。
Stärk表示:「我最期待的反馈是关于如何进一步改进该模型的建议。」
「我想和这些研究人员讨论,告诉他们我认为下一步可以怎么做,并鼓励他们继续前进,将模型用于他们自己的论文和方法中。目前已经有很多研究人员联系了我们,询问我们这个模型是否会对他们的问题有用。」
此外,这篇文章同样也是为了纪念Octavian-Eugen Gane,他为几何机器学习研究做出了至关重要的贡献,并慷慨地指导了许多学生,他是一个有着谦逊灵魂的杰出学者。
今年上半年,他在一次徒步旅行中永远离开了我们。
https://news.mit.edu/2022/ai-model-finds-potentially-life-saving-drug-molecules-thousand-times-faster-0712
https://arxiv.org/pdf/2202.05146.pdf