【MIT麻省理工ICLR2023】用扩散生成模型加速药物发现

麻省理工学院的研究人员建立了DiffDock模型，该模型有一天可以比传统方法更快地发现新药，并减少潜在的不良副作用。

随着DALL-E 2和Midjourney等平台的发布，扩散生成模型获得了主流的欢迎，因为它们能够从文本提示(如“20世纪80年代泰迪熊在月球上进行新的人工智能研究”)中生成一系列荒谬的、令人惊叹的、通常具有模因价值的图像。但是麻省理工学院Abdul Latif Jameel诊所的一组研究人员认为，扩散生成模型可能不仅仅是创造超现实的图像——它们可以加速新药的开发，降低不良副作用的可能性。

一篇介绍这种新的分子对接模型的论文(称为DiffDock)将在第11届学习表征国际会议上发表。该模型独特的计算药物设计方法是大多数制药公司使用的当前最先进工具的范式转变，为传统药物开发管道的彻底改革提供了重大机会。

药物通常通过与构成我们身体的蛋白质或细菌和病毒的蛋白质相互作用来发挥作用。分子对接是通过预测配体(即药物分子)和蛋白质可以结合在一起的原子三维坐标来深入了解这些相互作用的。

虽然分子对接已经成功鉴定出了现在治疗艾滋病和癌症的药物，但每种药物平均需要10年的开发时间，90%的候选药物都未能通过昂贵的临床试验(大多数研究估计每种药物的平均开发成本约为10亿美元至20多亿美元)，这也难怪研究人员正在寻找更快、更有效的方法来筛选潜在的药物分子。

目前，大多数用于硅内药物设计的分子对接工具采用“采样和评分”方法，寻找最适合蛋白质口袋的配体“姿势”。这个耗时的过程评估了大量不同的姿势，然后根据配体与蛋白质的结合程度对它们进行评分。

在以前的深度学习解决方案中，分子对接被视为回归问题。换句话说，“它假设你有一个目标，你试图优化，有一个唯一的正确答案，”合著者、麻省理工学院电气工程和计算机科学二年级博士生加布里埃尔·科索说，他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的成员。“使用生成建模，你假设有可能的答案分布——这在不确定性存在的情况下是至关重要的。”

“你现在可以预测多个姿势，而不是像以前那样只做一个预测，而且每个姿势都有不同的概率，”合著者、麻省理工学院电气工程和计算机科学一年级博士生Hannes Stärk补充道，他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的附属机构。因此，该模型不需要在试图得出单一结论时妥协，这可能是失败的原因。

为了理解扩散生成模型是如何工作的，基于图像生成扩散模型来解释它们是有帮助的。在这里，扩散模型通过一系列步骤逐渐向2D图像添加随机噪声，破坏图像中的数据，直到图像变成颗粒状静态。然后训练神经网络通过反转这个噪声过程来恢复原始图像。然后，该模型可以通过从随机配置开始并迭代去除噪声来生成新数据。

以DiffDock为例，在接受了各种配体和蛋白质姿势的训练后，该模型能够成功地识别出以前从未遇到过的蛋白质上的多个结合位点。它不是生成新的图像数据，而是生成新的3D坐标，帮助配体找到潜在的角度，使其适合蛋白质口袋。

这种“盲对接”的方法为利用DeepMind著名的蛋白质折叠AI模型AlphaFold 2(2020)创造了新的机会。自AlphaFold 1在2018年首次发布以来，研究界对AlphaFold的计算折叠蛋白质结构帮助确定新的药物作用机制的潜力感到非常兴奋。但是最先进的分子对接工具还没有证明它们在结合配体到计算预测结构方面的性能比随机机会更好。

DiffDock不仅比以前的传统对接基准方法更准确，这要归功于它能够在更高的规模上进行推理，并隐式模拟一些蛋白质的灵活性，DiffDock保持了高性能，即使其他对接模型开始失败。在使用计算生成的未结合蛋白质结构的更现实的场景中，DiffDock将22%的预测放在2埃以内(被广泛认为是准确姿势的阈值，1Å对应100亿米之一)，比其他对接模型高出一倍多，对一些模型来说勉强超过10%，甚至低至1.7%。

这些改进为生物研究和药物发现创造了新的机会。例如，许多药物是通过一种被称为表型筛选的过程发现的，在这种过程中，研究人员观察给定药物对疾病的影响，而不知道药物作用于哪些蛋白质。因此，发现药物的作用机制对于了解如何改进药物及其潜在的副作用至关重要。这一过程被称为“反向筛选”，可能是极具挑战性和成本高昂的，但蛋白质折叠技术和DiffDock的组合可能允许在硅片上执行大部分过程，允许在临床试验进行之前早期识别潜在的“脱靶”副作用。

“DiffDock使药物靶点识别变得更加可能。在此之前，人们必须对每种蛋白质进行费力而昂贵的实验(数月到数年)来确定药物对接。但现在，人们可以在一天内筛选许多蛋白质并进行分类，”华盛顿大学圣路易斯医学院的助理教授蒂姆·彼得森说。彼得森在最近的一篇论文中使用DiffDock来描述一种治疗衰老相关疾病的新型候选药物的作用机制。“有一个非常‘命运喜欢讽刺’的方面，Eroom定律——药物研发每年需要更长的时间和更多的钱——正在被同名的摩尔定律解决——计算机每年都变得更快、更便宜——使用DiffDock等工具。”

这项工作是由麻省理工学院的博士生Gabriele Corso, Hannes Stärk和Bowen Jing，以及他们的顾问Regina Barzilay教授和Tommi Jaakkola教授进行的，并得到了药物发现和合成机器学习联盟，Jameel诊所，针对新兴威胁的DTRA发现医学对策计划，DARPA加速分子发现计划，赛诺菲计算抗体设计基金的支持，以及能源计算科学系研究生奖学金。

成为VIP会员查看完整内容

相关内容

麻省理工学院 (MIT)

关注 102

麻省理工学院（Massachusetts Institute of Technology，MIT）是美国一所研究型私立大学，位于马萨诸塞州（麻省）的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉，该校的工程系曾连续七届获得美国工科研究生课程冠军，其中以电子工程专业名气最响，紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。

深度生成模型如何用于决策控制？伯克利Michael博士论文《度生成模型在决策和控制中的应用》全面阐述

专知会员服务

49+阅读 · 2023年5月15日

【UIUC博士论文】机器学习药物发现，109页pdf

专知会员服务

36+阅读 · 2023年1月12日

【牛津大学博士论文】深度学习临床前药物发现

专知会员服务

51+阅读 · 2022年9月30日

Briefings in Bioinformatics | 用于PPI抑制剂设计的深度分子生成模型

专知会员服务

9+阅读 · 2022年7月22日