摘要

在计算机视觉和自然语言处理等领域的成功应用推动下，深度学习方法经历了一场革命。在这篇论文中，我们描述了几种将深度学习应用于临床前药物发现的新型方法。

首先，我们提出了一种设计分子连接物的生成方法，其中包含了基本的三维信息。在大规模的测试中，我们发现我们的方法大大超过了基于数据库的方法。通过一系列的案例研究，我们证明了我们的方法在支架跳跃、片段连接和针对嵌合体（PROTAC）设计中的应用。然后，我们将这一框架扩展到包括物理意义上的三维结构信息，为生成过程提供更丰富的先验，并将我们的方法应用于分子阐述任务，如R-group设计。

然后，我们将注意力转向预测模型，特别是基于结构的虚拟筛选。我们发现用于一般计算机视觉任务的卷积神经网络（CNN）的进展也适用于基于结构的虚拟筛选。此外，我们提出了两种技术，将特定领域的知识纳入这一框架。首先，我们表明，由于对接的限制，有必要使用多姿多彩的评分，并证明平均评分政策的好处。其次，我们提出了一种转移学习方法，利用蛋白质家族之间的差异知识，构建蛋白质家族的特定模型。

最后，我们研究了如何使用生成方法来改善基于结构的虚拟筛选中所使用的训练和基准集。我们提出了一种深度学习方法，根据用户的偏好规格生成诱饵，以控制诱饵偏差或构建具有确定偏差的集合。我们表明，我们的方法极大地减少了这种集合中包含的偏差。我们验证了我们生成的分子对于基于对接的方法来说比以前的诱饵更具有挑战性，可以与生物活性化合物分开。此外，我们表明，基于CNN的结构化虚拟筛选方法可以在这类化合物上进行训练。

研究动机

药物是各种医疗状况的关键治疗手段，也是一个正常运作的卫生系统的重要组成部分（世界卫生组织，2010）。然而，目前有许多医疗需求，包括现有的和新出现的，现有药物都无法满足（Kaplan 等，2013）。最近由当前冠状病毒大流行（COVID-19，Rosa等人，2020）引起的世界范围内的紧急情况，进一步强调了在未满足的医疗需求发生时迅速有效地解决这些需求的能力。

开发新的治疗方法是一个极具挑战性的多阶段过程，涉及许多学科，通常需要多年才能完成。平均而言，每个新疗法估计要花费15-30亿美元，这取决于如何计算，（Avorn，2015；DiMasi等，2016）并需要超过十年的时间（Paul等，2010）。2008-16年，FDA平均每年批准31种新药（U.S. Food and Drug Administration, 2018a）。这些数字没有改善，因此，目前的做法被称为不可持续（Moors等人，2014；安永会计师事务所，2017）。

药物研发的大部分成本来自于失败的高几率，投入足够的时间和财政资源远不能保证成功。最近的一项研究发现，所有药物开发项目中只有13.8%最终获得批准，而治疗罕见疾病的药物，也被称为 "孤儿药"，总体成功率低至6.2%（Wong等人，2018）。失败的原因有很多，我们将在第1.3.1节详细讨论。药物开发中的高成本和低生产率是一个长期存在的问题，对于这个问题的解决是至关重要的（Myers和Baker，2001）。

计算机辅助药物设计（CADD）被认为有可能加速这一过程并降低开发新疗法的费用（Ou-Yang等，2012）。然而，尽管在整个药物发现工作流程中广泛采用了计算方法，但成本仍在持续增加（DiMasi等人，2003；Avorn，2015；DiMasi等人，2016），生产率持续低下（Khanna，2012）。我们仍然非常需要新的技术和方法来彻底改变药物发现。

最近，在深度学习兴起的推动下，人们对人工智能在广泛领域的应用重新产生了兴趣。虽然深度学习的许多核心原理在几十年前就被提出来了（如Rosenblatt,1958；Fukushima,1980；Rumelhart等人，1986），但直到2012年，这些技术的力量和有效性才被证明，这就是现在所称的 "ImageNet时刻"。在一年一度的ImageNet大规模视觉识别挑战赛中，Krizhevsky等人（2012年）通过采用深度神经网络，比下一个最好的竞争者高出41%。人们普遍认为，这一突破是由前所未有的标记数据的可用性和计算能力的结合而实现的。这导致基于学习的系统在图像识别（He等人，2015）、单人游戏（Mnih等人，2015）和双人游戏（包括围棋（Silver等人，2016；Silver等人，2017）、国际象棋（Silver等人，2018）和《星际争霸II》（Vinyals等人，2019）方面与人类相匹配，甚至经常超过人类。

这些进展迅速引起了化学信息学领域的注意，并报道了几个早期的有希望的结果。2013年，深度神经网络是默克公司分子活性挑战中表现最好的模型（Ma等人，2015年），而在2015年的Tox21毒性数据挑战中也取得了类似的结果（Mayr等人，2016年）。

基于学习的算法在药物发现中有着悠久的历史。早期的定量结构活性关系（QSAR）模型首次描述于20世纪60年代初（Hansch等人，1962），并已成为普遍现象（Salt等人，1992）。然而，传统的机器学习和经典的统计方法通常要求目标输入的明确特征化，如分子或蛋白质-配体复合物，以一维向量的形式（Klambauer等，2019）。这一要求导致仅在分子特性预测方面就开发了数百种描述符（例如Deng等人，2004；Zhang等人，2006；Durrant和McCammon，2011）。然而，深度学习方法的一个优势被认为是其成功的关键，它能够消除抽象的需要，并允许直接学习更多的数据类型（Klambauer等人，2019）。

最后，上面讨论的QSAR模型通常是定制的模型，在一个特定的药物发现项目的背景下，根据少量的数据构建。因此，虽然很有用，但它们并不具有普遍的适用性，而且往往不能超越具体的化学系列。在其他领域（如ImageNet，Deng等人，2009）的成功表明，通用模型的一个关键要求是足够的数据（Halevy等人，2009；Sun等人，2017）。在过去的十年中，公开的分子活性和生化数据（如Kim等人，2015；Papadatos等人，2015）以及结构数据（Berman等人，2000；Burley等人，2019）数量迅速增加，这主要是由于关注度的提高和新实验技术的出现（如高通量筛选，Inglese等人，2007）。

最近在蛋白质结构预测领域取得的成功就是一个例子，AlphaFold（Senior等人，2020）和AlphaFold 2（Jumper等人，2020）分别在CASP 13和14中的表现达到了顶峰（Kryshtafovych等人，2019），这说明了这些数据的可用性在其他方面是不可能的。虽然在将深度学习应用于药物发现方面存在许多挑战，这些挑战将在第1.5节中进一步讨论，但这是一个令人难以置信的发展，进一步突出了深度学习的前景。

本论文的重点是为药物发现过程开发深度学习方法。在这一章中，我们首先讨论了机器学习的几个关键发展，并介绍了两个可以在化学信息学中使用的一般深度学习方法。然后，我们简要地总结了药物发现过程，并讨论了计算方法是如何用于药物发现的。我们重点讨论了这些方法如何被用来筛选大型虚拟化合物库，以寻找最初的热门分子。然后，我们描述了计算方法，特别是基于机器学习的方法，如何被用来设计新的化合物，并强调了分子设计的几个常见挑战。最后，我们概述了本论文的结构和主要贡献。

机器学习在药物发现中的挑战

机器学习在药物发现中的挑战很多，横跨所有领域，包括数据、算法、政治和实践。在此，我们将简要地谈一谈。

首先是依赖昂贵的（在时间和成本方面）实验数据进行训练和验证。这与深度学习在围棋（Silver等人，2016）或国际象棋（Silver等人，2018）等游戏中的成功形成对比，在这些游戏中，训练数据可以在模拟中完美生成。这促使人们开发出能够从少量数据中学习的方法（例如，少数射击学习，Altae-Tran等人，2017）或有效利用其他可用数据（例如，转移学习，Pan和Yang，2010；元学习，Maudsley，1979）。进一步的算法挑战来自于生物和化学数据的性质，包括这些数据的格式（如图表，第1.2.2节）以及固有的噪声。

一个关键的挑战是我们如何对成功进行量化。盛行的人类主导的过程远非无懈可击（见第1.3.2节），但目前还无法量化药物化学的成功（Green等人，2018）。有鉴于此，算法成功的标准是什么？一些人告诫说，不要把计算方法的门槛定得太高（Green等人，2018）。

最后，实现机器学习方法的全部影响将需要投入大量的资源。在真实世界的药物发现项目中进行实验验证是评估机器学习在药物化学中的贡献和确定需要改进的领域的关键下一步。

论文大纲

在本章中，我们强调了药物发现所面临的挑战，并促使机器学习的应用成为一种部分解决方案。我们讨论了几个关键的机器学习方法在药物发现中的应用。在这篇论文中，我们描述了几种利用深度学习应用于临床前药物发现的新型方法学。

在第二章中，我们提出了一种生成方法来设计分子连接物，其中包含了基本的三维信息。在大规模的测试中，我们发现我们的方法大大超过了基于数据库的方法，也就是以前解决这个问题的事实方法。通过一系列的案例研究，我们展示了我们的方法在支架跳跃、片段连接和PROTAC设计中的应用。

在第三章中，我们扩展了我们的连接物设计框架，以纳入物理意义上的三维结构信息，为生成过程提供更丰富的先验。此外，我们证明了我们的方法可以应用于分子阐述任务，如R组设计，只需改变训练集，无需对方法进行其他修改。

在第四章中，我们将注意力转向预测性建模和基于结构的虚拟筛选。我们发现，用于一般计算机视觉任务的CNN方法的进展也适用于SBVS。此外，我们提出了两种技术来将特定领域的知识纳入这个框架。首先，我们表明，由于对接的限制，有必要使用多姿多彩的评分，并证明了平均评分政策的好处。其次，我们提出了一种转移学习方法，利用蛋白质家族之间的差异知识，构建蛋白质家族的特定模型。

在第五章中，我们研究了如何使用生成方法来改进SBVS中使用的训练和基准集。我们提出了一种深度学习方法，该方法可以根据用户的偏好规格生成诱饵，以控制诱饵的偏差或构建具有定义偏差的集合。我们表明，我们的方法大大减少了这种集合中包含的偏见。我们验证了我们生成的分子对于对接方法来说比以前的诱饵更具有挑战性，可以与活性物质分离。此外，我们表明，基于CNN的SBVS方法可以在这类化合物上进行训练。

最后，在第六章，我们总结了这项工作的结果。我们讨论了主要的结论，并描述了本论文以后可能开展的工作。

成为VIP会员查看完整内容