【MIT博士论文】分子图表示学习与生成的药物发现

机器学习方法已经广泛应用于药物发现领域，使得更强大和高效的模型成为可能。在深度模型出现之前，建模分子在很大程度上是由专家知识驱动的;为了表现分子结构的复杂性，这些手工设计的规则被证明是不够的。深度学习模型是强大的，因为它们可以学习问题的重要统计特征——但只有正确的归纳偏差。我们在两个分子问题的背景下解决这个重要的问题:表征和生成。深度学习的典型成功在于它能够将输入域映射到有意义的表示空间。这对于分子问题尤其尖锐，分子之间的“正确”关系微妙而复杂。本论文的第一部分将重点讨论分子表征，特别是性质和反应预测。在这里，我们探索了一种用于分子表示的Transformer式架构，提供了将这些模型应用于图形结构对象的新工具。抛开传统的图神经网络范式，我们展示了分子表示原型网络的有效性，它允许我们对分子的学习性质原型进行推理。最后，我们在改进反应预测的背景下研究分子表示。本论文的第二部分将集中在分子生成，这是至关重要的药物发现作为一种手段，提出有前途的药物候选人。我们开发了一种新的多性质分子生成方法，通过首先学习分子片段的分布词汇。然后，利用这个词汇，我们调查了化学空间的有效探索方法。

https://dspace.mit.edu/handle/1721.1/143362

机器学习已经迅速改变了药物发现的传统渠道，为过程的每一步提供了新的工具。许多传统上需要广泛、专业领域知识的问题已经通过深度学习工具解决，使它们更高效、更廉价。先前的化学信息学方法使用许多手工设计的规则来建模小分子。这些技术被用于解决诸如性质预测之类的问题，其中的任务是预测分子的性质。然而，试图解决这些表示问题的传统方法由于其不灵活的特性而缺乏良好的泛化能力。深度学习模型的变革性方面在于模型直接从数据中学习和提取重要特征的能力。然而，这只有在正确的结构偏差和模型基础上的建模假设下才可能实现。在分子问题上天真地应用深度方法会限制模型的能力或有用性，阻碍它们的推广能力和在实践中的有用性。因此，利用正确的归纳偏差的重要性不能被低估。

在深度学习方法出现之前，分子建模需要繁重的工程和固定的表示，通常被称为定量构效关系(QSAR)方法。在这些方法中，指纹技术是非常受欢迎的，大致可以分为基于结构的[30]、拓扑[1]、循环[8]和药效团指纹等几种类型[91]。其中一些指纹(如基于结构的MACCS[30]指纹)是高度特定的表示，由一组固定的预定义结构的指示函数组成。其他的指纹，拓扑的和圆形的，其中包括摩根指纹更灵活。这些指纹通过枚举路径或环形邻域来捕获局部拓扑。然而，问题仍然存在于生成方法的确定性本质中:如果这些预定义规则没有为任务捕获正确的表示，它们将不能很好地工作。例如，对于许多小分子问题来说，性质悬崖(property cliff)仍然是一个具有挑战性的问题，这是一种类似分子表现出不同性质的现象。这个问题对于分子指纹尤其尖锐，因为特征是固定的。然而，使用深度模型也不能解决这个问题，因为深度模型很容易与数据过度拟合，并且提供较差的泛化。

因此，我们的深度学习模型纳入正确类型的结构偏差是至关重要的。图神经网络通过迭代聚合方案进行操作，在每一步，节点从其邻居聚合信息。依次，一个节点应该包含越来越多的关于更大的邻域的信息。节点表示最终聚合为表示图的单个向量。虽然这种简单的范式有时是有效的，但可能并不总是包含正确的分子任务类型的偏见。例如，当考虑分子的特性时，这种局部邻域聚集可能无法捕捉到很重要的远程依赖关系。更重要的是，也许在二维分子图上的聚集并不适合理想的分子表示，我们应该观察三维结构。对于分子的深度模型的发展有许多考虑，但它们需要正确的结构才能有效。指纹表示很简单，但不灵活，经常涉及很多人类设计的规则。另一方面，深度模型很容易过拟合，无法捕捉正确的结构表示。