近年来，计算机的巨大进展引领着神经网络的革命，影响了从自然语言处理到计算机视觉等各领域。同时，深度学习也影响着药物研发的许多领域，包括细胞图像分析，有机分子合成路线的设计和分子生成(新化学分子的设计)等。本文献关注深度学习影响分子设计的两个关键领域:分子性质预测和分子生成。

介绍

基于药物相关数据进行分子的生成与评估是新药设计的关键任务。在药物设计早期，药物研发通常依靠药物化学家的经验进行药物分子的设计与验证。药物化学家会合成一组化合物并对其进行生物活性测试，查看测试产生的数据，并利用对基础学科的理解来决定下一步要合成哪些分子。他们将以上步骤进行迭代，最终得到所需的目标分子。 20世纪30年代，定量结构-活性关系(Quantitative Structure-Activity Relationship，QSAR)的发展，为化学结构与各种理化性质之间建立了一个数学模型。这些用于性质预测的QSAR模型奠定了许多虚拟筛选策略的基础。虚拟筛选使用大量候选分子数据集得到更小的数据集用于后续的合成或者购买。之后许多研究团队产生了新的想法。他们编写了计算机程序来进行从头分子设计进而生成新分子。这些程序通常在蛋白质结合位点上添加原子或官能团来“生长”现有的分子，然后使用各种打分函数来评估这些分子，并将更优分子用于合成。虽然这些全新的设计方法取得了一些成功，但它们并没有被广泛采用。在近几年深度学习发展的推动下，分子生成和分子性质预测领域开始复苏。深度学习应用于分子性质预测，包括预测生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和与毒性靶标(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依赖于专家定义的分子特征集，而是使用可调整到特定任务的学习特征。相关性质预测模型的性能优于更传统的QSAR方法。当应用于分子生成领域时，深度学习并不是随机扩展现有的分子，也不是使用一套规则来连接现有的分子片段，而是从现有的分子训练集中学习规则生成分子。通过将这些生成方法与预测模型相结合，研究人员能够设计出满足特定生物活性的分子。

分子性质预测

分子性质预测方法应用于虚拟筛选领域可以减少实验筛选相关的时间和费用，同时拓宽可探索的化学空间。虚拟筛选可在短时间内评估数十亿分子，相比实验筛选方法快速很多。研究相关分子性质预测算法可以加速药物发现。

1．用于分子性质预测的神经网络

神经网络模型的关键在于如何在机器学习算法中以较合理的方式表示分子。早期的模型使用专家构建的特征(如指纹与描述符)来表示分子。机器学习算法的作用是学习如何权衡这些特征，以提供准确的性质预测。这类模型的预测准确性很大程度上取决于所选特征的质量。而神经网络直接从数据中自行学习合适的特征表示。输入分子集与性质数据集进行网络的训练后，向网络输入新分子，我们可以得到该分子的性质预测值(如图1)。

图1 分子性质预测模型[1]****

作者列举了一些深度学习应用于分子性质预测领域的研究。其中包括预测实验毒性的回溯性研究——Tox21挑战(Tox21 Challenge)；以及前瞻性研究——发现新药(新抗生素)。 Tox21挑战中，研究小组使用了各种机器学习方法来预测实验毒性分析的结果。Hochreiter团队使用的深度学习模型赢得了15项挑战中的9项。Feinberg研究团队建立在各种药物数据集上的模型的R2(相关系数)平均增加0.16。Yang团队建立的模型在19个公共基准中的11个基准上表现较基线模型要好。前瞻性研究中简要描述了Stokes团队应用性质预测进行虚拟筛选进而发现强效抗生素这一过程(见图2)。该团队选用了2335种已上市的药物和天然产物，确定它们抑制大肠杆菌生长的能力；之后创建深度学习模型，在含1.07亿商业化合物的数据库中筛选预测分子，进而对所得分子进行后续生物测试。

图2 Stokes应用性质预测发现了一种新型抗生素过程[1]**********

2．分子性质预测准确性的数据要求******

预测模型的准确性在很大程度上也取决于能否获得合适的数据。给定了大量的参数，神经网络模型需要足够多的训练数据来学习最佳的分子表示，并最终预测任务本身。性质预测这一任务所需的数据量可达数万以上。对于药物研究来说，获取大样本很困难。典型先导化合物优化生成的分子量通常不足以提供给神经网络进行模型训练。然而，大量数据集也不一定能成功扩展新化学空间。预测分子与原始训练集的散度不能太大。分子与训练集的散度越大，模型就越难正确地预测分子属性。此外，现有的置信度估计方法也不能充分评估模型预测的正确性。

3．分子性质预测中不确定性的度量******

当使用机器学习模型来预测一个分子的生物活性或物理性质时，了解该预测中性质预测值的不确定性很重要。然而该领域学者对评估不确定性的方法并未达成共识。在机器学习模型中量化分子的相似性和评估不确定性则更困难。 Hirschfeld等人使用了5个基准数据集来评估神经网络模型中的几种量化不确定性的方法。其中包括： ①集成方法：改变网络参数创建集成模型，整个集成模型的方差用于不确定性的度量。 ②均值-方差评估方法：训练其中一个网络用于预测特定分子预测值的均值与方差。 ③基于分子指纹或基于距离表示潜在空间的度量方法。 ④联合方法：即利用神经网络与潜在空间表示相结合的方法输出分子性质预测的不确定性值。而作者认为这些方法可靠性均较低，需要进行进一步研究。

4．数据增强策略

在神经网络中可使用数据增强的方法缓解大数据量的这一需要。例如在分析图像时，可以通过旋转或模糊图像来创建更大的数据集，并将这些修改后的图像作为附加示例插入到数据集中。而在分子性质预测数据集中，一般数据增强策略有两种：一个是利用其他相关性质预测(例如相关蛋白质靶标的活性)的数据进行增强进而训练网络；另一个是对现有分子结构进行增强得到更大的数据库进行网络训练，进而学习到较好特征进行分子性质预测。然而这两种方法并没有很成功，还需进一步研究。分子从头设计与生成模型

分子生成模型从2017年开始出现，之后一直是一个比较热门的研究领域。这些生成模型方法受到了来自计算机视觉和自然语言处理等领域的启发，产生了许多神经网络架构，网络性能也在进一步提高。1．****分子生成模型的种类第一种可行的分子生成技术采用了被称为自动编码器(AutoEncoder, AE)(如图3)的神经网络。AE由编码器和解码器组成。编码器以连续编码的方式编码分子，促进分子属性的预测和优化，解码器学习将一个优化的连续表示映射回具有改进属性的分子图，进而生成新分子。

图3 生成模型的自动编码器(AE)架构示意图**[1]******

第二种方法称为循环神经网络(Recurrent Neural Network, RNN)。RNN被设计用来学习序列数据，如文本语音等，也可用来生成分子。RNN在一个已知分子的数据库上训练时，网络可以学习到分子的哪些部分会被连接。经过训练后，网络将得到原子或官能团被连接的概率，不同分子集得到的概率不同。

第三种方法称为强化学习(ReinforcementLearning, RL)。该技术使用的网络用于描述智能体(Agent)在与环境的交互过程中，通过学习策略达到回报最大化或实现特定目标的问题。RL应用于分子生成时，定义一系列“move”。这些“move”通过添加和修饰原子及原子键使分子生长或改变。目标通常被定义为基于预测模型的属性值。之后网络使用各种策略来实现目标。使用RL可生成满足多个目标的分子，这些生成的分子与目标分子具有高相似性以及高类药性等性质。

第四种生成方法文献作者在此篇综述中并没有提及，笔者在此进行补充，该方法称为生成对抗网络(Generative Adversarial Networks , GAN)。GAN网络由一个生成器(Generator)与一个判别器(Discriminator)组成。生成器生成类似于训练集的数据, 判别器判断数据的真假(是否来源于生成器)。生成器与判别器相互博弈，最终生成器生成的分子可以达到真假难辨的地步。

**2．**分子生成模型的分子表示方法

生成模型分子结构的文本表示首次应用的是SMILES(Simplified Molecular Input Line Entry System)字符串，进而将SMILES转换成连续向量，然后根据所需要的性质进一步优化。优化后的新向量再被解码成一个代表输出分子的SMILES字符串。在SMILES表征的基础上，研究人员又开发了能够有效处理分子图的编码和解码算法，这种方法可明确地捕获官能团及其空间排列，以及分子整体骨架等信息。最近的研究进一步增加了分子的三维信息表示方式，探索了寻找优化分子的替代算法。其中一种方法是用给定的起始分子及改进性质后的对应分子作为配对进行训练。这种方法可以被看作是匹配分子对分析(Matched MolecularPairs Analysis, MMPA)的神经网络版本，其中模型在隐藏空间中学习轨迹，即使隐藏空间不平滑，也具有鲁棒性，并支持生成不同的输出(如图4)。

图4 使用编码器解码器生成分子的连续表示****[1]********

3．分子生成模型的相关研究

文献作者列举了分子生成相关应用研究，评估方法及未来发展前景。分子生成的应用包括Merk设计的类视黄酮X受体(Retinoid X Receptors, RXRs)或过氧化物酶体增殖物激活受体(Peroxisome Proliferator-Activated Receptors, PPARs)的激动剂，Zhavoronkov设计生成的盘状蛋白结构域受体1(Discoidin Domain Receptor 1, DDR1)抑制剂。而学者Walters和Murcko对生成模型提出质疑，因为生成的DDR1抑制剂与之前发表的上市药物高度相关(见图5)。于是，文献作者引出生成模型的评估方法。

**图5 模型生成化合物1与上市药物ponatinib的比较

[1]**

生成模型评估方法有GuacaMol算法、分子枚举比较方法以及Molecular Sets(MOSES)方法 (MOSES方法综述作者没有提及，笔者对其进行补充)。GuacaMol算法通过一系列的测试来评估算法生成分子的有效性、唯一性和多样性以及评估生成模型探索化学空间的能力。分子枚举比较方法使用生成的分子与化学空间(Zhang使用了GDB-13数据库)详尽枚举的分子进行比较。 MOSES设计了一个分子生成基准平台，该平台提供了分子结构数据集、基准模型的实现方法以及它们的评估指标。其中评价指标与GuacaMol较为类似，主要有分子数据集分布指标与单个分子性质指标这两类。未来可能针对分子合成性开发基于可用试剂的分子生成模型，并生成具有目标性质(包括所需的分子相互作用，ADME性质等)的分子。

********总结与展望

虽然药物发现领域由于人工智能的推动得到了加速发展，但它是一个复杂的过程，还有很多问题有待解决。首先，药物研发需要优化多个参数，包括靶点有效性，脱靶副作用，药代动力学等。现有的研究只解决了其中部分问题。其次，研究人员需要用于正确构建研究模型的训练数据，现有的数据有时会存在许多问题。未来研究人员可能会创建更加智能的方法来识别并排除可能包含错误的数据，构建模型的研究人员也会与实验人员合作，确保数据适用于模型训练。我们不应该完全否定人工智能，但也不应该认为它是一种“万能药”。随着人工智能继续被用于药物发现，它将成为药物研发过程中广泛使用的一种工具。

**参考文献 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.

供稿：胡枫

成为VIP会员查看完整内容