基于药物相关数据进行分子的生成与评估是新药设计的关键任务。在药物设计早期,药物研发通常依靠药物化学家的经验进行药物分子的设计与验证。药物化学家会合成一组化合物并对其进行生物活性测试,查看测试产生的数据,并利用对基础学科的理解来决定下一步要合成哪些分子。他们将以上步骤进行迭代,最终得到所需的目标分子。
20世纪30年代,定量结构-活性关系(Quantitative Structure-Activity Relationship,QSAR)的发展,为化学结构与各种理化性质之间建立了一个数学模型。这些用于性质预测的QSAR模型奠定了许多虚拟筛选策略的基础。虚拟筛选使用大量候选分子数据集得到更小的数据集用于后续的合成或者购买。
之后许多研究团队产生了新的想法。他们编写了计算机程序来进行从头分子设计进而生成新分子。这些程序通常在蛋白质结合位点上添加原子或官能团来“生长”现有的分子,然后使用各种打分函数来评估这些分子,并将更优分子用于合成。虽然这些全新的设计方法取得了一些成功,但它们并没有被广泛采用。
在近几年深度学习发展的推动下,分子生成和分子性质预测领域开始复苏。深度学习应用于分子性质预测,包括预测生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和与毒性靶标(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依赖于专家定义的分子特征集,而是使用可调整到特定任务的学习特征。相关性质预测模型的性能优于更传统的QSAR方法。当应用于分子生成领域时,深度学习并不是随机扩展现有的分子,也不是使用一套规则来连接现有的分子片段,而是从现有的分子训练集中学习规则生成分子。通过将这些生成方法与预测模型相结合,研究人员能够设计出满足特定生物活性的分子。