引言
几何深度学习(GDL)是一种基于神经网络架构的学习方法,它可以整合并处理对称信息。GDL在分子建模应用中有着特殊的应用前景,在这些应用中存在着具有不同对称性和抽象层次的各种分子表示。本文综述了分子GDL在药物发现、化学合成预测和量子化学中的应用。重点放在学习的分子特征的相关性和它们的互补的完善的分子描述符。本文综述了当前的挑战和机遇,并对GDL在分子科学中的应用前景进行了展望。
摘要
深度学习是基于神经网络的人工智能(AI)[1,2]的一个实例,近年来的进展已经在分子科学领域得到了广泛的应用,如药物发现[3,4]、量子化学[5]和结构生物学[6,7]。深度学习的两个特点使得它在应用于分子时特别有前途。首先,深度学习方法可以处理“非结构化”数据表示,如文本序列[8,9]、语音信号[10,11]、图像[12-14]和图形[15,16]。这种能力对于分子系统,尤其有用,化学家们已经开发出许多模型(即“分子表示”),捕获分子性质在不同的萃取级别(图1)。第二个关键特征是,深度学习可以执行特征提取(或学习)的特性从输入数据, 也就是说,从输入数据生成数据驱动的特性,而不需要人工干预。这两个特性对于深度学习来说很有前途,可以作为“经典”机器学习应用(如定量结构-活性关系[QSAR])的补充,在这些应用中,分子特征 (即“分子描述符”[17])是通过基于规则的算法进行先验编码的。从非结构化数据中学习并获得数据驱动的分子特征的能力,导致了人工智能在分子科学中的前所未有的应用。
几何深度学习(GDL)是深度学习领域最有前景的进展之一。几何深度学习是一个涵盖新兴技术的总称,这些技术将神经网络推广到欧几里得和非欧几里得域,如图、流形、网格或字符串表示[15]。一般来说,GDL包含了包含几何先验的方法,即关于输入变量的结构、空间和对称属性的信息。利用这种几何先验来提高模型捕获的信息的质量。尽管GDL越来越多地应用于分子建模[5,18,19],但其在该领域的全部潜力仍未得到充分挖掘。
本文的目的是 :(1) 对GDL在分子系统中的应用进行结构化和协调的综述; (2)概述该领域的主要研究方向; (3) 预测GDL的未来影响。重点介绍了三个应用领域,即药物发现、量子化学和计算机辅助合成规划(CASP),特别关注了GDL方法学习到的数据驱动分子特征。所选术语的词汇表见框1。
几何深度学习原理
几何深度学习这个词是在2017年[15]诞生的。虽然GDL最初用于应用于非欧几里得数据[15]的方法,但现在它扩展到所有包含几何先验[21]的深度学习方法,即有关感兴趣系统的结构和对称信息。在GDL中,对称是一个至关重要的概念,因为它包含了系统与操作(转换)相关的属性,如平移、反射、旋转、缩放或排列(框2)。
分子几何深度学习
GDL在分子系统中的应用具有挑战性,部分原因是有多种有效的方法来表示相同的分子实体。分子表示可以根据它们不同的提炼水平以及它们所捕获的物理、化学和几何方面进行分类。重要的是,所有这些表示都是同一现实的模型,因此“适合于某些目的,而不适合其他目的”[63]。GDL提供了用相同分子的不同表示进行实验的机会,并利用它们的内在几何特征来提高模型的质量。此外,由于GDL的特征提取(特征学习)功能,它已经多次被证明在为手头的任务提供相关分子属性方面是有用的。在接下来的章节中,我们将描述最流行的分子GDL方法及其在化学中的应用,并根据用于深度学习的分子表示进行分组: 分子图、网格、字符串和曲面。
总结与展望
化学中的几何深度学习使研究人员能够利用不同非结构化分子表征的对称性,从而为分子结构生成和性质预测提供更大的灵活性和通用性的可用计算模型。这些方法代表了对基于分子描述符或其他人类工程特征的经典化学信息学方法的有效替代。对于那些通常需要高度工程化规则的建模任务(例如,从头设计的化学转换,以及CASP的活性位点规范),GDL的好处已经得到了一致的显示。在已发表的GDL应用中,每种分子表示都显示出各自的优缺点。