【博士论文】图表示学习，图上的深度生成模型，组等变分子神经网络和多分辨率机器学习

2022 年 11 月 6 日 专知

图神经网络(GNNs)利用各种方法将卷积的概念推广到图中，已被广泛应用于许多学习任务，包括物理系统建模，寻找分子表示来估计量子化学计算等。大多数现有的GNNs通过将网络设想为一个消息传递方案来解决置换不变性，其中每个节点求和来自其邻居的特征向量。我们认为该方案对GNN的表示能力施加了限制，使得每个节点在被求和聚合后失去了它们的身份。因此，我们提出了一种新的通用架构，称为协变成分网络(CCNs)，其中节点特征由高阶张量表示，并根据其接受野对称群的特定表示进行协变/等价变换。实验表明，CCNs在标准图学习基准和估计密度泛函理论(DFT)计算的分子性质方面优于竞争方法。这种新颖的机器学习方法允许科学家有效地提取化学知识，并探索日益增长的化学数据。

从多尺度角度理解图对于捕获分子、蛋白质、基因组等的大规模结构至关重要。为此，我们引入了多分辨率等变图变分自编码器(MGVAE)，这是第一个以多分辨率和等变方式学习和生成图的分层生成模型。MGVAE建立在多分辨率图网络(MGN)之上，该体系结构显式地学习顶点的多级硬聚类，从而形成真正的多分辨率层次结构。然后，MGVAE采用层次变分自编码器模型，在给定潜在分布层次的情况下，随机生成多个分辨率层次的图。我们提出的框架实现了几个生成任务，包括通用图生成、分子生成、无监督分子表示学习、引用图链接预测和基于图的图像生成。MGVAE的未来应用范围从先导优化增强最有前途的化合物在药物发现到寻找稳定的晶体结构在材料科学。

一般来说，我们希望学习由每个原子的一组电荷-位置对指定的分子数据。这个问题对旋转和平移是不变的。我们使用协变激活来“烘焙”这些对称性，同时保留局部几何信息。我们提出协变分子神经网络(Cormorant)，一种旋转协变神经网络结构，用于学习复杂多体物理系统的行为和特性。我们将这些网络应用到分子系统中，有两个目标:学习用于分子动力学模拟的原子势能面，以及学习通过密度泛函理论计算的分子基态性质。我们的网络的一些关键特征是:(a)每个神经元明确地对应于原子的一个子集;(b)每个神经元的激活与旋转协变，确保整个网络完全旋转不变。此外，我们的网络中的非线性是基于张量乘积和Clebsch-Gordan分解，允许网络完全在傅里叶空间中运行。Cormorant在从MD-17数据集的构象几何图形中学习分子势能面方面明显优于其他算法，在学习GDB-9数据集上分子的几何、能量、电子和热力学性质方面与其他方法具有竞争力。

多分辨率矩阵分解(MMF)在快速矩阵分解算法中是不寻常的，因为它不做低秩的假设。这使得MMF特别适合于建模具有复杂的多尺度或层次结构的某些类型的图。虽然MMF有望产生一个有用的小波基，但找到因式分解本身是困难的，现有的贪婪方法往往是脆弱的。因此，我们提出了MMF的“可学习”版本，该版本结合强化学习和通过反向传播误差的Stiefel流形优化，仔细优化了因式分解。基于MMF在分解归一化图拉普拉斯时产生的小波基，利用稀疏小波变换定义的图卷积，构造谱域小波网络学习图。我们已经证明，由我们的可学习MMF产生的小波基远远优于先前的MMF算法，相应的小波网络在引用图的标准节点分类和分子图分类上产生了最先进的结果。这对于理解和可视化复杂的层级结构(如社会网络和生物数据)是一个很有前途的方向。