【AI4Science】生成式AI怎么做图生成？KAIST等最新《图扩散模型》综述，详述生成式AI在分子、蛋白质和材料科学的应用

2023 年 4 月 10 日 专知

“人工智能驱动的科学研究”（AI for Science）成为现在研究的焦点之一，图数据是科学研究领域中的重要数据对象，如何用图模型进行研究？是个重要的问题。韩国科学技术院最新《图扩散模型》综述，详述相关进展，值得关注！

扩散模型已经成为各个领域中一种新的生成式建模方法，目前已有多项综述工作对其进行了全面综述。近年来，随着扩散模型相关文章的数量呈指数级增长，对特定领域扩散模型研究的需求日益迫切。本文致力于对图扩散模型进行调研。尽管本文的重点是涵盖扩散模型在图中的进展，但首先简要总结了其他生成建模方法如何用于图。然后，以多种形式介绍扩散模型的机理，为进一步深入讨论图扩散模型奠定基础。图扩散模型的应用主要属于科学中的AI生成内容(AIGC)的范畴，主要关注图扩散模型如何用于生成分子和蛋白质，但也涵盖其他情况，包括材料设计。此外，讨论了图域扩散模型的评估问题以及存在的挑战。

https://www.zhuanzhi.ai/paper/0b19dab6718231af275256573996e27d

1 引言

图在各种场景中无处不在。由于图的强大表达能力，近年来越来越多的研究采用机器学习方法进行图的分析和生成。图被广泛应用于许多研究领域，包括社会科学中的社会网络[3]，[4]，化学中的分子结构和材料[5]，生物化学中的知识基础[6]和蛋白质相互作用网络[7]。图具有节点数和边数不等的不规则结构，使其难以应用标准的卷积或池化操作[8]，[9]。此外，图的规模可能很大，需要专门的技术来高效地处理和分析它们[10]，[11]，[12]。此外，图表现出多样性和异构性，使得开发可以在不同类型的图[13]上很好地泛化的模型具有挑战性。这些挑战促使研究人员开发新的方法和架构用于在图数据上进行深度学习，如图卷积网络和图注意力网络，可以有效地捕获图[13]，[14]，[15]，[16]，[17]的结构和属性。

将分子和蛋白质表示为图形使研究人员能够利用图神经网络的力量来了解它们的结构和功能特性，然后可以用来创建具有预期特征[18]，[19]的新分子和蛋白质。分子和蛋白质生成任务涉及使用计算方法来设计新的分子和蛋白质或优化现有的分子和蛋白质，这些方法比传统的实验技术[20]，[21]更高效和经济。研究人员可以通过利用基于图的深度学习技术创建巨大的潜在分子和蛋白质库。这种方法可以大大加快新药物和材料的发现，并可能彻底改变分子设计领域[22]，[23]。扩散模型已经成为基于图的深度学习中的一个重要工具，提供了一种方法来建模跨图的节点和边的信息扩散。随着应用从表示学习到图生成和动态图处理的不同，扩散模型在解决基于图的深度学习中的各种挑战方面表现出了通用性。此外，扩散模型已被证明可以提高图神经网络的可扩展性和效率，特别是对于大规模图[20]，[24]。它们还提供了一种将全局信息纳入学习过程的方法，导致更精确的预测和对下游任务的更好性能。

大量的工作涵盖了基于自回归、VAE和GAN模型[25]、[26]、[27]、[28]的图生成技术。然而，文献缺乏对这一任务的全面回顾，对新兴的和有希望的扩散模型进行降级。在本调研中，我们努力弥补这一知识差距。本文通过从图生成的角度简要总结上述方法以及它们在第2节中面临的挑战来解决这一问题。该综述然后推进到基于扩散的方法的主要主题，第3节简要介绍了扩散模型，然后在第4节和第5节中从结构和应用的特定角度深入讨论了它们的图生成。调查在第6节中解释了目前流行的评估数据集和指标，在第7节中总结了研究界仍然面临的挑战和研究问题。通过撰写这份深入的调查，希望为有兴趣探索扩散模型在图生成和相关任务中的潜力的研究人员提供一个全面的资源。相关调研工作。[29]，[30]，[31]综述了扩散模型在各个领域的研究进展。还有多种扩散模型的领域特定综述工作，包括文本到图像的扩散模型[32]、音频扩散模型[33]。作为补充，本文对图扩散模型进行了调研。从AI生成内容(AIGC)的角度来看，这项调查也与生成AI(见[34]的调查)和ChatGPT(见[35]的调查)有关。从概念上讲，扩散模型也与掩码自动编码器高度相关(参见[36]的综述)，后者也进行去噪。

2 深度图生成

生成模型，如Erdos-Renyi[37]、WattsStrogatz[38]、barabsi - albert[39]和R-MAT[40]，会手动观察实际图的特定重要属性，并据此构建算法。虽然这些模型可能成功地捕获了实际图的一些特征，但它们缺乏灵活性来建模不同的图属性[4]，[16]，[41]，[41]。此外，生成模型可能难以生成表明观察到的连接模式或[42]行为的图。因此，需要开发更复杂的生成模型，以集成更全面的图属性范围，并产生更真实的结果[43]。在本节中，我们根据算法分类简要回顾了深度图生成模型。无论数据类型如何，有四种流行的生成式建模方法，分别是自回归模型[44]、变分自编码器[45]、归一化流[46]和生成式对抗网络[47]。在这里，我们总结了深度图生成模型的统一框架，如图1所示。

3. 扩散模型研究背景

扩散模型是一类生成模型，它逐渐将噪声引入数据中，直到它符合先验分布[75]。然后，模型学会反向此过程以生成可行样本。通过利用扩散模型的力量，研究人员可以创建生成模型，该模型可以准确地捕捉复杂数据集的底层结构，并产生高质量的、真实的样本。有三个子类型:去噪扩散概率模型(DDPMs)[76]，[77]，[78]，[79]，[80]，基于分数的生成模型(SGMs)[81]，[82]和随机微分方程(SDEs)[83]，[84]，[85]，它们在实现前向和后向扩散过程的方式上有所不同。图2展示了一个基于三个类别的通用框架。

4 图扩散模型

多个工作[25]、[27]、[28]、[42]、[59]、[61]、[91]、[92]、[93]、[94]已经展示了不同的图生成质量，取决于节点生成的顺序。特别是自回归模型，其性能最优[83]。然而，它们在捕获排列不变性方面效果不佳。扩散模型在这里起到了拯救作用，第一个基于分数的置换不变图生成模型EDP-GNN[81]，自适应GIN[89]并采用退火Langevin动态采样。假设无向图，仅在邻接矩阵的上三角部分添加高斯噪声进行边缘扩散，并对采样时生成的连续邻接矩阵进行量化。在预测边缘特征方面，经验表明EDP-GNNs比普通GNN更具表现力。此外，发现样本质量可与最先进的模型相媲美。GraphGDP[83]还试图解决置换不变图的生成问题，在这方面，最先进的自回归模型失败了。然而，提出的连续时间生成扩散模型采用随机微分方程(SDE)进行边缘扩散。此外，为了采样，利用结构和位置信息设计了评分网络。尽管扩散模型显示出巨大的前景，但图数据的独特内在属性要求在标准扩散过程中进行一些调整，以使其适合图生成任务。本节将详细说明需要进行的修改。

5 应用

5.1 分子

随着越来越多的研究开发深度学习模型来分析或生成分子，深度学习方法目前对分子科学产生了关键影响[104]，[105]。这些方法可以通过利用人工神经网络在大型数据集中捕获高级结构特征和模式，这使它们能够在广泛的分子结构和性质上进行泛化[104]。例如，在药物发现中，深度学习模型在识别具有改进有效性和减少副作用的新药物候选方面具有相当大的前景[106]。

5.2 蛋白质设计

从技术上讲，蛋白质也是一种特殊的分子。与上述讨论的蛋白质相比，蛋白质通常具有复杂的结构，由氨基酸链组成，并在细胞过程中发挥关键作用。蛋白质生成问题的许多方面已经取得了良好的进展，但仍存在一定的挑战。

5.3 其他

材料设计。材料表示为原子在三维空间中的周期性排列[134]。具体来说，单晶胞代表材料的无限周期结构，而材料的无限周期结构又由原子类型、坐标和周期性晶格表征。要生成稳定的材料，有两个关键点:要求1)材料的原子坐标必须存在于量子力学定义的局域能量最小值，要求2)结构遵循不同原子类型之间特定的成键偏好。此外，材料的结构应该是排列、平移、旋转和周期不变性。CDVAE[135]首先将材料编码到低维潜空间，然后MLP属性预测器从潜表示z预测原子的数量、周期晶格和组成。周期GNN解码器、噪声条件分数网络(NCSN)[136]，对原子类型和原子坐标从z去噪。解码器输出引导原子坐标到能量局部最小值的梯度，并更新原子类型以捕获基于邻居的特定局部boding偏好。CDVAE[135]通过添加噪声，然后逐渐去噪，使稳定的材料变得不稳定，从而学习稳定性。CDVAE的概述如图5所示。

Mischaneous。早期的图扩散工作扩散邻接矩阵用于边扩散，EDP-GNN[81]，专注于无向图的生成，只在邻接矩阵的上三角部分添加了噪声。然后，为了使生成的图在采样时离散化，对采样后的连续邻接矩阵进行阈值化;尽管仅扩散图的一个结构元素的方法显示了很好的结果，但它们没有完全捕获节点和边之间的关系，这对生成现实世界的图(如分子)很重要。为了克服这个问题，GDSS[84]通过两个sde同时扩散。它并行地对节点和边之间的复杂依赖关系进行建模。由于节点和边在排列方面的行为不同，需要不同的建模，因此GDSS使用图注意力网络进行去噪过程。然而，独立学习节点和边表示的模型忽略了它们之间的相互依赖关系[82]。为了解决这些问题，NVDiff[82]仅扩散通过GraphVAE[61]编码的节点向量的潜在表示，捕捉图的结构信息，并使用基于注意力的分数生成模型(SGM)作为先验来捕获图中的局部和全局上下文。

6 评估

验证生成模型的有效性需要对生成的数据和学到的分布进行评估[72]，[137]，[138]。对于图形数据，这有双重困难。首先，与只需要评估确定性预测的预测问题不同，生成任务需要评估学习到的分布[138]，[139]。第二，评估图结构数据比评估图像或文本数据更复杂[4]，[140]。本文总结了最常用的操作图生成指标，包括独立于领域和特定于应用程序的图生成[141]。

7 挑战

基于扩散模型的图生成是一个相对新兴的研究领域。尽管已有一些工作采用扩散模型进行图生成，但该领域仍然面临许多挑战和开放的研究问题。在本节中，我们概述一些最重要的挑战。

评价标准。尽管有各种广泛采用的评估指标，但由于缺乏基本事实和通用指标，测量和比较图生成模型的性能仍然是一个重大挑战[144]。例如，目前使用图数据先验知识的评估，在现实世界的应用中不能依赖统计和属性，特别是分子生成，往往需要更昂贵的评估。这些统计数据和属性的重要性也因目标任务而异。因此，需要进一步研究制定合适的评价指标。

图的多样性。图在许多应用中普遍存在，各种数据都可以通过图来建模。每种类型的图有其独特的特点和性质，需要不同的建模方法才能有效地生成它们。例如，社交网络具有特定的特征，如社区结构和度分布，在生成社交网络时必须考虑这些特征[43]，[145]。类似地，生物网络需要专门的模型，包括被研究系统的生化和生理特性[20]。尽管图数据具有多样性，但目前对图生成的研究主要集中在药物发现和材料科学中使用的分子图[146]。其中一个原因是许多分子图存储库的可用性，如PubChem和ChEMBL数据库。然而，不同的图通常具有明显不同的性质，可能需要生成模型来满足相应的特定标准。尽管图数据种类繁多，但研究主要针对分子图，部分原因是缺乏足够的存储库，忽视了真实图数据的多样性。

可扩展性。大量实践中的边扩散对于巨大的现实世界图是不可行的，因为它需要反向扩散的二次增长步骤来采样新的图。当节点数增加到[52]时，扩散生成新图的代价急剧增加。这一计算瓶颈使得使用基于扩散的方法生成大规模图具有挑战性，限制了其应用于现实世界中常见的大型图。尽管人们已经努力通过扩散节点的潜在表示来缓解该问题，但通过扩散生成的图远不能扩展，需要进一步探索。

不规则。图可能具有节点和边数量可变的高度不规则结构，这可能会给指定有效抓住图的动态的扩散过程带来困难[147]，[148]。特别是，设计一个捕捉图中节点和边之间复杂依赖关系的扩散过程是具有挑战性的[149]。此外，图的不规则结构使得难以定义适合于图动力学建模的固定扩散核或转移算子[141]。因此，适应图数据的扩散模型需要开发新的技术，将图的不规则结构融入到扩散过程中，这是一个活跃的研究领域。

可解释性。扩散模型依赖于一个得分函数来计算数据的概率密度。然而，在图的上下文中，得分函数的解释和可视化可能具有挑战性，这可能限制模型的可解释性，并使其难以实现对图[20]，[25]的底层动态的洞察。因此，在图的上下文中分析和理解扩散模型的行为可能具有挑战性。

专知便捷查看