在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。来源:知乎—努力努力再努力q
地址:https://zhuanlan.zhihu.com/p/435040892
**声明:**本文译自教授Michael Bronstein在Medium上发布的博客。欢迎大家评论、批评指正翻译中存在的任何问题。现代机器学习往往忽视了微分几何和代数拓扑的相关知识,在本篇文章中,我会向读者们展示如何以这两个领域的相关知识为有力工具去重新解释图神经网络以及图神经网络模型的一些共同困境。对称性,无论我们考虑它的广泛或者狭隘定义,它都是人类长久以来用于试图理解和创造秩序、优美和完美的一种理念。Hermann Wey [1] 的这种富有诗意的描述强调了对称性在科学研究中的基石作用。Felix Klein 在1872年的“Erlangen Programme”[2] 通过利用对称性来描述了几何学的特征,这不仅仅是数学上的突破,统一了几何学领域而且还进一步导致了现代物理理论的发展,这些理论完全可以追溯到对称的第一原理[3]。在几何深度学习的发展中,类似的原理也出现在了机器学习中,几何深度学习是通过组不变性和等方差性推导出大多数流行神经网络架构的一般蓝图[4]。
图神经网络可以被视为几何深度学习蓝图的一个特例,其构建组成是具有对称群的域(在这种情况下特指具有置换群的图)、域上的信号(节点特征)和此类信号的群-等变函数(消息传递)。几何深度学习蓝图可以应用于不同的领域,例如结构化网格、非结构化网格或图[5]。然而,虽然前两者有明确的连续型模拟对象(结构化网格可以被认为是欧几里德或更普遍的齐次空间如球体的离散化,而非结构化网格是二维流形的常见离散化),但对于图却没有明确的的连续模拟对象[6]。这种不公平有点令人不安,并驱动我们仔细研究用于图学习的连续模型。
Grid (结构化网格)、Mesh (非结构化网格)和图是几何深度学习蓝图中处理的领域的示例。然而,虽然前两者具有连续类比(例如,结构化网格可以被视为欧几里得空间的离散化,而非结构化网格是二维流形或曲面的常见离散化),但没有针对图的此类直接连续类比。
图神经扩散----
图神经网络 (GNNs) 通过在图上执行某种形式的消息传递来学习,特征在点与点之间依靠边进行传播。这种机制与图上的扩散过程有关,可以用偏微分方程 (PDE) 的形式表示,称为“扩散方程”。在最近的一篇论文 [7] 中,我们展示了这种具有非线性可学习扩散函数的 PDE 的离散化(称为“图神经扩散”或 GRAND)概括了一大类 GNN 架构,例如图注意力网络(GAT) [8]。PDE 思维方式提供了多种优势,例如可以利用具有保证稳定性和收敛特性的高效数值求解器(例如隐式、多步、自适应和多重网格方案)。这些求解器中的一些在流行的 GNN 架构领域中没有直接的类比,可能有望带来新的有趣的图神经网络设计。由于我们考虑的扩散 PDE 可以被视为某些相关能量的梯度流 [9],因此此类架构可能至少比典型架构更易于理解。同时,虽然 GRAND 模型在传统 GNN 的层位置提供连续时间,但方程的空间部分仍然是离散的并且依赖于输入图。重要的是,在这个扩散模型中,域(图)是固定的,并且在其上定义的一些属性(特征)会演变。微分几何中常用的一个概念是几何流,它演化域本身的属性 [10]。这个想法在 1990 年代被我的博士导师 Ron Kimmel 和他的合著者在图像处理领域采纳 [11]。他们将图像建模为嵌入在联合位置和颜色空间中的流形,并通过最小化嵌入的谐波能量的偏微分方程对其进行演化 [12]。这种称为贝尔特拉米流的 PDE 具有各向同性非欧氏扩散的形式,并产生边缘保留的图像去噪。我们将此范式应用于“Beltrami 神经扩散”(BLEND)框架 [13] 中的图形。图的节点现在以位置和特征坐标为特征,两者都是进化的,两者都决定了扩散特性。在这种心态下,图本身变成了一个辅助角色:它可以从位置坐标生成(例如作为 k 最近邻图)并在整个进化过程中重新连接。下图说明了这个同步进化过程:
通过带重新布线的 Beltrami 流对 Cora 图的位置和特征分量的演变(颜色代表特征向量)。动画:James Rowbottom。注:原文中有个非常漂亮的GIF动图,由于尺寸过大超出知乎限制,请有心的同学们前往原文查看。如有解决方案也烦请告知,不胜感激。最近的工作格外关注图神经网络的表达能力问题。消息传递 GNNs 等效于 Weisfeiler-Lehman 图同构测试 [14-16],这是一种尝试通过迭代颜色细化来确定两个图在结构上是否等效(“同构”)的经典方法。这个检验是必要但不充分的条件:事实上,Weisfeler-Lehman 可能认为一些非同构图是等价的。下图说明了传递 GNN 的消息“看到”了什么:两个突出显示的节点看起来无法区分,尽管图显然具有不同的结构:
Weisfeiler-Lehman 检验无法区分的两个非同构图的示例。图改编自Sato [18]。
位置编码----
解决此问题的常见方法是通过为节点分配一些表示图中节点的角色或“位置”的附加特征来“着色”节点。在 Transformers [17](它是在完整图 [4] 上运行的注意力 GNN 的特例)中普及,位置编码方法已成为增加图神经网络表达能力的常用方法。
位置编码为图的节点分配额外的特征,允许消息传递获得比 Weisfeiler-Lehman 测试更高的表达能力。然而,在位置编码的多种可能选择中,没有“规范”的。图改编自Sato[18]。也许最直接的方法是赋予每个节点一个随机特征[18];然而,虽然更具表现力,但这种方法的泛化能力较差(因为不可能在两个图中重现随机特征)。图拉普拉斯算子 [19] 的特征向量提供了图的邻域保留嵌入,并已成功用作位置编码。最后,我们在与 Giorgos Bouritsas 和 Fabrizio Frasca [20] 的论文中表明,图的子结构计数可以用作位置或“结构”编码的一种形式,可以证明它比基本的 Weisfeiler-Lehman 测试更强大。然而,对于位置编码有多种选择,如何选择一个没有明确的方法,也没有明确的答案在哪种情况下哪种方法更有效。我相信像 BLEND 这样的几何流可以根据这个问题来解释:通过非欧式扩散演化图的位置坐标,位置编码适用于下游任务。因此,答案是“视情况而定”:最佳位置编码是手头数据和任务的函数。
高阶消息传递----
表达性的另一种选择是停止从节点和边的角度考虑图。图是被称为细胞复合体的对象的例子,细胞复合体是代数拓扑领域的主要研究对象之一。在这个术语中,节点是 0-cells,边是 1-cells。不必止步于此:我们可以构建如下图所示的 2 个单元格(面),这使得我们之前示例中的两个图完全可区分:
在最近与 Cristian Bodnar 和 Fabrizio Frasca [21-22] 合着的两篇论文中,我们表明有可能构建一种“提升变换”,用这种高阶单元来增强图,在其上可以执行更复杂的形式 的分层消息传递。这个方案可以证明比 Weisfeiler-Lehman 测试更具表现力,并且在计算化学中显示出有希望的结果,其中许多分子表现出更好地建模为细胞复合物而不是图形的结构。GNNs 的另一个常见困境是“过度挤压”现象,或者由于输入图的某些结构特征(“瓶颈”)而导致消息传递无法有效传播信息[23]。过度挤压通常发生在体积呈指数增长的图中,例如小世界网络 [24] 以及依赖于远程信息的问题。换句话说,GNN 在其上运行的输入图并不总是对消息传递友好。
“小世界”图中快速增长的邻居数量通常是 GNN 中观察到的过度挤压现象的根源。
过度挤压、瓶颈和图重绘----
根据经验,观察到将输入图与计算图解耦并允许在不同的图上传递消息有助于缓解问题;这种技术通常被称为“图重绘”。公平地说,许多流行的 GNNs 架构都实现了某种形式的图重新布线,可以采用邻域采样(最初在 GraphSAGE 中提出以应对可扩展性 [25])或多跳过滤器 [26] 的形式。上面讨论的拓扑消息传递也可以看作是一种重新布线的形式,从而可以通过高阶单元“捷径”地在远距离节点之间传输信息。Alon 和 Yahav [23] 表明,即使像使用全连接图这样简单的方法也可能有助于改善图机器学习问题中的过度挤压。Klicpera 和合著者热情地宣称“扩散改进了图学习”,提出了 GNNs(称为“DIGL”)的通用预处理步骤,包括通过扩散过程对图的连通性进行去噪 [27]。总体而言,尽管进行了重要的实证研究,但过度挤压现象一直难以捉摸且理解不足。在最近的一篇论文 [28] 中,我们表明导致过度挤压的瓶颈可归因于图的局部几何特性。具体来说,通过定义 Ricci 曲率的图类比,我们可以证明负弯曲的边是罪魁祸首。这种解释导致了类似于“反向 Ricci 流”的图形重新布线程序,该程序通过外科手术去除了有问题的边,并生成了一个更适合消息传递的图形,同时在结构上与输入的图形相似。
使用基于扩散的方法(DIGL,中)和基于曲率的方法(Ricci,右)重新连接康奈尔图(左)的示例。基于曲率的方法更显着地减少了瓶颈,同时更忠实于原始图结构。这些例子表明微分几何和代数拓扑为图机器学习中的重要和具有挑战性的问题带来了新的视角。在本系列的后续文章中,我将更详细地展示如何使用这些领域的工具来解决图神经网络的上述问题。第二部分将讨论代数拓扑如何提高 GNN 的表达能力。第三部分将处理几何扩散偏微分方程。第四部分将展示过度挤压现象如何与图曲率相关,并提供一种受 Ricci 流启发的图形重新布线的几何方法。
[1] H. Weyl, Symmetry (1952), Princeton University Press. [2]F. Klein, Vergleichende Betrachtungen über neuere geometrische Forschungen (1872). [3] J. Schwichtenberg, Physics from symmetry (2018), Springer. [4] M. M. Bronstein, J. Bruna, T. Cohen, and P. Veličković, Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (2021); see an accompanying post and the project website. [5] In the above GDL proto-book, we call these the “5G” of Geometric Deep Learning. [6] Geometric graphs naturally arise as discrete models of objects living in a continuous space. A prominent example is molecules, modeled as graphs where every node represents an atom with 3D spatial coordinates. On the other hand, it is possible to embed general graphs into a continuous space, thus (approximately) realising their connectivity using the metric structure of some space. [7] B. Chamberlain, J. Rowbottom et al., GRAND: Graph Neural Diffusion (2021) ICML. [8] P. Veličković et al., Graph Attention Networks (2018) ICLR.[9] A gradient flow can be seen as a continuous analogy of gradient descent in variational problems. It arises from the optimality conditions (known in the calculus of variations as Euler-Lagrange equations) of a functional. [10] Geometric flows are gradient flows of functionals defined on manifolds. Perhaps the most famous of them is the Ricci flow, used by Grigori Perelman in the proof of the century-old Poincaré conjecture. Ricci flow evolves the Riemannian metric of the manifold and is structurally similar to the diffusion equation (hence often, with gross simplification, presented as “diffusion of the metric”). [11] N. Sochen et al., A general framework for low-level vision (1998) IEEE Trans. Image Processing 7(3):310–318 used a geometric flow minimising the embedding energy of a manifold as a model for image denoising. The resulting PDE is a linear non-euclidean diffusion equation ẋ = Δx (here Δ is the Laplace-Beltrami operator of the image represented as an embedded manifold), as opposed to the nonlinear diffusion ẋ = div(a(x)∇x) used earlier by P. Perona and J. Malik, Scale-space and edge detection using anisotropic diffusion (1990) PAMI 12(7):629–639. [12] Beltrami flow minimises a functional known in string theory as the Polyakov action. In the Euclidean case, it reduces to the classical Dirichlet energy.