(i) leveraging relative positional encoding strategies in self-attention scores based on positive definite kernels on graphs, and (ii) enumerating and encoding local sub-structures such as paths of short length
之前GT发现self-attention在只关注neighboring nodes的时候会取得比较好的效果,但是在关注到所有节点的时候,性能就不行。这篇论文发现transformer with global communication同样可以达到不错的效果。
因此,GraphiT通过一些策略将local graph structure编码进模型中,(1)基于正定核的注意力得分加权的相对位置编码策略 (2)通过利用graph convolution kernel networks (GCKN)将small sub-structure(e.g.,paths或者subtree patterns)编码出来作为transformer的输入。
Transformer Architectures Encoding Node PositionsRelative Position Encoding Strategies by Using Kernels on Graphs Encoding Topological StructuresGraph convolutional kernel networks (GCKN)实验结果
[NIPS 2021] (GraphTrans) Representing Long-Range Context for Graph Neural Networks with Global Attention
在这篇论文中,作者展示了使用位置编码的Transformer生成的节点表示不一定捕获节点之间的结构相似性。为了解决这个问题,Chen et al. 提出了一种structure-aware transformer,这是一种建立在新的self-attention机制上的transformer。这种新的self-attention在计算attention之前会抽取子图的表征(rooted at each node),这样融合进了结构信息。作者提出了若干种可以自动生成subgraph representation的方法,从理论上证明这些表征至少和subgraph representations表现力一样。
该structure-aware框架能够利用已有的GNN去抽取subgraph representation,从实验上证明了模型的性能提升和GNN有较大的关系。仅对Transformer使用绝对位置编码会表现出过于宽松的结构归纳偏差,这不能保证两个节点具有相似的局部结构的节点生成相似的节点表示。
[NIPS 2022 Under Review] (GraphGPS) Recipe for a General, Powerful, Scalable Graph Transformer
在这篇论文中,作者对之前使用的PE进行了细致的归类(local, global or relative, 详见下方表格)。此外,该论文还提出了构建General, Powerful, Scalable Graph Transformer的要素有三:
positional/structural encoding,
local message-passing mechanism,
global attention mechanism。
针对这三要素,作者设计了一种新的graph transformer。
针对layer的设计,该论文采用GPSlayer = a hybrid MPNN+Transformer layer。
该设计与GraphTrans的不同在于,GraphTrans在输入到Transformer之前先输入到一个包含若干层的MPNNs中,这可能会有over-smoothing,over-squashing以及low expressivity against the WL test的问题,也就是说这些层可能无法在早期保存一些信息 ,输入到transfomer的信息就会有缺失。GPS的设计是每一层都是一层的MPNN+transformer layer,然后反复堆叠L层。
具体计算如下:
利用Linear transformer,GPS可以将时间复杂度降到
。
实验结果
Tutorial: A Bird's-Eye Tutorial of Graph Attention Architectures (https://arxiv.org/pdf/2206.02849.pdf)
Dataset: Long Range Graph Benchmark (https://arxiv.org/pdf/2206.08164.pdf);Code(https://github.com/vijaydwivedi75/lrgb)
简介:GNN一般只能捕获k-hop的邻居,而可能无法捕获长距离依赖信息, Transformer可以解决这一问题。该benmark共包含五个数据集(PascalVOC-SP, COCO-SP, PCQM-Contact, Peptides-func and Peptides-struct),需要模型能捕获长距离依赖才能取得比较好的效果,该数据集主要用来验证模型捕获long range interactions的能力。
还有一些同质图上Graph Transformers的工作,感兴趣的同学自行阅读:
[KDD 2022] Global Self-Attention as a Replacement for Graph Convolution (https://arxiv.org/pdf/2108.03348.pdf)
[ICOMV 2022] Experimental analysis of position embedding in graph transformer networks (https://www.spiedigitallibrary.org/conference-proceedings-of-spie/12173/121731O/Experimental-analysis-of-position-embedding-in-graph-transformer-networks/10.1117/12.2634427.short)
[Arxiv 2022,05] Your Transformer May Not be as Powerful as You Expect (https://arxiv.org/pdf/2205.13401.pdf);[Code] (https://github.com/lenscloth/GRPE)
[Arxiv 2022,06] NAGphormer: Neighborhood Aggregation Graph Transformer for Node Classification in Large Graphs (https://arxiv.org/abs/2206.04910)