我们通过引入三个新的跨域基准来研究具有非等效特征空间的跨域少样本图分类问题。我们还提出了一种基于注意力的图编码器,该编码器使用三个一致的图形视图、一个上下文视图和两个拓扑视图,学习任务特定信息的表示,以便快速适应,以及任务无关信息的表示,以便进行知识迁移。我们进行了详尽的实验来评估对比学习策略和元学习策略的表现。我们发现,当与基于度量的元学习框架相结合时,所提出的编码器在所有基准测试中都获得了最佳的元测试平均分类准确度。源代码和数据将在这里发布:https://github.com/kavehhassani/metagrl
https://www.zhuanzhi.ai/paper/7d990430868993cdc161e8ced1ca4fcb
在“少样本学习”中,一个模型从几个被标记的样本中学习适应新的类别。
常见的做法,如使用增强、正则化和预训练可能有助于缓解数据匮乏,但不能解决这个问题。受人类学习(Lake, Salakhutdinov, and Tenenbaum 2015)的启发,元学习(Hospedales, et al. 2020)利用类似任务的分布(Satorras, and Estrach 2018)来积累可迁移的经验知识,这些经验可以作为快速适应下游任务的强烈归纳偏差(Sung, et al. 2018)。在元学习中,快速学习发生在任务内,而关于任务结构变化的知识是在任务间逐步学习的(Huang and Zitnik 2020)。这种学习知识的例子是嵌入函数(Vinyals et al. 2016; Snell, Swersky, and Zemel 2017; Satorras and Estrach 2018; Sung et al. 2018),初始参数(Finn, Abbeel, and Levine 2017; Raghu et al. 2020)、优化策略(Li et al. 2017),或可以直接将训练样本映射到网络权重的模型(Garnelo et al. 2018; Mishra et al. 2018)。
元学习的一个基本假设是,元训练和元测试阶段的任务是从相同的分布中采样的,即任务是IID。然而,在许多现实世界的应用中,从相同的分布中收集任务是不可行的。相反,有来自相同模态但不同领域的数据集。在迁移学习中,源域和目标域之间的特征/标签空间是不等效的,通常是不重叠的,这被称为异构迁移学习(Day和Khoshgoftaar 2017)。据观察,当源域和目标域之间有很大的转移时,元学习算法被预训练/微调方法所超越(Chen et al. 2019b)。
计算机视觉方面的一些工作通过归一化层的元学习统计来解决跨领域的少样本学习(Tseng et al. 2020; Du et al. 2021)。这些方法局限于仍然包含高度视觉相似性的自然图像(Guo et al. 2020)。跨域学习对于尺寸变化顺序不变的图结构数据更为重要。与其他常见模态相比,图形标注更具挑战性,因为它们通常表示特定领域的概念,如生物学,在这些领域中,通过wet-lab实验进行标注是资源密集型(Hu et al. 2020b),而使用领域知识进行程序性标注的成本较高(Sun et al. 2020)。此外,除了在边际/条件概率分布上的偏移外,非等价和非重叠特征空间在图数据集上是常见的。例如,可以访问小分子数据集,其中每个数据集使用不同的特征集来表示分子(Day和Khoshgoftaar 2017)。
据我们所知,这是关于图的跨域少样本学习的第一篇工作。
为了解决这个问题,我们设计了一个以任务为条件的编码器,它可以学习处理任务的不同表示。我们的贡献如下:
-
我们引入了跨域少样本图分类的三个基准
,并进行了详尽的实验来评估监督、对比和元学习策略的性能。
-
我们提出了一种图编码器,可以学习图的三个一致视图、一个上下文视图和两个拓扑视图,学习任务特定信息的表示,以便快速适应,以及任务无关信息,以便进行知识迁移。
-
我们表明,当与基于指标的元测试框架相结合时,所提出的编码器在所有三个基准上都实现了最佳的平均元测试分类准确度。
方法
图结构数据可以从两个一致的视图进行分析: 上下文视图和拓扑视图。上下文视图基于初始节点或边缘特征(为了简单和不失一般性,我们只考虑节点特征),并携带特定于任务的信息。另一方面,拓扑视图表示图的拓扑属性,这些拓扑属性是任务无关的,因此可以作为锚点来对齐来自特征空间中不同领域的图。我们利用这种对偶表示,并通过为每个视图设计专用编码器来明确地解开它们,这些视图反过来施加了所需的归纳偏见,以学习特定于任务的域不变特征。在异构的少样本环境中,拓扑特征有助于跨任务的知识迁移,而上下文特征有助于快速适应。我们还使用了一种注意力机制,该机制隐含地限制了任务,并学习从两种视图中聚合学习到的特征。我们采用元学习策略,通过共同学习编码器参数和注意力机制来模拟泛化过程。如图1所示,我们的方法由以下组件组成:
我们详尽地进行了实证评估,以回答以下问题:
(1) 基准的元测试集分类精度的实证上限是多少?
(2) 跨元域是否存在知识迁移?如果没有,是否会发生负迁移?
(3) 基于对比的预训练效果如何?
(4) 基于度量的元学习方法与基于优化的元学习方法相比表现如何?
(5) 使用提出的编码器有什么效果?
结果表明: (1) 在这三个基准上,都存在可迁移的潜在知识。实验结果证实通过观察元学习和对比方法都优于单纯分类器。(2) 对比方法与元学习方法相比具有更强的性能。例如,在20-shot生物信息学基准测试中,MVGRL的绝对准确度比最佳的元学习方法高出1.57%。(3) 将基于度量的元学习方法与我们提出的编码器相结合,显著提高了性能。例如,在单次测试的情况下,最佳元学习方法结合我们的编码器,在分子、生物信息学和社交网络基准上的绝对精度分别比常规元学习方法的最佳结果高出3.28%、4.29%和5.17%。(4)与我们的编码器相结合,仅用20个例子训练的RelationNet模型,与全监督模型在所有可用的分子数据、生物信息学和社会网络基准上训练的模型相比,准确率分别只有4.46%、6.96%和2.68%。注意,其中一些数据集有成千上万个训练样本。(5) 当我们将知识从分子元训练迁移到社会网络元测试时,我们得到了最大的改进。这是因为社会网络任务不包含任何初始节点特征,因此对它们进行分类完全依赖于任务不可知的几何特征。这表明我们的编码器能够在一个领域学习表达几何表示并泛化到另一个领域。