Active Learning on Attributed Graphs via Graph Cognizant Logistic Regression and Preemptive Query Generation. 基于图感知逻辑回归和抢占式查询候选集生成的属性图上主动学习策略
左图: 常规主动学习算法 vs. 抢占式主动学习.
右图: GEEM vs PreGEEM 对于下一个打标签节点risk预估值对比.
对于(含节点属性)图网络中的节点分类问题是分类问题中的一项重要任务,但通常获取节点标签较为困难或昂贵,在有限可标注数据的预算下通常通过主动学习可以提高分类性能。在图网络结构数据中最好的现有方法是基于图神经网络,但是它们通常表现不佳除非有大量可用的标记节点作为验证集以选择一组合适的超参数。在这个工作中特别针对属性图中的节点分类任务,我们提出了一种基于图的主动学习算法Graph Expected Error Minimization (GEEM)。我们的算法在预测阶段使用了一种不需要依靠验证集调整超参的线性化图卷积神经网络(linear-GCN),并在主动学习查询标签阶段利用最小化预期误差的目标函数作为选择下一目标label节点的标准。算法主要包括两个阶段1)在模型预测阶段,我们提出使用线性化的GCN模型获取经验标签(预测标签) 2)在获取下一label节点过程中,我们提出通过对未标记集合上节点的平均错误概率来计算预期误差并作为风险预估标准,从而选择增加此节点后经验风险最小的节点进行label。
为了减少在为候选节点打标签过程带来的延迟(在医疗等需要细节domain knowledge的场景,打每标签过程潜在会超过10分钟),我们推导出了GEEM的抢占式查询候选集生成主动学习算法并称为PreGEEM,它在查询/打标签过程中计算下一个候选打标签的对象。同时,我们在论文中提供了关于PreGEEM风险误差的理论边界。最后,为了解决从几乎从没有标签数据开始学习的情况,我们提供了一种基于标签传播和线性化GCN推理的混合算法,进行自适应模型平均。我们在四个公开数据集上进行了实验验证,展示出了在各种实验设定下与SOTA算法相比的明显提升,特别是当初始标签集非常有限时我们的模型明显优于其他方法。此外该技术在通信网络中具有潜在的实用价值,例如在初始标签集稀缺时的通信网络中故障链路识别场景中。