(KDD’25)一种新颖的可解释性无监督异常检测模型(graph):Global Interpretable Graph-level Anomaly Detection via Prototype 论文地址: https://dl.acm.org/doi/pdf/10.1145/3711896.3736983
代码地址: https://zenodo.org/records/15486171
0前言
现有GLAD(图级异常检测)方法虽在异常识别任务中取得良好成果,但其可解释性一直是神经网络模型实际应用中所面临的的难题之一。由于其黑盒性质,如在脑网络致病机制中我们很难确定是哪一关键部分导致的异常,这导致了图神经网络并不能被很好的信赖。 尽管也有研究尝试为每个输入样本提供实例级解释(针对数据集中的每张图都做出解释),但实例级解释存在两大局限:一是针对每个样本都进行解释,人工验证成本高。在生物化学、神经生物学中,人工验证需要相关领域的专家。二是每个样本的单实例解释无法捕捉到异常背后的整体机制,解释效果不及全局性解释。
01 动机
前言所提到的问题,是图异常检测神经网络在实际中所遇到的大方向问题,那么落实到模型方法实现上,还有哪些问题需要解决呢?
首当其冲的是如何给出全局级别的解释,单个级别的解释其实在模型操作层面已经比较成熟,如使用一个参数化的抽取器抽取图中的节点和边,进而根据抽取后的子图计算loss,梯度回传给抽取器。但是全局级别的解释需要统筹这些所有的单例解释。 其次就是标签稀缺性问题,正常标签比例占绝大部分,异常标签是难以获取的,因此监督模型难以应用于实际情况,或者说其成本较高。
02方法
说完了GLAD所面临的问题,我们来看看这篇论文提出的模型GLADPRO是如何处理设计的。首先,我们先放上模型图:
无监督学习框架:GLADPRO提出了一种基于原型与信息瓶颈(IB)的无监督学习框架,传统IB依赖标签,但受限于标签稀少问题,作者对其进行了改进。使用原型Zp来代替标签,原型是一组随机初始化的参数向量,随着模型一起学习并不断优化,那么改进IB公式便可以表示为:
通过最小化原型与子图Gs之间无关的冗余信息,同时最大化子图与原型之间的互信息来进行训练。这样避免无关噪声的影响并使得原型更精准的捕捉子图的共性模式。
子图提取:提取子图需要确保不冗余,能够捕捉关键结构。有效的子图结构才能更好的辅助原型学习。直接上公式:
s),服从Bernoulli,超参数r=0.7——表示节点保留的概率,边保留概率为r2。由于kl散度非负,且log <=KL(p||q),即可推得在原始图和原型已知情况下的子图条件分布与先验分布的对数似然比的期望减去两子图分布的kl散度小于等于条件分布与先验分布的 KL 散度的期望。通过优化右侧的kl散度损失,我们即可确保子图分布与先验分布接近且与原图原型强关联,防止子图提取过于随意,扩大不必要的噪声,同时保留关键信息。
原型学习:原型是一组可学习的参数向量,同时也是可解释性异常检测的核心载体,每个原型代表一个全局性的关键子图模式。有点类似于聚类,而原型则是锚点,每个样本会被分配给一个原型,由于正常样本占大多数的性质。原型周边聚集的即为正常共性,而远离原型的个别即为异常。那么GLADPRO是如何学习这个原型来获得全局的共性的呢,依旧从公式入手:
首先是对每个子图嵌入 (由GNN得到),计算其与所有原型的余弦相似度,根据相似度,将子图分配到相似度最高的原型簇。分配好后,我们需要让原型学习到簇内的紧凑表示,这里使用对比学习损失(InfoNCE)最大化子图嵌入与对应原型的互信息,即上述的公式。 分子为正样本,对分配到第m个原型簇的子图计算其与原型的相似度后经系数τ缩放。 分母为负样本,对未分配到第m个原型簇的子图,同样计算指数和。通过最小化该损失,模型会强化同一簇内子图与原型相似度高,不同簇则低,从而让原型成为该簇子图 “共性模式” 的精准代表。
原型坍塌:原型学习过程中必须引入正则化损失,从而防止原型坍塌,否则模型可能将所有的子图分配到同一原型,导致原型失去多样性。公式如下:
该损失降低意味着总相似度降低,子图被更均衡的分配到了各个原型,若子图被扎堆分配给单个原型,损失将增大。
GAE重构损失:GAE损失为辅助损失,帮助GNN在学习嵌入时更加稳定和准确,避免前言中提到的“特征坍塌”。其公式为:
核心原理为,输入GNN学习到的嵌入,通过嵌入间内积和激活函数得到重构的邻接矩阵,对原始邻接矩阵和重构的邻接矩阵时用F范数的平方计算重构损失。通过该损失,提升GNN编码的有效性。
解释性与原型过滤:正如原型学习部分提到的,如果一个子图嵌入远离任何原型,其相似度(cosine)越大,同时其异常得分越大。即:
N为子图嵌入向量个数,M为原型个数,分别计算子图嵌入分布的平均内部相似性,原型分布的平均内部相似性以及两个分布的平均交叉相似性的-2倍。若MMD2接近0则表示原型能较好的拟合子图分布,通过删除某原型测试MMD是否显著增大来判断该原型是否冗余。
03实验 实验部分主要看结果,使用了9个图数据集,包括2个真实世界数据集,3个合成数据集,4 个TU标准数据集,对比基线包括4个主流无监督GLAD方法及4类后验解释器与GLAD方法的组合。
GLADPRO在多数据集和基线模型上在异常检测和解释能力上均有较大的优势。
文中也对原型和关键子图进行了可视化:
从上到下为数据集,图中多次出现的关键子图,基线模型和文章提出的模型GLADPRO。 可以清晰的看出,GLADPRO确实有效的提取出了关键子图,识别出了全局性解释结构。
在Mutagen数据集中,全局解释同样清晰准确,识别出了NO2和NH2这类关键结构。