As one of the most popular machine learning models today, graph neural networks (GNNs) have attracted intense interest recently, and so does their explainability. Users are increasingly interested in a better understanding of GNN models and their outcomes. Unfortunately, today's evaluation frameworks for GNN explainability often rely on synthetic datasets, leading to conclusions of limited scope due to a lack of complexity in the problem instances. As GNN models are deployed to more mission-critical applications, we are in dire need for a common evaluation protocol of explainability methods of GNNs. In this paper, we propose, to our best knowledge, the first systematic evaluation framework for GNN explainability, considering explainability on three different "user needs:" explanation focus, mask nature, and mask transformation. We propose a unique metric that combines the fidelity measures and classify explanations based on their quality of being sufficient or necessary. We scope ourselves to node classification tasks and compare the most representative techniques in the field of input-level explainability for GNNs. For the widely used synthetic benchmarks, surprisingly shallow techniques such as personalized PageRank have the best performance for a minimum computation time. But when the graph structure is more complex and nodes have meaningful features, gradient-based methods, in particular Saliency, are the best according to our evaluation criteria. However, none dominates the others on all evaluation dimensions and there is always a trade-off. We further apply our evaluation protocol in a case study on eBay graphs to reflect the production environment.
翻译:作为当今最受欢迎的机器学习模型之一,图形神经网络最近引起了人们的极大兴趣,也引起了人们的极大兴趣。用户对更好地了解GNN模型及其结果越来越感兴趣。不幸的是,今天GNN解释性评价框架往往依赖合成数据集,导致由于问题缺乏复杂性而得出范围有限的结论。GNN模型被部署到更关键的任务性应用领域,因此我们迫切需要有一个关于GNN的可解释性方法的共同评价协议。在本文中,我们建议,根据我们的最佳知识,GNN解释性的第一个系统评价框架,考虑对三种不同的“用户需要”的解释性:解释重点、掩码性质和掩码转换。不幸的是,今天GNN的可解释性评价框架往往依赖合成数据集,导致由于问题缺乏复杂性,结果范围有限。由于GNNN模式被部署到更关键的应用到更具有代表性的应用,我们广泛使用的合成基准,如个人化的PageRank电子评估等令人惊讶的浅显技术,总是反映最佳的“用户需要 ” 解释性: 解释性重点, 、 性质 、 以及掩码性 、 和 度 度 度 等 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度 度