图神经网络是一种很受欢迎的模型,在很多基于图的学习任务中都很有效,但它在对抗攻击时很脆弱。虽然大多数文献关注的是节点级分类任务中的这种脆弱性,但很少有人致力于分析针对图级分类的对抗性攻击,图级分类是生物化学和社会网络分析等众多现实应用中的一个重要问题。少数现有的方法通常需要不切实际的设置,如访问受害者模型的内部信息,或不切实际的大量查询。本文提出一种新的基于贝叶斯优化的图分类模型攻击方法。我们的方法是黑盒,查询效率高,相对于所应用的扰动来说非常简洁。我们在涉及不同的图属性、约束和攻击模式的广泛的图分类任务上验证了该方法的有效性和灵活性。最后,我们分析了产生的对抗样本背后的常见可解释模式,这可能会进一步阐明图分类模型的对抗鲁棒性。
https://www.zhuanzhi.ai/paper/c1922530a0966638a8a68222977250cc