识别恶意用户对于确保互联网平台的安全性和完整性至关重要。已经建立了几个基于深度学习的检测模型。然而,恶意用户可以通过操纵他们的行为来逃避深度检测模型,使得这些模型几乎没有用处。这种深度检测模型在对抗攻击时的漏洞是未知的。本文提出了一种新的基于深度用户序列嵌入的分类模型对抗攻击模型,该模型利用用户帖子序列生成用户嵌入并检测恶意用户。在攻击中,对手生成一个新的帖子来欺骗分类器。我们提出了一种新的端到端个性化文本生成攻击模型,称为PETGEN,它同时降低了检测模型的有效性,并生成具有几个关键的理想属性的帖子。具体来说,PETGEN会根据用户的写作风格生成个性化的帖子,对给定的目标上下文有了解,知道用户在目标上下文上的历史帖子,并封装用户最近的主题兴趣。我们在两个真实世界的数据集(Yelp和Wikipedia,都有恶意用户的真实情况)上进行了广泛的实验,表明PETGEN显著降低了流行的基于深度用户序列嵌入的分类模型的性能。在白盒和黑盒分类器设置中,PETGEN在文本质量和攻击效能方面优于5个攻击基准。总的来说,这项工作为下一代的对抗感知序列分类模型铺平了道路。
https://www.cc.gatech.edu/~srijan/pubs/petgen-he-kdd2021.pdf