Social media platforms are plagued by harmful content such as hate speech, misinformation, and extremist rhetoric. Machine learning (ML) models are widely adopted to detect such content; however, they remain highly vulnerable to adversarial attacks, wherein malicious users subtly modify text to evade detection. Enhancing adversarial robustness is therefore essential, requiring detectors that can defend against diverse attacks (generalizability) while maintaining high overall accuracy. However, simultaneously achieving both optimal generalizability and accuracy is challenging. Following the computational design science paradigm, this study takes a sequential approach that first proposes a novel framework (Large Language Model-based Sample Generation and Aggregation, LLM-SGA) by identifying the key invariances of textual adversarial attacks and leveraging them to ensure that a detector instantiated within the framework has strong generalizability. Second, we instantiate our detector (Adversarially Robust Harmful Online Content Detector, ARHOCD) with three novel design components to improve detection accuracy: (1) an ensemble of multiple base detectors that exploits their complementary strengths; (2) a novel weight assignment method that dynamically adjusts weights based on each sample's predictability and each base detector's capability, with weights initialized using domain knowledge and updated via Bayesian inference; and (3) a novel adversarial training strategy that iteratively optimizes both the base detectors and the weight assignor. We addressed several limitations of existing adversarial robustness enhancement research and empirically evaluated ARHOCD across three datasets spanning hate speech, rumor, and extremist content. Results show that ARHOCD offers strong generalizability and improves detection accuracy under adversarial conditions.


翻译:社交媒体平台饱受仇恨言论、虚假信息和极端主义言论等有害内容的困扰。机器学习模型被广泛用于检测此类内容;然而,它们极易受到对抗性攻击的影响,即恶意用户通过细微修改文本来逃避检测。因此,增强对抗性鲁棒性至关重要,这要求检测器能够抵御多样化的攻击(泛化性),同时保持较高的整体准确性。然而,同时实现最优的泛化性和准确性具有挑战性。遵循计算设计科学范式,本研究采用一种序贯方法:首先,通过识别文本对抗性攻击的关键不变性并利用它们来确保在框架内实例化的检测器具有较强的泛化性,提出了一个新颖的框架(基于大语言模型的样本生成与聚合,LLM-SGA)。其次,我们通过三个新颖的设计组件来实例化我们的检测器(对抗性鲁棒的有害在线内容检测器,ARHOCD),以提高检测准确性:(1)集成多个基础检测器,以利用它们的互补优势;(2)一种新颖的权重分配方法,根据每个样本的可预测性和每个基础检测器的能力动态调整权重,权重使用领域知识初始化并通过贝叶斯推理更新;(3)一种新颖的对抗性训练策略,迭代优化基础检测器和权重分配器。我们解决了现有对抗性鲁棒性增强研究的若干局限性,并在涵盖仇恨言论、谣言和极端主义内容的三个数据集上对ARHOCD进行了实证评估。结果表明,ARHOCD具有很强的泛化性,并在对抗性条件下提高了检测准确性。

0
下载
关闭预览

相关内容

图对抗防御研究进展
专知会员服务
39+阅读 · 2021年12月13日
Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员