Large language model (LLM)-based multi-agent systems (MAS) have shown strong capabilities in solving complex tasks. As MAS become increasingly autonomous in various safety-critical tasks, detecting malicious agents has become a critical security concern. Although existing graph anomaly detection (GAD)-based defenses can identify anomalous agents, they mainly rely on coarse sentence-level information and overlook fine-grained lexical cues, leading to suboptimal performance. Moreover, the lack of interpretability in these methods limits their reliability and real-world applicability. To address these limitations, we propose XG-Guard, an explainable and fine-grained safeguarding framework for detecting malicious agents in MAS. To incorporate both coarse and fine-grained textual information for anomalous agent identification, we utilize a bi-level agent encoder to jointly model the sentence- and token-level representations of each agent. A theme-based anomaly detector further captures the evolving discussion focus in MAS dialogues, while a bi-level score fusion mechanism quantifies token-level contributions for explanation. Extensive experiments across diverse MAS topologies and attack scenarios demonstrate robust detection performance and strong interpretability of XG-Guard.


翻译:基于大语言模型(LLM)的多智能体系统(MAS)在解决复杂任务方面展现出强大能力。随着MAS在各种安全关键任务中自主性日益增强,恶意智能体检测已成为关键的安全问题。尽管现有基于图异常检测(GAD)的防御方法能够识别异常智能体,但这些方法主要依赖粗粒度的句子级信息,忽视了细粒度的词汇线索,导致检测性能欠佳。此外,这些方法缺乏可解释性,限制了其可靠性和实际应用潜力。为应对这些局限,本文提出XG-Guard——一种用于检测MAS中恶意智能体的可解释细粒度防护框架。为融合粗粒度与细粒度文本信息以识别异常智能体,我们采用双层智能体编码器联合建模每个智能体的句子级与词汇级表征。基于主题的异常检测器进一步捕捉MAS对话中动态演变的讨论焦点,而双层分数融合机制则量化词汇级贡献以提供解释。在不同MAS拓扑结构和攻击场景下的大量实验表明,XG-Guard具有稳健的检测性能和强大的可解释性。

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
专知会员服务
81+阅读 · 2021年5月30日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
专知会员服务
81+阅读 · 2021年5月30日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员