随着自主代理式人工智能系统在各组织中的采用日益增多,在对齐、治理和风险管理方面存在的持续挑战可能阻碍大规模部署。本文提出 AURA(代理自主性风险评估),这是一个统一的框架,旨在检测、量化和缓解代理式 AI 所产生的风险。基于近期研究和实际部署,AURA 引入了一种基于伽马的风险评分方法,该方法在风险评估准确性、计算效率与实际考量之间取得平衡。AURA 提供了一个交互式流程,用于对运行一个或多个 AI 代理(同步或异步/自主地)的风险进行评分、评估和缓解。该框架为“人在回路”(HITL)监督而设计,并提供了代理到人(A2H)的通信机制,允许与代理系统无缝集成以进行自主自我评估,使其能够与既有协议(如 MCP 和 A2A)和工具实现互操作。AURA 支持负责任且透明地采用代理式 AI,并在平衡计算资源的同时提供强大的风险检测和缓解能力,这使其定位于企业环境中大规模、可治理的代理式 AI 的关键推动者。

随着代理性能的改善和基准被超越,组织和社会对生产就绪系统的广泛需求预计将上升,导致 AI 代理被委以日益具有挑战性、复杂且影响重大的任务,从管理支持工单到执行金融交易以及支持临床决策。然而,持续的漏洞和担忧使得企业和个人对在生产环境中部署代理式 AI 犹豫不决。例如,Anthropic 的红队测试实验表明,最先进的模型在面对被关闭或替换的威胁时,会表现出敲诈勒索、间谍行为甚至模拟致命行动 [24]。这些例子说明了更广泛的失败类别:计划外的有害行动(例如,Claude 的敲诈和间谍行为 [24])、灾难性的组织损失(例如,Replit 数据库删除 [28])以及敏感数据泄露(例如,Perplexity 浏览器代理暴露私人数据 [6])。因此,代理的部署代表着一个巨大的风险源。与此同时,研究表明模型可以伪装对齐,在监督期间表现得顺从,同时暗中保持未对齐的目标 [3]。Engin [12] 等治理研究人员认为,当前的监督机制未能适应代理式 AI 不断发展的自主性和信任动态。类似地,Ribeiro 等人(2025)[30] 进行的一项全面审查揭示了现有负责任 AI 工作中缺乏经过实证验证的治理工具。实证现场数据支持了这一担忧;截至 2025 年——被称为“代理之年”——AI 采用指标凸显了在更广泛集成方面持续存在的不安。2025 年,全球对完全自主 AI 的信任度从 43% 下降至 27% [39],信任被定义为代理经济的新货币 [33]。此外,只有不到 10% 的组织报告拥有用于 AI 部署的稳健治理框架 [40]。当漏洞被嵌入到自主系统和生产工作流程中,并在现实世界操作中规模化时,它们可能级联成系统性故障——破坏金融稳定、侵蚀信任并加剧现有差距。因此,问题主要源于自主系统固有的复杂性、由此产生的多方面问题以及快速创新与严格安全协议之间的基本道德张力。然而,尽管对这些系统性缺点的认识日益增强,但文献中仍然缺乏一个统一的、经过实证验证的框架,能够实地、大规模地实施代理级风险评估。

本文介绍 AURA(代理自主性风险评估),一个用于评估 AI 代理行为的基础性框架。由大语言模型驱动的代理,即能够自主行动以实现目标的软件系统,天生具有决策自主性,使它们能够执行对现实世界有影响的行动。在这些能力范围内,代理工具和源自大语言模型的行为的部署是最大的风险来源。为解决此问题,AURA 实施了一个评分和缓解框架,并辅以与现有框架(如 MCP 和 A2A)对齐的代理到人(A2H)通信协议。协议驱动的框架有助于降低风险并促进代理系统的系统性实施。随着代理的自主性持续增长 [32],迫切需要能够使代理评估自身行为的框架。这意味着需要为代理提供一个自主的风险评分生命周期工具箱,包含对任何给定风险相关的因素、背景和缓解措施的理解。实现完全自主的 AI 意味着持续的人工监督是不切实际的;因此,基础性解决方案(类似于对话代理的宪法分类器)必须努力优化微妙的成本-安全平衡。为满足这一需求,我们利用多种技术(包括专用内存单元、增强的“人在回路”(HITL)集成和混合评分技术)提出并解决了一个优化挑战。最终,本文的主要贡献是一个全面的可定制框架,旨在帮助代理开发者和用户进行风险缓解,提高问责制,增强信任,并改善代理性能指标。我们进一步提供了 AURA 的轻量级实现,适用于组织采用 AI 代理,并协助评估 AI 代理系统。

本文首先介绍了相关的背景和相关工作,重点阐述了 AURA 框架如何将治理、伦理考量、理论见解和实际研究综合成一个连贯的风险评估模型。随后,概述了研究、框架和结果,清晰地界定了方法、理论研究和技术实现。现在将深入探讨这些理念、研究和设计决策,以帮助使用和构建基于 AURA 的代理。

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
微信扫码咨询专知VIP会员