依托大语言模型(LLMs)生成大规模个性化拟人内容的能力,AI代理正在重塑信息作战格局。本文提出一种AI沙盒环境,用于测试针对LLM驱动影响力攻势的三类策略——防御型、进攻型与反思型。在AI代理间对抗模拟中,红队机器人试图操控模拟公民的认知观点,蓝队机器人则实施实时反制。防御策略依赖“反信息代理”破除虚假信息,但面临人类控制力不足的困境;进攻策略采用自动化提示注入干扰恶意机器人,兼具战术优势与伦理争议;反思策略允许用户上传个人档案以观察机器人如何利用其弱点,提供具有自我反思特质的“AI镜像”体验,增强对抗性素养。这种参与式方法通过公众与AI技术的直接互动提升社会韧性,赋能公民识别影响力战术并积极参与公共话语防御。通过将人类控制权从被动保护转向主动公民参与,该AI沙盒为AI时代应对信息战提供了创新模型。
本文探讨了一种创新方法:通过AI代理模拟(即“AI沙盒”)帮助公民与利益相关者理解并应对敌对信息作战(亦称影响力行动)。研究针对大语言模型(LLMs)驱动的个性化AI代理,提出缓解其大规模信息操纵能力的策略。AI代理可生成高度个性化定向内容,其潜在影响公众认知、传播虚假信息及削弱民主机构信任的能力构成重大风险。在模拟中,我们通过AI代理红蓝队对抗开发并测试AI驱动的威胁缓解策略。从战术反制到旨在增强社会韧性的参与式AI素养培养,核心挑战在于探索人类对AI代理的控制边界,并将控制权从被动防护转向主动参与与认知提升。具体而言,聚焦防御型、进攻型与反思型三类缓解策略。
防御策略中,“蓝队”AI机器人向遭受“红队”机器人(传播虚假信息、恐惧与敌对叙事)攻击的公民提供事实信息。进攻型缓解是超越反信息传播的战术干预,蓝队机器人通过提示注入攻击直接干扰红队代理行为。反思型策略则是AI赋能的素养干预,允许个体创建自身代理表征并观察恶意机器人如何利用其数字人格漏洞。此策略中,蓝队机器人充当“镜子”帮助用户认知弱点并直面AI操控。该干预不仅旨在保护公民免受对抗攻击,更着重培养其对抗性AI素养,使其具备识别与防御AI战术的能力。这些策略共同构成包含公众参与AI系统的创新型AI驱动影响力行动应对方案。
本研究采用开源Langchain AI代理框架与应用(GPTeam),通过分支改造支持AI沙盒设计的探索性研究。沙盒方法为实验AI代理修辞策略、测试提示工程漏洞及反思AI代理与模拟在塑造与维护公共审议中的作用提供独特路径。重要目标在于探索公民如何应对日益被LLM驱动智能代理与机器人共占的信息空间。Akamai《互联网现状报告》等研究强调此类研究的紧迫性,指出目前机器人已占网络流量的42%,其中近三分之二具有恶意性。
本文所述“AI代理”指代一种个性化系统,其通过大语言模型(LLMs)自主执行用户任务,实现与其他代理或系统的交互、处理与响应。当前AI代理已超越简单对话功能,可应用于决策制定、问题解决及外部系统交互。其应用领域扩展至IT自动化、软件设计及社会科学研究——例如模拟不同人口群体的行为与观点。在信息作战中,这些代理可驱动僵尸网络大规模生成与投送个性化内容,使个体难以察觉被瞄准或操控。然而,由于该趋势的微妙性与新颖性,LLM驱动AI代理在信息战中的应用仍鲜见文献探讨。
本研究探索如何在受控沙盒环境中研究常被滥用于操控目的的AI代理,为人类控制其应用提供依据。这些被称为“AI沙盒”的干预措施支持公众实验新兴AI技术应用,使公民积极参与应对技术、社会与政治挑战,促进具备知情权的参与式对抗性AI素养培养。AI沙盒允许模拟AI驱动影响力行动,实验防御、进攻与反思策略并测试缓解战术。鉴于现有干预措施常因过度家长式作风加剧不信任与极化,本研究强调个体与社群面对影响力行动时的政治能动性。有效对抗AI操控不仅需第三方保护公民与利益相关者,更需赋能其工具与能动性以主动介入系统。