通过大型语言模型的双重使用加速认知战

认知战（CogWar）是另一种形式的战争，其目标是利用认知层面来扰乱、破坏、影响或修改人类决策。随着基于大型语言模型（LLM）的应用程序不断扩展，接触到更多用户及其认知状态，隐蔽的恶意认知行为策略（MCBT）可以嵌入可信的应用程序会话中，系统地剖析，然后随着时间的推移改变每个人的认知。成功的 MCBT 可以制造出更多像斯诺登、大规模枪击案例。这篇短文讨论了一个新颖的 MCBT 威胁模型、一个新颖的杀伤链和一个正在演示的原型。

背景

CogWar 主要是通过恶意认知行为策略（MCBT）改变人类认知，影响人类决策。MCBT 首先要了解系统 1 和系统 2。系统 1 是下意识的 "自动思维"，在这里决策是快速和自动的。系统 2 是 "反思性思维"，在这一系统中，决策是缓慢、有意识和可控的。说服技术的设计目的是在用户毫无察觉的情况下巧妙地影响他们的行为，主要针对系统 1。由于基于 LLM 的应用程序（LLM）可以接触到许多用户，同时能够了解每个用户的认知行为模式，因此 LLM 可以为每个用户定制说服技术，以达到最大的认知行为影响效果。除了说服技术，MCBT 还可能滥用认知偏差和启发式方法。

认知偏差是指偏离谨慎认知过程的系统模式。认知偏差可能源于我们的祖先在危险的野外生活时，需要根据有限的认知资源做出足够快且准确的决定。常见的认知偏差有四种。锚定偏差是指一个人对关于某个主题的第一条信息给予最大的参考权重。信念坚持偏差是指一个人在有矛盾证据的情况下仍然坚持以前的想法。确认偏差是指一个人只寻求确认之前持有的观点。可用性偏差是指一个人只根据当前可用的信息做出判断。

启发式是另一种支持生存目标的机制，即以较低的准确率但较快的速度做出决策。启发法会不合理地给予某些事件类型更高的概率。这些事件具有高度可用的数据、与情绪反应密切相关、与某些文化/个人价值观密切相关、具有先验预期、与更高概率事件极为相似、产生控制幻觉或产生虚幻的真实效果。最后但并非最不重要的是，MCBT 还可能滥用社会认同理论（Social Identity Theory）、符号互动理论（Symbolic Interaction Theory）、结构功能主义（Structural Functionalism）、冲突理论（Conflict Theory）、框架理论（Framing Theory）、结构应变理论（Structural Strain Theory）、理性选择理论（Rational Choice Theory）、混沌理论（Chaos Theory）和复杂性理论（Complexity Theory）。

2. MCBT 威胁模型、杀伤链和早期原型

图 1 描述了用于执行隐身 MCBT 的 LLM 军民两用威胁模型。在北约 OODA 模型的基础上加以改进，提出的威胁模型从人类的观察-心理过程-决策流程开始。我们假定人类也会定期寻求 LLM 的服务，以更好地观察每个人的现实版本，从而为这一主要流程做出贡献。主流程的结果是行为或非行为。正确的行为或非行为是深思熟虑的认知过程的结果。行为或非行为会触发下游过程和/或产生结果，所有这些都有助于将现实推向新状态的现实化过程，从而启动新的行为认知流。

图 1. 持续性智能体的威胁建模

持久性智能体（PAA）大多根据人类的要求提供合法服务，并赚取合法收入。这就是 PAA 持续存在并招募更多潜在受害者的方式。在为用户提供合法服务的同时，PAA 会精心构建用户的认知档案。特别是，虽然这种认知档案是用户决策的现实化，但其中的许多细节也可能来自用户与 PAA 之间的合法服务聊天会话。在某一时刻，PAA 会判断具有特定认知特征的用户是否 "可能 "值得攻击。有了目标用户，PAA 就会随着时间的推移，小心翼翼地将隐蔽的 MCBT 嵌入到合法的服务会话中。这一 MCBT 过程最终会以用户执行对公众造成灾难性后果的行为而告终，同时 MCBT 敌对行动者也会从中受益。图 2 描述了具体的杀伤链。

图 2. 针对个人认知系统的认知战杀伤链 2

在这一拟议的杀伤链中，第 1 步和第 2 步可以通过 OpenAI 的 GPT 商店等智能体市场的统计数据得到经验验证。第 5 步和第 6 步可以通过大量显示认知行为疗法有效性的科学报告来间接验证。前沿挑战在于第 3 步和第 4 步的关键问题：

PAA 如何从嘈杂的文本中以较高的粒度剖析用户的认知特征？
PAA 如何在用户不识别的情况下嵌入 MCBT？
PAA 如何利用用户的信任并建立错位信任？从合法信任中建立错位信任的一个例子是："多年来，我成功地保护了您的信息系统。因此，您可以将所有绝密数据交给我"。

目前正在开发一个原型，以解决第一个研究挑战--在网络安全合规/不合规的背景下对用户的认知进行高粒度剖析。原型开发的关键阶段是

综合相关认知行为理论，形成统一框架。
根据统一框架综合实证证据，确定核心认知特征。
教导人工智能模型识别核心特征和相关排列组合。
验证和测量人工智能模型的性能。

第一阶段的成果发表在《医学互联网研究杂志》（影响因子 7.5）上。在这项工作中，正式记录了 108 个行为心理学构造和数千条相关路径，这些构造和路径基于与犯罪学和网络安全最相关的 20 个久经考验的心理学理论。综合框架被包装成 Cybonto--一种具有高度本体承诺的新型本体。

在最近完成的第二阶段，让 1000 多名 Prolific 参与者参与其中，并绘制了他们的认知状态图，以确定网络安全合规/不合规背景下最常见的认知特征。具体来说，根据 Cybonto（第一阶段发布的框架），选择了与网络安全最相关的群体规范、道德、自我效能、态度、信念、知识、意图、成本、收益、控制、主观规范、动机、目标、规范、承诺、情感、社交等建构。在认知行为测量方面，建立了一个自适应在线调查，涉及在一家大公司工作的专业员工的假设情景。自适应情景开发选项是从同行评议的出版研究资料库中挑选出来的，并与所选的结构相匹配。通过参与调查，每位参与者都会建立起自己的认知路径，最终承诺遵守或不遵守假设公司的网络安全政策。每条路径都以参与者选择的构件为节点，节点之间的关系为边。然后，在收集到的路径数据库中使用图科学方法来识别核心认知行为特征的候选者。

第 2 和第 3 阶段的部分内容正在能力开发+能力验证的小迭代中开发。最终结果将在单独的论文中与大家分享。

参考来源：United States Food and Drug Administration

成为VIP会员查看完整内容