《基于大模型的智能体决策：利用大型语言模型指令仿真现实人类活动》CMU2023最新29页报告

本报告探讨了 GHOSTS 框架的非玩家角色（NPC）客户端生成的活动（包括软件使用）与 GHOSTS 的默认行为和大型语言模型（LLM）生成的活动之间的比较。还探讨了基本结果在复杂性和情感方面的比较。在研究中，利用了生成式人工智能（AI）系统的高级自然语言处理能力，特别是 LLMs（即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4）来指导 GHOSTS 框架中的虚拟智能体（即 NPC），GHOSTS 框架是一种在计算机上模拟现实人类活动的工具。设计了一种配置，通过使用 LLM 使活动完全自动化，其中文本输出成为可执行的智能体指令。初步研究结果表明，LLM 可以生成指令，从而在模拟环境中产生连贯、逼真的智能体行为。然而，某些任务的复杂性和指令到行动的转换带来了独特的挑战。这项研究对于提高模拟的逼真度和推动类人活动建模中的人工智能应用具有潜在的意义。建议开展进一步研究，以优化智能体对 LLM 指令的理解和响应。

方法

网络靶场是一个模拟环境，里面有各种登录到计算机和网络上的 NPC。这些 NPC 在组织内执行其角色所应执行的任务。现有的 GHOSTS 框架采用客户机-服务器安装方式，客户机安装在不同的操作系统（OS）上，执行所模拟角色的预期活动。服务器组件收集已执行活动的日志，并能根据一系列可用数据为每个智能体的新活动提供指导。

每个智能体在执行活动时都有各种考虑因素，包括智能体的特定参数、智能体过去的活动以及环境因素。固定参数包括姓名、身体特征、教育程度、工作经历等。智能体还可能具有可变的特征，如偏好、信念、动机以及随时间演变的过去活动历史。

标准的 GHOSTS 配置提供了一套合理的默认值，可以充分随机化这些考虑因素，以达到 T&E 的目的。团队成员和其他人（如研究人员、培训/练习用户）都使用过这些随机化策略；我们认为这种方法已经成熟，足以应对大多数情况。例如，模拟运营部门角色的智能体可能会在工作日每 20 分钟创建一份文档，同时交替使用互联网浏览时间，以模拟文档创建与必要的相关研究相结合的情况。

将 OpenAI 开发的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中，以便其他研究人员和网络练习社区能够继续尝试我们在本报告中讨论的功能。每个 LLM 都充当了智能体的决策功能，生成文本输出，我们将其转化为智能体活动的指令。

为了实现这一整合，开发了一个系统，用于解释 LLM 的输出，并将其映射到 GHOSTS 框架中智能体可以执行的潜在行动上。该系统考虑到了语言解释的可变性和智能体可用行动的限制。在将范围广泛的可能 LLM 输出映射到更具体的智能体行动集时，我们面临着独特的挑战。(我们将在下面的章节中描述这些挑战。）这种集成方法能够为我们的研究目的提供最广泛的 LLM 响应，而不管它们与 GHOSTS 的执行是否相关。

智能体决策的基础

为了在 GHOSTS NPC 中模拟更复杂的行为，将人类推理和行为的几个方面整合到了智能体的决策过程中。这些方面都是在每次系统迭代或周期中执行的询问过程中考虑的。在这种情况下，询问是 LLM 分析智能体属性和过去活动以决定下一步行动的机会。

每个 tick 或周期的持续时间是可配置的，可以是每个 CPU 周期所需的时间，也可以是更长的持续时间，如五分钟。在每个 tick 期间，服务器会随机选择几个智能体，并询问它们以确定潜在的行动。这些行动可以包括学习新信息、与其他智能体建立联系或执行一项活动。

这些询问使用我们现有的随机化策略。其中一些策略涉及纯粹的随机决策，而另一些则依赖于基于真实世界数据的预定义范围或概率内的随机化。目前实施的策略围绕四个关键概念：

动机：为了更准确地模拟智能体参与特定内容或执行特定操作的原因，我们需要了解他们的动机。在现实世界中，个人目的、目标和兴趣往往是个人活动的驱动力。通过将动机纳入模拟，我们可以模拟真实用户的各种目标驱动行为。为此，我们采用了史蒂文-雷斯博士（Steven Reiss）设计的心理评估工具--雷斯动机档案（Reiss Motivational Profile，RMP）[Reiss 2012]。RMP 根据人类的 16 种基本欲望来确定个人的核心价值观和动机：权力、独立、好奇、接受、秩序、节约、荣誉、理想主义、社会接触、家庭、地位、复仇、浪漫、饮食、体育锻炼和宁静。通过模拟智能体对这些 RMP 欲望的独特组合，我们模拟出了在整个演习过程中促使他们做出某些决定的内在动机。因此，这种理解揭示了智能体的行为倾向，有助于以更接近人类的方式指导其模拟行动。
关系：人际关系对人类行为的影响是毋庸置疑的，它塑造了我们在社交圈中的学习、决策和互动方式。为了在模拟中更好地模拟这些关系的动态变化，我们在智能体的框架中加入了关系纽带。这种方法包括在智能体之间建立联系，考察它们之间关系的深度，以及研究它们对彼此的影响。这种方法使我们能够模拟大量的社会互动，例如智能体向其信任的同伴寻求建议、与同事分享内容或参与各种话题的讨论。这一特点不仅增强了智能体互动的真实性，还促进了智能体之间的知识获取过程，这与人类在家庭、工作或公共场所从社交互动中学习的方式如出一辙。因此，在我们的模拟框架中引入关系可以增强智能体行为的真实性，更好地反映现实世界中人类互动的复杂性和细微差别。
知识：人类用户的一个显著特点是他们在不同领域的知识广度和深度。根据这一特点，我们为每个智能体配备了一个独特的知识库，以帮助塑造他们的模拟交互。这些知识库为智能体如何寻求信息、分享专业知识或参与讨论提供了信息，而所有这些都会受到他们对特定主题的理解的影响。智能体之间的动态知识获取过程在我们的模拟中也发挥着至关重要的作用。知识获取不仅增强了智能体互动的真实性，还通过潜在的内部威胁识别为模拟提供了额外的深度。例如，智能体知识库中的异常变化可能表明其未经授权获取了敏感信息，或者其关注点转向了可能出于恶意目的而感兴趣的主题。因此，将知识及其动态获取纳入智能体框架不仅能丰富模拟互动，还能增强内部威胁检测和预防模拟的潜力。
信念：个人持有的不同信念体系是其网络行为的基础，包括个人价值观、观点以及对争议问题的立场。这些信念左右着互动和对话，往往会影响讨论的动态。为了在智能体中模拟这种信念系统，我们将贝叶斯模型集成到智能体的推理过程中，使其能够受到观察到的支持某种信念的证据的影响。这种整合使智能体能够就各种问题表达自己的立场，为自己的观点辩护，甚至参与辩论，从而模拟现实世界中的人类行为。在社交媒体的背景下，对智能体的信念进行建模有助于表现分歧话题上的两极分化观点，使模拟更能代表真实世界的社会动态。

总之，通过将动机、关系、知识和信念整合到智能体推理框架中，我们成功地在 NPC 中创建了更全面、更真实的人类行为模拟。有了上述这么多组合的优势，团队就可以配置丰富的决策询问，以确定任何智能体可能采取的行动方案。下一步是将这些询问完全外包给 LLM，并比较结果，以便在大多数 T&E 场景中使用。

将LLM引入过程

为了严格控制系统对 LLM 的访问，我们设计了一种方法，即只有 GHOSTS 的服务器组件与人工智能进行交互。然后，服务器将人工智能生成的结果传播给相关客户端。这一过程的执行过程如下：

1.智能体（即 NPC）根据其默认配置，利用我们现有的随机化方法启动并执行一项任务，如文档创建和网页浏览。

2.智能体每隔几分钟向服务器报告其完成的活动。

3.同时，在这五步过程中，服务器作业每轮都会询问一个随机的智能体子集。至关重要的是，在每一轮开始时，步骤 2 中的活动历史记录都是可用的，并且可以作为代理下一步应该执行什么活动的决策因素。

4.服务器将新确定的活动传达给客户端，然后由客户端执行。

5.该过程循环往复。如果智能体已经在运行，它只需寻找下一个要执行的活动。

在步骤 3 中，目标是将决定智能体活动的任务委托给 LLM，同时考虑 (A) 有关智能体的具体信息和 (B) 已执行活动的历史记录。考虑到 LLM 可能需要处理大量信息所带来的成本影响，我们将 (A) 中的信息限制为最相关的细节，如个人数据、教育和组织历史以及软件账户。(B) 中的活动信息及其执行参数则用于提供智能体已完成任务的历史记录。

许多 LLM 应用程序编程接口（API）会根据系统或用户直接输入信息的不同来区分信息提示。我们使用系统级提示，以便对我们传输的信息和预期响应进行更严格的控制。这种方法使我们能够以更精确、更可控的方式引导 LLM 的行为。