本文介绍了“作战智能体”(BattleAgent),这是一个结合了大型视觉语言模型(VLM)和多智能体系统(MAS)的详细仿真演示系统。这个新颖的系统旨在模拟多个智能体之间以及智能体与其环境之间在一段时间内的复杂动态互动。它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点。该模拟展示了智能体当前的能力,具有智能体与环境之间细粒度多模式交互的特点。它开发了可定制的智能体结构,以满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。BattleAgent 的技术基础为历史战役建立了详细和身临其境的场景,使智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。这些举措还有助于历史研究,因为传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,从而忽略了普通个人的经历。这种偏颇的文献记录导致我们对历史的理解存在相当大的差距,因为许多故事仍未被讲述。BattleAgent 利用当前人工智能(AI)的进步,为弥合这一差距提供了一些见解。它展示了人工智能在关键社会事件中重振人类方面的潜力,从而促进更细致入微的集体理解,推动人类社会的进步发展。对最终仿真结果进行了量化评估,显示了该方法的合理性能和有效性。
图 1:1346 年克雷西战役演示: 描绘历史交战中英法联军阵地的部队编队和运动,并标注关键地点和领导人。
智能体被定义为有能力感知周围环境并根据这些感知做出明智决策以完成特定目标xi2023崛的系统。大型语言模型(LLMs)zhao2023survey; fan2023bibliometric 的最新进展展示了令人印象深刻的推理能力huang2022towards; jin2024impact,表明它们具有作为智能体基础的潜力。这些模型在遵循指令zhou2023instruction; zeng2023evaluating;、解释命令以及模拟人类推理和学习过程wang2024llms; wang2024tool; shen2024small方面表现出了非凡的能力。此外,大型视觉语言模型(VLM)zhang2024vision 的开发促进了支持多模式信息交互的各种智能体应用程序的创建durante2024agent; xie2024large。当与外部工具(物理或虚拟工具)相结合时,这些智能体采用 LLM 或 VLM 作为其推理骨干,以确定应如何处理任务、如何利用工具以及应在内存中保留哪些信息。这种增强功能使智能体能够管理一系列自然语言处理任务,并使用语言与环境互动。
使用 LLM 和 VLM 创建了大量智能体应用程序,重点是增强推理能力,du2023improving; chan2023chateval; sun2023corex; liang2023encouraging, production capabilities hong2023metagpt; liu2023bolaa; ge2023openagi; yang2023appagent; mei2024llm; ge2023llm, gaming gong2023mindagent; xu2023exploring; lan2023llm; hu2024survey, and social simulation pang2024self; zhou2024real; sreedhar2024simulating; xie2024can; hua2023war, among others. WarAgent hua2023war 是基于 LLM 的 MAS 模拟历史事件的先驱,它研究的是宏观层面的系统行为,如国家和政府,而不是微观层面的模拟战斗中发生的详细动态事件或个人在这种动态时间段中的经历。因此,BattleAgent 在 WarAgent 为历史事件仿真奠定的基础上,研究了 LLM 和 VLM 在详细历史情况复原和探索仿真中个人经历方面的潜力。
长期以来,历史研究一直致力于通过过去事件的视角来理解人类的经历。传统的历史叙事往往侧重于领导人和决策者的视角,而将普通人的经历置于阴影之下。这种选择性的历史研究方法给我们的理解造成了巨大的差距,因为士兵等普通参与者的故事和经历经常被忽视。这项研究背后的动机就是要解决这种不平衡现象,并利用人工智能的进步为历史事件提供更全面的视角。口述历史(shopes2011oral; portelli2002makes)一直是用来捕捉个人经历的一种方法,为历史事件提供了更加个人化的描述。然而,这种方法仅限于近代史,而且受到目击者可用性的限制,往往会留下许多未被发现的细节。随着我们离事件发生的时间越来越远,亲历者的声音也会逐渐消失,随之消失的还有丰富的历史画卷。
为了应对这些挑战,我们的研究引入了 BattleAgent,这是一个新颖的仿真框架,利用基于 LMM 的 MAS 来详细重建历史事件,重点是描述普通人(尤其是士兵)的经历。BattleAgent 可在复杂的地形和等级森严的指挥结构中模拟历史上的战斗,其中包含复杂的军事后勤和战略规划。作为模型的核心,我们精心制作了 30 个独立的士兵智能体,每个智能体都有丰富详尽的背景和鲜明的个性,从而为他们注入了活力和深度。BattleAgent 的设计目的是模仿和记录这些智能体的经历,捕捉他们在整个战斗过程中的行动、受伤情况、情绪反应和心理状态。通过分析这些元素,我们生成了个性化的叙事,反映了参与战争的普通人的多方面经历。这种方法不仅使这些智能体的行动和情感永垂不朽,而且还能在更广阔的历史冲突背景下,以细致入微的个性化视角审视普通士兵的经历。
为了模拟如此复杂的场景,模拟包含以下三个关键特征:
研究对历史分析和社会的贡献可归纳如下:
MAS为模拟复杂的交互和场景hua2023war提供了一个平台,彻底改变了人工智能的面貌。随着LLM推理智能的发展,特别是其在复杂场景中出色的推理能力fan2023nphardeval; fan2024nphardeval4v; zhang2024llm,MAS与人工智能系统的整合显示出其多功能性和有效性。MAS 最初分为推理增强系统、非玩家角色(NPC)多智能体玩家系统和生产增强系统,这对理解它们的不同应用具有奠基性作用。诸如 LLM-Debate du2023improving、ChatEval chan2023chateval 和 MAD liang2023encouraging 等著名的发展极大地推动了推理增强系统的发展。同样,在 NPC 多智能体系统中,生成式智能体 park2023generative 和 GPT-Bargaining fu2023improving 的出现为更多类似人类的智能体行为铺平了道路。在生产增强领域,MetaGPT hong2023metagpt 和 OpenAGI ge2023openagi 等创新简化并增强了软件开发中的协作努力。许多著作还探索了智能体在科学实验中的潜力 bran2023augmenting; hua2024trustagent; chen2023towards setting。
在人文和历史研究方面,"战争代理"(WarAgent)hua2023war 计划是应用基于 LLM 的 MAS 模拟国际冲突的典范,每个代理代表不同的国家,探索国际关系和冲突的动态。我们的研究以从 WarAgent 中获得的人道主义见解为基础,力求完善这一方法,从普通个人的视角出发,对历史场景进行细化模拟。转向关注历史事件中的微观体验,旨在利用 MAS 和 LLM 技术的进步,捕捉普通人在历史叙事中的细微视角,从而提供对过去更详细、更感同身受的理解。通过这样做,我们希望对历史关键时刻的人类经历进行更深入、更具包容性的研究,从而丰富对历史的理解。
多模式多智能体人工智能系统的最新进展进一步拓展了 MAS 的功能。AppAgent AppAgent 展示了作为智能手机用户的多模态代理的使用,增强了我们对人机交互的理解。AWS AWS 中的生成式人工智能和多模态智能体的整合释放了金融市场的新潜力。LLaVAPlus 在教会智能体使用各种工具方面的贡献为智能体的适应性和功能性开辟了新的途径。此外,"多模式行动链代理 "CoA 的实现为代理与数字界面的交互提供了新的视角,有助于在数字领域进行更直观的用户界面设计和更逼真的模拟。
BattleAgent 仿真是首个基于多模态模型的大型多智能体应用,它为历史和人文研究引入了一个新颖的定量维度,并强调了人工智能在理解人类历史和塑造未来情景方面的更广泛影响。通过探索其他历史路径和关键决定因素,我们的工作证明了 LMM 和 MAS 在提高我们对过去的理解力方面的重大贡献,并有可能引导一个更明智、更和平的未来。
多年来,使用计算方法模拟历史事件的追求有了很大发展。从人类模拟开始,过渡到人类-程序混合系统,最后到完全计算机化的模拟,每个阶段都带来了独特的见解和挑战hua2023war。迪克森(Dickson)的《迪克森 2002》(dickson 2002 road)概述的人体模拟提供了一种基础方法。在教育场景中,这种模拟涉及角色扮演练习,使学生能够深入了解历史事件的复杂性,如美国加入第一次世界大战。人机混合系统的出现,以国家间模拟模型 guetzkow1963simulation 及其各种应用 hermann1967attempt 为代表。这些系统将人类决策与计算过程相结合,为模拟国际冲突创造了一个更具活力和互动性的环境。然而,对人类输入的依赖在可扩展性和可能的分析深度方面仍然存在限制。
在过去十年中,利用计算能力创建更复杂的模拟发生了重大转变。OneSAF 目标系统(OOS)tolefson2008onesaf 和基于 JAVA 的比斯开湾潜艇战争模拟 hill2004using 就是最好的例子。这些模拟使用了详细的军事行动模型和博弈论,提高了历史分析的准确性和深度。最近,通过开发生成式人工智能方法,社会系统动态的高级模拟成为现实。尽管取得了这些进步,但要在这些模型中完全囊括人类行为的复杂性和历史数据的浩瀚性仍然具有挑战性。此外,全计算机模拟虽然可以实现三个阶段中最细致、最精确的模拟,但仍侧重于历史分析的全景式和高层次模拟,往往无法深入到国家或著名领导人视角之外的证人个体反思和细粒度分析。
"基于智能体的计算模型 "和 "生成性社会科学 "的思想,在21世纪e21pstein1999agent开始之前就已经是众所周知的理论。基于规则的智能体虽然可以重构复杂的社会行为,在一定程度上考察 "回溯未来 "ghaffarzadegan2023生成性,但往往无法保持类似人类的智能,而这正是模拟和理解人类社会的关键。即使是最先进的计算社会科学(CSS)方法,使用生成方法进行精细的历史分析似乎也不现实。当前的 CSS,尤其是在情感分析(fan2020stigmatization; yin2020using; li2023chatgpt)等领域,主要基于当代数据源。这给历史分析带来了巨大挑战,因为历史数据往往缺乏计算分析所需的粒度和数字格式。
研究通过在 MAS 框架内采用 LLM 来应对这一挑战。这种方法将现代人工智能的综合数据处理能力与 MAS 的复杂建模相结合,是历史模拟领域的一个新步骤。这种融合标志着与传统方法的重大差异,因为它试图克服历史研究中数据稀缺和质量的限制。通过利用先进的语言模型,我们可以推断、重建和模拟历史叙事和事件,其深度和准确性是以前无法达到的。因此,我们将这种精细模拟方法称为 "历史仿真"。
MAS 框架不仅模拟了单个智能体及其互动,还纳入了从有限历史数据中得出的更广泛的社会政治和经济背景。这种方法可以对历史事件进行更细致入微的探索,揭示形成这些事件的各种因素之间复杂的相互作用。因此,工作站在了历史仿真的最前沿,或者说,重新定义了 "历史仿真",将人工智能驱动的分析与传统的历史学术研究进行了独特的融合。这种协同作用旨在为历史事件提供新的视角,促进对过去及其对未来影响的细化、多样化和更深入的理解。
战场环境是高度动态和多变的,会出现许多不可预测的情况。针对这种复杂性,我们提出了一种动态代理结构 liu2023dynamic; han2024llm,使代理能够根据当前情况调整其组织配置。我们提出的动态智能体结构支持多种自适应机制,如图 5 所示:
图 5:智能体动态结构。
1.分叉:一个智能体可以决定分叉另一个自主智能体来完成特定任务,有效地分兵把口,分配资源,同时解决多个目标。
2.合并: 在一个智能体面临巨大压力却选择继续战斗的情况下,它可能会与最接近的盟友智能体合并,以整合力量,增强自身的应变能力。
3.剪枝: 在某个智能体不堪重负或从战场撤退的情况下,动态智能体结构会通过将该智能体从现役部队中剪枝来适应这种变化。
这种动态代理结构可以根据不断变化的战场情况做出灵活的自适应决策。例如,一个智能体可以分叉出一个子智能体,通过分配一部分士兵来创建一个自主智能体,负责收集周围环境的信息并将其传递回来。此外,该智能体还可根据形势要求,派遣自主子代理集中处理来犯敌军的特定部分。如果智能体缺乏应对当前局势所需的力量,它们可能会选择从地图上撤退或与其他智能体合并,以增强其综合实力。因此,我们的项目引入了一种动态多智能体系统,其中的智能体结构和数量可根据特定情况的需要进行调整。这种自适应方法使系统能够有效应对战场环境中出现的各种不可预测的挑战。