近年来,渊亭科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊亭科技凭借在军事智能化领域的深厚积累,重磅推出《军事大模型评估体系白皮书》。

**

**

**

**

白皮书全面地梳理了军事大模型能力评估的行业特殊性和关注要素,并按照评估框架、评估标准、评估手段、评估数据、评估工具、评估平台等6大方向,系统性阐述了军事大模型评估过程中的最佳实践,预期能为行业内开展军事大模型的能力评估提供体系化的参考。

其中,评估框架以架构能力、基础能力、平台能力、应用能力、安全能力等5大能力为基石,深入探讨了大模型评估的具体方法。

**架构能力:**围绕大模型应用系统,在准确性、健壮性、兼容性;可解释、可评估、可伸缩;高扩展、高可用、高运维角度进行全面阐述。

**基础能力:**通用基础能力集成行业主流的通用评估方法,军事基础能力提供针对军事特性的领域评估手段。通过贯通评测任务构建-评测执行-评测结果分析-评测报告生成,定义高度自动的基础能力评估工具集。

**平台能力:**针对大模型开发、训练和部署基础平台,对数据生成、开发训练、应用编排、会话管理等关键能力进行全面性和效果评估。

**应用能力:**提炼强敌研究、指挥作战、装备研制、训练管理、联勤保障等方向的典型应用场景,定义针对场景的标准评估手段,结合业务特性快速实施评估。

**安全能力:**设计面向对抗攻击、内容伪造、数据泄露等方向的评估手段,综合评估大模型的安全性和可靠性。

成为VIP会员查看完整内容
114

高级任务工程:杀伤网用例

  • 机遇与挑战:
    • 在战场上,有多种途径可将分布式系统与 C2 连接起来
      • 发现、固定、跟踪、瞄准、交战、评估(F2T2EA)杀伤链由分布在空间和时间上互锁的系统完成,这些系统作为一个系统的系统发挥作用
      • 分布式系统为多个任务连接在一起,形成杀伤路径、杀伤网和杀伤网
      • 并非所有系统都能相互通信
    • 如何评估和分析这种嵌套杀伤链的巨大设计空间(如 10 万种组合),并在动态任务执行过程中自适应地选择最有前途的杀伤路径?

杀伤网分析和评估

成为VIP会员查看完整内容
83

最近在乌克兰的行动证明,引入新技术、战术、技巧和程序可以极大地影响 21 世纪的战场。美军正在将从这次冲突和其他近期冲突中吸取的经验教训融入联合全域指挥与控制(JADC2)作战概念。美国防部正在寻求通过 JADC2 实现决策优势,"在战争的各个层次和阶段、跨所有领域并与合作伙伴一起产生感知、理解和行动的作战能力,以相关性的速度提供信息优势"。虽然这一定义抓住了 JADC2 的目标,但对如何实现这一目标却知之甚少。本文利用 OODA 循环和一个项目融合用例(湿隙穿越)来说明人工智能 (AI) 将如何在这种复杂而相关的场景中通过降低风险来实现决策优势

图:在 OODA 循环中应用边缘人工智能 (AIAE) 加快决策能力,提高决策优势

最近在乌克兰的行动再次证明,在 21 世纪的战场上,引进新技术和战术、技术和程序可以产生重大影响。美军正在利用从这次冲突和其他近期冲突中吸取的经验教训,并将其纳入联合全域指挥与控制(JADC2)作战概念。最近由美国防部(DoD)赞助的实验(包括各军种、作战司令部和盟国的参与)重点关注日益复杂的局势,以深入了解 JADC2。

这种方法希望利用人工智能(AI)、机器学习(ML)、自主性和其他先进能力更好地连接传感器和射手,缩短对对手产生致命和非致命影响的时间,从而影响多域行动。降低作战人员和决策者的认知负荷以及缩短从探测到交战决策的时间以获得优势等目标,只是国防部正在应对的需求、风险和技术挑战中的一部分。

决策优势

与过去的其他冲突一样,21 世纪的冲突将取决于决策优势,谁能最好地利用和确保信息,在最短的时间内做出最明智的决策,谁就有可能获胜。决策优势被定义为比对手更快地吸收、分析从战场上获取的信息并采取行动的能力。

纵观历史,决策优势始终是决定战斗和冲突胜负的关键。现在,面对日益增长的中国威胁,美国的作战能力和能力优势正在急剧缩小,在这样一个时代,实现决策优势比以往任何时候都更加重要。由于其他国家和非国家行为者在全球范围内迅速扩散技术,实现决策优势也变得更具挑战性。

电信、传感器、处理能力和武器的进步,以及太空和网络空间作为作战领域的作用日益增强,从根本上改变了战争中指挥与控制的特点。有鉴于此,国防部正寻求通过联合作战指挥与控制2实现决策优势,"在战争的各个层次和阶段,在各个领域,与合作伙伴一起,产生感知、理解和行动的作战能力,以相关的速度提供信息优势"。但是,尽管这一定义抓住了 JADC2 的目标,却对如何实现这一目标知之甚少。

共享情报

为了使 JADC2 概念成为现实,各军种都在分析自己在实现这一愿景方面的贡献。虽然许多军种都在专注于创建一个全球目标系统,以实现发现、固定、跟踪、瞄准、交战和评估等杀伤链功能,但也有一些军种正在研究 JADC2 如何协助实现决策优势,以便将部队机动到优势位置,阻止对手实现其目标。

美国陆军最近接待了空军、海军、海军陆战队,并首次将国际合作伙伴和盟国纳入其中,在其年度现代化实验中整合技术并测试多域作战: 2022 融合项目"。陆军的第三个年度 "聚合项目 "通过在多个地点举行一系列基于各种作战场景的实验和活动,对该军种的范围和能力进行了测试。

来自美国、英国和澳大利亚的作战人员用数周时间测试了约300项技术和新的作战概念,以展示各军种有朝一日如何作为一支联合部队作战。这些实验和其他实验有助于形成跨组织协作、确定技术投资的优先次序以及完善平台和系统需求文件,从而为未来作战环境的构想提供信息。

通过这些不同的实验,发现一个共同的主题,即未来作战需要跨国家、跨领域和跨技术的协作,以确保互操作性并实现 JADC2 的愿景。无论在哪种情况下,假设的对手都可能是近邻竞争对手,并将寻求在无法保证美国空中或其他领域优势的情况下实现反介入/空中拒止(A2AD)环境。

确定技术挑战

包括全球定位系统卫星在内的美国天基资产可能会被削弱。人们还认为,带有人机界面的人工智能/ML 能力将做出最终目标定位和其他决策,而先看、先理解、先行动和先决策的能力将为哪一方获胜提供关键优势。同样显而易见的是,工业界、学术界和联盟伙伴在为存在的各种差距和挑战寻找技术解决方案方面至关重要。

本文旨在探讨新的创新技术解决方案如何有助于利用有人和无人系统在陆地领域实现决策优势。本文将确定并讨论关键技术挑战和风险,以及潜在的技术材料解决方案。实现 JADC2 需要在条令、组织、培训、物资、领导力和教育、人员、设施和政策方面进行重大变革,但本文将只关注物质解决方案。

当前地面战中的人工智能

认识到数据是一种战略资产,并在多域行动中采用全局性的整体方法,将有助于推进 JADC2 计划,并提高各军事任务的决策优势。值得注意的最复杂地面场景之一是湿式间隙穿越作战,这对机动部队接近和摧毁敌军非常重要。(图 1)

然而,在计划和执行这些关键行动时,后勤保障面临着明显的挑战。(图 2)一旦成功实施,湿式间隙穿越作战就能提供战争中最有价值的基本要素之一--速度。速度是掌握主动权、防止敌人侦察和取得成功的关键。执行安全高效的湿式间隙穿越行动可以让友军为成功创造必要条件。

俄罗斯部队最近在乌克兰的一次失败的湿式间隙穿越突显了与这一复杂行动相关的许多挑战和风险。俄军在试图穿越横跨乌克兰东部 Siverskyi Donets 河的浮桥时,损失了两个或更多营的兵力--可能有 100 辆车和一千多名士兵。

在对这一失败场景进行评估时,本文将探讨进行湿式间隙穿越行动的主要风险,以及使用人工智能/移动式语言和其他关键技术的潜在技术解决方案。

图 1:湿隙交叉口的描述

图 2:规划和执行湿式间隙穿越作战时的典型分析

分析风险

由于未来大多数入侵资产都可能使用无人或可选有人系统,因此需要确保大量数据的安全,并通过战术网络进行传输,以同步执行侦察与安全、机动、火力、后勤和其他作战功能。在宏观层面,JADC2 需要通过各种分布式传感器收集大量数据,并将其处理为可操作的信息。

战略、作战和战术层面的利益相关者利用由此产生的信息流中的相关要素,以最佳方式执行任务。整个系统通过一套强大的通信链路连接在一起。这并不意味着每个人都能接收到所有信息,因为那样每个人都会被数据淹没。相反,这需要分配正确的信息,使各组织能够在其特定责任领域取得更好的效果。以下是材料解决方案需要应对的其他风险:

  • 如果无法在间隙穿越地点实现出其不意,那么在穿越过程中出现人员伤亡和任务失败的几率就会很高。

  • 如果穿越点缺乏指挥和控制(C2),那么友军很容易被对手的致命和非致命火力摧毁和削弱。

  • 如果网络保护不足或缺乏安全的空中更新,那么无人系统或可选择的有人系统就会被对手欺骗或接管,从而破坏缺口穿越行动。

  • 如果友军处理传感器和射手数据的能力下降,那么由于机动、火力和其他作战功能之间缺乏同步,成功穿越缺口的可能性就会降低。

  • 如果联合和联军的 C2 系统不能互操作,那么同步作战功能以确保成功穿越行动的能力就会降低。

技术挑战的解决方案

在决策过程中应用和评估技术需要一个模型。OODA 循环--观察、定位、决策、行动--是一个众所周知、广为接受的模式,尤其是在作战人员群体中,因为它的起源。它是由美国空军上校约翰-博伊德(John Boyd)提出的概念,是各领域决策和行动的典范。

OODA 循环描述了决策和行动的四步流程。首先,观察环境并收集信息。然后,通过分析信息并理解其含义,为自己定位。然后,根据观察和定位,决定采取什么行动。最后,根据决定采取行动。

OODA 循环强调决策和行动中速度和灵活性的重要性。我们的目标是尽可能快速高效地完成这一循环,以便适应不断变化的环境,并在机会出现时加以利用。

通过观察上图,利用人工智能实现决策优势有两个关键的考虑因素:

  • 人工智能(AI)处理适用于每个部分
  • 尽量减少四个步骤之间的延迟

前面在 "湿隙穿越 "场景中概述的风险所体现的一个宏观考虑因素是,决策必须在 "边缘 "做出,而不是从指挥中心远程做出。这大大减少了延迟,并在快速变化的环境中提供了灵活性。边缘人工智能(AIAE)是指在靠近数据源的设备上部署人工智能算法。

将传感器直接连接到 AIAE 单元将大大减少 OODA 循环中观察-定向步骤之间的延迟。传感器数据将从传感器传输到人工智能单元的传感器输入端,然后通过处理集成电路内部的高速总线或同一单元内集成电路之间的高速总线传输到数据处理核心。(图 3)

在 AIAE 单元中进行人工智能处理和决策,还将大大减少 "定向-决策 "步骤之间的延迟。这样就不需要为额外的决策步骤向外部中心发送大量数据,然后等待决策回传。出于同样的原因,从 AIAE 单元发送 "行动 "命令也将减少 "决定-行动 "步骤的延迟。

图 4:GPU 的并行处理架构可实现比 CPU 更快的计算速度,从而支持大量的人工智能应用

实现人工智能处理

用于 AIAE 处理的一个主流 COTS(商用现成)解决方案是通用图形处理单元(GPGPU)。图形处理单元上的通用计算指的是使用 GPU(图形处理单元)来执行除传统图形渲染作用之外的通用计算。

GPU 设计用于并行处理大量数据,使其成为执行某些计算的理想选择,速度比传统 CPU(中央处理单元)快得多。通过利用 GPU 的并行处理能力,GPGPU 可以加速各种人工智能应用。(图 4)

技术的进步为市场带来了更高性能的小型超级计算机,它们将 GPGPU 与 CPU 相结合,可用于 AIAE 应用。GPU 广泛用于人工智能应用。

英伟达™(NVIDIA®)Jetson系列模块将支持人工智能的GPGPU与多核CPU结合在一起,形成了一个紧密耦合、高性能、低功耗的超级计算机,可支持人工智能处理能力和决策应用软件。英伟达™(NVIDIA®)Jetson 系列有多种不同外形尺寸、性能和最大功耗的模块可供选择。(图 5)

图 5:NVIDIA Jetson 系列包括不同的模块,具有不同的外形尺寸、性能和最大功率选项。

以英伟达™(NVIDIA®)Jetson Xavier NX 模块为例,该模块可提供每秒六万亿次浮点运算(TFLOPS)的性能,最大功率为 15 瓦。这样的性能可与配备处理器和图形处理器卡的数百瓦工作站相媲美。

这种计算架构可以每秒 30 帧的速度处理和应用 20 多个 1040p 分辨率高清视频输入的人工智能算法,也就是说,它有足够的带宽来运行人工智能应用程序,为系统中的多个高清摄像机提供服务。

配备英伟达™(NVIDIA®)Jetson Xavier NX 模块的加固单元可小至 4" x 2.3" x 3.9"。最大重量为 1.3 磅,最大功率为 15 瓦,从尺寸、重量、功率(SWAP)和性能的角度来看,它是 AIAE 应用的理想选择。(图 6)如果需要更高性能,基于更高性能英伟达™(NVIDIA®)Jetson 模块的更大和更高功率的坚固解决方案是可以实现的。

图 6:紧凑型高性能超级计算机正在边缘处理大量传感器数据。

这类基于 GPGPU 的坚固耐用单元还可以支持以太网(1GbE 和/或 10GbE)、CAN 总线、串行端口等行业标准接口)。例如,以太网接口可用作与系统中其他 "智能 "盒和任务计算机的通信通道,也可通过无线通信转换器与外部设备进行交互。如果需要低延迟以太网通信,可使用时间敏感网络(TSN)或时间触发以太网(TTE)。

使用以太网网络进行内部通信,可实现从物理电缆到路由器和数据包的多种冗余级别。在整个网络中实施 IEEE 1588 时间分配可使所有网元同步到单一时间源。

除了高速传感器处理外,这些单元还可用于处理来自低速传感器的数据--模拟 I/O、离散 I/O、串行端口等。将这些功能整合到一个 AIAE 单元中,有助于消除车辆中额外的电子设备盒和相关线束,进一步减小电子设备的尺寸、重量和功率。

时敏网络(TSN)与决策优势

时敏网络(TSN)的功能,包括精确定时、低延迟通信和确定性数据传输,有助于改进决策过程,提高对态势的认识,并最终实现决策优势。

通过提供低延迟通信,TSN 可通过高精度、高可靠性的实时数据传输,确保关键信息及时送达决策者。它还有助于收集、汇总和分析这些实时数据,使决策者能够获得最新的准确信息,做出明智的选择。

TSN 跨分布式网络同步设备和系统的能力有助于实现决策优势。它能确保来自多个来源的数据保持一致,提供对运行环境的整体了解,并加强传感器、执行器和控制系统等不同组件之间的协调,实现无缝协作和集成。

利用边缘人工智能(AIAE)优化地面车辆运行

1 简化网络通信

将坚固耐用的人工智能超级计算机放置在传感器(如高分辨率相机、红外探测器)附近,有助于解决地面车辆电子设备方面的难题,最终使作战人员受益。例如,在传感器附近进行物体识别/分类、目标识别/捕获、地形分析等处理可带来以下好处:

  • 无需将大量数据从传感器传送到任务计算机或外部指挥中心,减少了延迟和信息过载。

  • 缩短系统响应时间,加快决策速度。

  • 增强无人或可选有人驾驶飞行器/系统的能力

  • 无需在传感器与任务计算机之间铺设昂贵的长距离高速数据线,从而降低了布线的复杂性,提高了系统的可靠性、可用性和可维护性。

  • 提高系统集成和可操作性--边缘人工智能"盒与系统中其他 "智能 "盒之间的所有数据均通过行业标准以太网接口传输。

  • 提高可升级性--所有独特的传感器处理都在 AIAE 单元中完成。传感器和相关处理单元(如有需要)无需更换以太网电缆即可升级,也无需更换任务计算机,这可减少将新功能提供给作战人员所需的时间和成本。

  • 提高可扩展性--如果飞行器能提供几个额外以太网端口的布线,就能增加额外的传感器和 AIAE 盒,从而使新任务设备包的集成变得更容易、更快捷。

  • 通过减小电子系统的尺寸、重量和功率 (SWaP),无需大型任务计算机和笨重的线束,从而使地面系统更加可用、可靠和易于维护。

2 网络安全保护

具有增强网络安全保护能力的高性能人工智能系统将有助于防止网络和欺骗攻击,并保护信息共享数据链路。

使用 "边缘人工智能 "解决方案将有助于通过以下方式消除或最大限度降低第 6 节所述的以下风险:

  • 通过在源头处理大部分数据,大幅减少战术网络共享的数据量

  • 为每个数据用户分配正确的信息,从而简化数据分配工作

  • 缩短响应时间,改进指挥与控制 (C2) 通信

  • 改善通信渠道的网络保护

  • 最大限度地降低传感器数据处理能力下降的可能性--大部分数据在本地处理,冗余方案可用于解决传感器受损问题

  • 使用单一时间源同步车辆内和多个平台上的所有系统

  • 如果所有系统都使用相同的通信协议和数据报文结构,则可消除联盟 C2 系统之间的互操作性问题

3 优化地面车辆人工智能的其他考虑因素

虽然 AIAE 有许多好处,如减少延迟和增加隐私,但它也提出了一些必须解决的技术挑战。其中一些挑战包括

  • 处理能力有限:与基于云的服务器相比,边缘设备的处理能力和内存往往有限。因此,开发可在低功耗边缘设备上有效运行的人工智能算法是一项重大挑战。

  • 存储空间有限: 边缘设备的存储空间通常有限,从而限制了可在本地处理和存储的数据量。这也会影响需要大型数据集的机器学习模型的准确性。

  • 能源效率: 边缘设备通常基于低功耗解决方案。开发高能效的人工智能算法对于最大限度地降低边缘设备的功耗至关重要。

  • 连接性: 边缘设备与云的连接可能时断时续或有限,这给训练和更新机器学习模型带来了挑战。这也会限制与网络中其他设备的通信能力。

  • 安全和隐私: 边缘设备可能更容易受到安全威胁,在边缘使用人工智能会引发对数据隐私的担忧。确保边缘人工智能的安全和隐私保护至关重要。

  • 标准化: 随着边缘人工智能的发展,需要实现标准化,以确保不同设备和系统之间的互操作性和兼容性。

要应对这些挑战,就需要在边缘人工智能领域不断进行研究和开发,并在各行业和标准组织之间开展合作。基于英伟达™(NVIDIA®)Jetson 模块的坚固耐用的 AIAE 解决方案可以帮助应对其中的许多挑战。

结论

利用 AI/ML 和先进的算法战争系统可为实现决策优势提供显著优势。能够切实有效地保护、传输和处理信息,并比对手更快地压缩 OODA 循环的军队很可能会取得胜利。AI/ML 不是明天的问题。这种使能技术今天已在使用,将来会越来越普遍。

对于国防部来说,要实现 JADC2 的愿景,首先要求工业界有能力连接当前所有可支持战区感知的传感器,使传感器数据可供任何行动级别的任何潜在用户使用。这种数据共享结构可以创建安全的作战空间感知,从而了解单一、综合、全球作战空间中某一区域的行动,并为其他区域所需的行动和决策提供依据。

其次,传感器数据共享和互操作性的概念应在每个系统和项目中强制实施。此外,国防部还需要加快数字化转型、原型设计和系统集成的速度,以便利用数据,建立更好的作战制胜人工智能/移动式人工智能算法和硬件系统,并通过学习和实验活动加以锻炼,以取得成功。

成为VIP会员查看完整内容
75

5月24日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》在第七届数字中国峰会期间发布。

自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。

大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。

本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。

以下为白皮书内容目录与精彩节选:

01 训练数据对大模型发展的重要性 算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。

成为VIP会员查看完整内容
69

人工智能(AI)是未来联合部队充分发挥多域作战(MDO)潜力的基础。由人工智能支持的系统有能力在各领域、电磁频谱和信息环境中战胜对手。在竞争中使用这些系统可使联合部队近乎实时地了解作战环境,从而更好地利用各种能力击败旨在破坏地区稳定的威胁行动,遏制暴力升级,并将被拒绝的空间变为有争议的空间。在从竞争向武装冲突过渡的过程中,人工智能支持的机动、火力以及情报、监视和侦察能力为联合部队提供了阻止敌人夺取优势阵地的能力。改进的维持吞吐量与攻击敌方反介入/空中拒止网络的能力相结合,为美军夺取作战、战略和战术优势阵地提供了能力。通过人工智能支持的联合多域共同作战图(MDCOP)提高理解能力,使美军有能力协调多域效应,创造优势窗口。

制定人工智能作战概念可使陆军更好地了解这些技术对战争性质和特点的潜在影响。描述陆军如何在未来作战环境中使用人工智能,有助于说明人工智能对战争的暴力性、交互性和根本政治性以及战争不断演变的特点的影响。本文提供了一些小故事(附录 A),说明了组织对人工智能的运用,为可能制定的美国陆军 RAS 总体概念、作战和组织概念、基于编队的作战概念以及系统或单个系统的运用概念提供了参考。

人工智能的可操作性影响着未来部队的作战方式、针对对手的作战行动,以及指挥官如何利用军事艺术和科学运用部队能力来实现预期效果和目标。在2019年未来研究计划(FSP19)期间,人工智能工作线(LoE)确定了以下与实施人工智能多领域解决方案相关的问题:

  • 数据管理--AI/ML 应用程序的运行依赖于对经过整理的数据的访问。陆军必须培养以数据为中心的文化,以标准化的格式和协议来生成、存储和访问数据。人才管理工作必须侧重于培养、培训和留住一支精通数据的员工队伍。这可以通过以下方式实现

    • 在整个部门培养以数据为中心的文化

    • 投资于整个员工队伍的数据科学培训

    • 简化数据访问

    • 设计和实施协议,确保数据可发现、可访问、可共享和可互操作

  • 功能分解--狭义的人工智能本质上是有限的,构建算法的数据科学家需要精确的问题定义,准确确定联合部队的需求。

  • 可解释人工智能--人工智能系统需要有能力解释决策/建议和行动背后的逻辑。这种解释 "为什么 "的能力是人类信任人工智能智能体的基础。

  • 边缘计算/人工智能--未来的作战环境预计将面临电磁频谱的竞争,这就要求能够向前处理超大数据集的能力,以及能够自主行动的人工智能平台。

  • 利用商业部门 - 国防部实验室继续在人工智能/ML 开发方面取得重大进展,特别是与联邦资助的研发中心合作。商业部门将继续探索和拓展可用于军事应用的工作。

作为FSP19的一部分,人工智能LoE开发了五个小故事和一个概念草图(见附录A),以协助人工智能和机器学习的操作化。这些小故事说明了联合部队如何利用人工智能/机器学习来应对多域行动所需的关键能力。MDCOP 概念将依靠几个有限内存的人工智能来构建和维护一幅描绘战场上蓝、红、绿三方活动的图景。反应型机器人工智能将为特定指挥官和总部量身定制 MDCOP。合作传感、维持、攻击和瞄准小节依靠反应式机器人工智能来优化传感器覆盖范围、维持吞吐量、攻击排序和射手选择。

未来部队需要人工智能来充分发挥多域作战的潜力。人工智能系统使未来部队能够进行信息收集和分析,从而在时间紧迫、信息竞争激烈的环境中提高对态势的了解。这种能力可实现快速、知情和正确的决策。人工智能决策支持体将减轻作战人员的认知工作量,提高整体效能。人工智能支持的无人系统将探测、识别和穿透高风险区域,以提高开展行动和保护部队、人口和资源的能力。人工智能可满足 MDO 在与近似对手的冲突中对作战速度的要求。

成为VIP会员查看完整内容
70

在过去的十年中,创新型人工神经网络模型取得了非凡的发展。这些模型大多只能处理一种模式,而模式可以被认为是一种通信渠道或一种数据类型,如文本或图像。然而,在过去几年中,基于新型变压器架构的机器学习模型在需要联合处理两种或多种模态的任务中取得了令人瞩目的成果。多模态能力使这些模型更适合处理多模态世界中出现的各种问题。

迄今为止,最著名的多模态模型是那些结合文本和图像的模型,例如根据文本提示生成图像或回答有关图像的问题。同样,结合文本和视频的模型也在不断进步。还有一些模型将文本和声音结合起来,用于生成音乐,或用于文本到语音和语音到文本的转换。此外,还有一些模型能够结合两种以上的模式,为数据融合和机器人等领域复杂问题的新解决方案奠定了基础。例如,虽然工业机器人在受控环境中运行良好,但在非受控环境中的多功能机器人需要能够根据来自各种传感器的输入执行敏捷的任务和运动规划。机器人多模态模型的早期工作就体现了这种能力。

本报告概述了多模态神经网络模型领域的最新发展。报告精选了近年来开发的多模态模型。重点是处理媒体数据的模型,其中媒体数据应理解为主要用于人类交流的数据,如文本、图像、声音和视频。

虽然目前使用的多模态模型有其局限性,但它们自动进行多模态推理的部分能力令人印象深刻,以至于我们不得不问自己,多模态机器学习模型在未来几年会以何种方式影响我们的生活。

成为VIP会员查看完整内容
62

目录   第一部分:紧跟全球产业浪潮,国内市场快速发展   第二部分:国产模型百舸争流,技术创新百花齐放   第三部分:风险提示   1紧跟全球产业浪潮,国内市场快速发展   1国内大模型发展回顾     2022年11月,ChatGPT的问世引发了生成式人工智能大模型在全球的发展浪潮;2023年伊始,国内各大高科技厂商、高校及创业团队相继推出自研大模型;2023年下半年以来,国内大模型持续更新迭代,逐步形成了“百模大战”的火热场面。   3国内大模型市场规模   中国大模型市场呈现快速发展态势,根据亿欧智库发布的《2024年中国“百模大战”竞争格局分析报告》,2023年中国语言大模型市场规模达132.3亿元,未来将持续高速增长,预计2027年市场规模将突破600亿元,2023-2027年的复合年均增长率达50.6%。   4国内大模型产品最新访问量概况   根据AI产品榜公众号的数据,2024年3-4月,百度旗下文心一言和百度文库AI功能访问量居前;Kimi(Moonshot)增长势头迅猛,连续两个月访问量快速增长,排名第二;秘塔AI搜索、360AI搜索等搜索类产品也表现出色。整体来看,访问量数据反映了中国AI大模型市场的活跃度和用户对这些技术的高度兴趣。   2国产模型百舸争流,技术创新百花齐放   1百度文心大模型   文心大模型发展历程:2023年3月,百度发布了文心一言基础技术架构,推出文心大模型3.0版本;5月,百度文心大模型3.5发布,在基础模型升级、技术创新知识点增强、逻辑推理增强以及插件机制等方面取得效果和效率提升。10月17日,百度文心大模型4.0发布,通过万卡算力、飞桨平台、多维数据、多阶段对齐及可再生训练实现了进一步迭代。李彦宏称,这是迄今为止最强大的文心大模型,综合能力“与GPT-4相比毫不逊色”。   1百度文心大模型   文心大模型进展:在2024年4月的百度CreateAI开发者大会上,推出了三款开箱即用的AI开发者神器:智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、以及更专业,支持各种尺寸模型定制的开发工具ModelBuilder。李彦宏在发布会上表示,文心大模型已成为中国最领先、应用最广泛的AI基础模型。与一年前相比,文心大模型的算法训练效率提升了5.1倍,周均训练有效时间达到了98.8%,推理成本更是降至原来的1%。

成为VIP会员查看完整内容
58

以 ChatGPT 为代表的大型语言模型(LLM)的出现彻底改变了数字化转型,并将人工智能(AI)定位为其核心。LLMs 在理解和生成人类语言方面的卓越能力已在内容创建和客户服务等各行各业得到广泛应用。然而,它们在军事领域的潜力仍未得到充分挖掘。

本分析报告探讨了 LLM 在现代战争中的变革潜力,并评估了其在军事环境中的适用性。它深入探讨了 LLM 的技术方面,强调了 LLM 利用深度学习原理自主生成上下文相关文本的能力。此外,它还讨论了潜在的军事应用,如加强决策过程和改进情报、监视、目标获取和侦察(ISTAR)行动。

2022 年 10 月,OpenAI 发布了新颖的人工智能(AI)驱动聊天机器人--著名的 ChatGPT(Chat Generative Pre-trained Transformer)。从那一刻起,世界进入了一个新时代,人工智能成为数字化转型的核心。转眼间,整个地球都获得了使用先进的人工智能工具的特权,这种工具可以在法律考试中取得成功,可以编写计算机代码、学校论文、小说和烹饪食谱,还可以理解图片的内容并得出逻辑结论,而且往往以类似人类的方式进行。然而,很少有人深入了解什么是 GPT 及其工作原理。

虽然人工智能和机器学习(ML)已经成功地应用于模式识别、过滤和其他用途,但其范围狭窄,只专注于特定任务。相比之下,ChatGPT 和类似的文本生成系统范围更广,本质上更接近人类领域。它们在理解、生成和处理人类语言方面的卓越能力,使其在私营部门的应用多种多样,包括内容创建、语言翻译、医疗诊断、客户服务和科学研究。

许多人将这项技术归类为颠覆性技术,分析其对全球格局的影响。事实上,像 ChatGPT 这样的人工智能解决方案为个人和企业提供了强大的语言处理工具,使他们能够更轻松地获取海量信息,更高效地处理日常任务,从而改变了我们与计算机的交互方式,并改变了我们的工作方式。

本文旨在概述在更广泛的人工智能领域中支持 ChatGPT 的技术。本文还将介绍与这些技术的部署相关的众多挑战,提出潜在的军事应用,最后为军事领域可能的安全和成功应用提出值得考虑的一般指导原则。

生成式人工智能和大型语言模型

ChatGPT 和类似的文本生成系统由大型语言模型(LLM)提供支持,这是生成式人工智能的一种形式。后者包括更广泛的人工智能系统类别,旨在通过利用学习到的模式和数据自主生成新内容或输出。从内容上看,这种技术涵盖了一系列内容类型,包括文本、语音、视频和图像,每种输出都不需要明确的指令。与受预设规则或特定输入约束的传统人工智能系统不同,生成式人工智能具有独立创造与上下文相关的新衍生输出的能力。

具体来说,LLM 是一种统计模型,利用深度学习(DL)原理和复杂的内部机制来创建任何特定语言的单词序列,从而生成连贯且与上下文相关的文本。它们的主要功能包括分析文本语料库中的模式和关系,从而获得知识和能力,根据前面的上下文评估特定词语或词语序列的统计可能性,生成具有自然或类似人类品质的内容。

LLM 的运行包括两个主要阶段:训练和生成。训练包括两个阶段。首先,模型从大量文本数据集中学习统计模式,并调整其数十亿个内部参数,以开发一般的单词预测能力。其次,利用人类对模型输出的反馈进行微调,优化特定语境下的单词预测准确性,从而形成模型的最终形式。训练完成后,系统会根据提示应用所获得的知识生成新的输出,并根据先前生成的内容和提供的上下文不断完善其输出,直到达到所需的结果或完成条件。

2020 年,OpenAI 推出了 GPT-3,这是第一个在各种自然语言处理(NLP)任务中表现出卓越性能的模型。当时,GPT-3 在文本补全、翻译、摘要和问题解答方面表现出色,赢得了公众的广泛关注。GPT-3 令人印象深刻的自学能力使该模型只需最少的示例或训练就能执行任务。它的后继者 GPT-3.5 是 ChatGPT 的革命性模型,功能更加强大,并提供了更广泛的 NLP 功能。今年早些时候推出的 GPT-4 是 OpenAI 的最新模型,它将继续推动 NLP 的发展,凭借更广泛的常识和高级推理能力提供更高的准确性。此外,该模型还提供文本和图像输入和输出。

LLM 在军事领域的潜在应用

虽然军事和国防部门已经研究了各种人工智能应用,包括网络安全、海事安全、关键基础设施保护等,但目前还没有公开的 LLM 技术应用实例。然而,LLM 在组合和分析来自不同来源的原始数据方面的卓越能力,以及它们的 NLP 能力,使军事领域成为一个潜力巨大的领域。

利用这项技术来加强包括规划和决策在内的若干流程,可使空中军事行动受益匪浅。例如,人工智能的一个可能应用是通过支持参谋人员制定、评估和推荐可用的行动方案(COA),协助军事指挥官以最快的速度做出正确的决策。LLM 还可以协助情报、监视、目标捕获和侦察(ISTAR)流程,协助人类操作员实时收集、分析和评估数据,从而缩短 OODA 循环,在战场上提供决定性优势。另一个潜在应用领域可能是军事演习,生成式人工智能工具可以协助创建更逼真的场景,甚至可以增强人员不足的红军力量,从而进行更好、更高效的训练。

图:LLM 可协助人类操作员实时收集、分析和评估数据,从而为情报、监视、目标捕获和侦察(ISTAR)流程提供潜在帮助。

与 LLM 技术相关的挑战

然而,必须承认,全面整合 LLM 可能会遇到各种挑战,如确保训练数据的质量、完善模型能力、管理资源成本以及解决道德、法律和偏见问题。应对这些挑战对于确保采用 LLMs 真正增强现有流程而不损害军事行动的完整性和安全性(更不用说更广泛的社会价值和利益)具有决定性意义。

  • 道德挑战
    • 数据中的偏见

需要注意的是,LLM 是使用海量数据集进行训练的,这些数据集包含固有的、通常是隐蔽的偏见,如地理、性别、社会、伦理、道德和宗教偏见。如果不解决这些偏见,LLM 的输出可能会延续或放大现有的偏见,导致错误、不公平或歧视性的结果。在军事行动中,LLM 生成的信息或决策支持系统中的偏见可能会产生严重后果,包括可能导致歧视性目标选择、不适当的任务优先级排序或资源分配不足。

要解决偏差问题,就必须认真关注所使用的训练数据,并制定和实施减少偏差的策略。研究人员正在研究减少偏差的技术,如数据集整理、模型微调和对输出结果的持续评估,以确保输出结果的质量。

  • 问责问题

此外,使用 LLM 或任何其他类型的人工智能技术都会引起人们对受人工智能生成的信息影响或基于人工智能生成的信息做出的决策和行动的问责问题的关注。确保问责制涉及透明度、可追溯性以及将决策归因于特定个人或系统的能力。然而,研究人员认为,"人工智能和 ML 系统的内部运作很难被人类理解,被认为是黑箱方法,用户只能看到输入和输出。

这种说法对此类系统的可信度提出了质疑,因为 LLM 内部运作的不透明性使得在出现错误、偏差或有争议的输出时,很难确定责任归属。另一方面,我们也应该考虑人类决策过程的有效性和透明度,因为人脑的不完美特性往往会导致决策错误或无效、难以解释或受偏见影响。人脑有限的处理能力可能会放大这种现象。

另一个值得我们考虑的方面是,那些将作战优势置于道德和伦理考虑之上的对手可能会采用 LLM 系统,尽管它们存在缺陷和弊端。其他国家的军队,甚至是联盟内部的军队,可能会效仿他们的做法,因为害怕在战场上失去优势而采用和利用类似的不完善的人工智能解决方案。在这种可能的未来作战环境中,影响任务成功、违反人类价值观和危及生命的风险可能会超出我们有效管理的能力。

  • 财务挑战
    • 财务成本

对一些国家的军队来说,长效机制的经济负担可能是一个重大挑战,因为除了能力建设所需的基本投资外,培训和运行这些系统的相关费用可能非常高昂。培训大型 LLM 需要大量的资金投入,需要购买高性能硬件,如服务器、存储和网络设备,还需要消耗大量能源。此外,获取和管理不同的数据集以获得最佳性能需要专业技能和大量资源。在实时应用中部署 LLM 还需要持续的运营费用,包括维护和运营成本。

为进一步强调该技术带来的挑战,我们应考虑到,受国防预算和有限资源限制的国家可能会发现采用和整合该技术是不可行的,这可能会导致联盟内部出现技术和能力差距。一个值得研究的解决方案是建立机制,资助和开发供北大西洋公约组织(NATO)盟国之间使用的共享人工智能系统,类似于北约的机载预警与控制系统(AWACS)计划。

  • 熟练劳动力成本

培养熟练劳动力是能力建设的另一个关键方面,特别是考虑到全球人工智能专家的短缺。军队应投资于培训和教育计划,使其人员掌握数据科学、ML、NLP 和其他相关学科的专业知识。要为军事应用微调 LLM,就必须增加研发投资。研究工作应着眼于提高模型性能、解决局限性和偏差,并对 LLM 进行定制,以满足特定军事用途的需要。

  • 技术挑战
    • 连贯的战略

在组织内部成功整合人工智能解决方案通常取决于是否制定了协调一致的战略和强有力的商业案例。对于 LLM 而言,这意味着军队不应在未深入分析和评估其流程以及考虑更广泛的作战环境的情况下,仓促决定采用这项技术。否则,缺乏这两个基本要素--连贯的战略和强有力的业务案例--很可能会危及项目的成功。

  • 遗留系统和数据质量

将 LLM 系统与现有遗留系统集成是另一个重大挑战,因为很可能需要对系统进行大量修改,从而增加了无法实现预期结果的风险。另一个关键问题涉及用于训练人工智能系统的数据质量,因为低质量的数据会严重影响算法的功能,破坏获得准确结果的潜力,并产生相应的后果。

  • 幻觉

在研究 LLM 时还存在幻觉问题。这一术语指的是一种现象,即 LLM 生成的输出听起来似是而非,完全是捏造的,或者脱离了输入或上下文。产生幻觉的原因有很多。出现幻觉的原因多种多样,其中包括大量未固化的训练数据、缺乏对上下文的理解、罕见和不寻常的输入,以及 LLMs 接受训练时使用的语言建模技术。因此,LLM 偶尔会产生超出其预期目的的输出,或者在其反应中表现出过度自信。

不幸的是,幻觉和过度自信的反应可能并不明显,可能会在军事行动中造成风险,导致错误信息、决策失误和潜在的任务失败。研究人员正在研究几种缓解策略来解决这个问题,包括人工监督和专门设计的算法来持续检查输出。无论如何,我们都应开发和建立有效机制来检测和缓解幻觉,以确保 LLM 生成信息的可靠性和有效性。

北约的网络、人工智能和 EDT 战略

北约对人工智能、量子技术和自主系统等新兴和颠覆性技术(EDTs)表现出极大的兴趣。北约已将人工智能确定为九大优先技术领域之一,以重点开展创新活动。北约 2022 年战略概念》指出:"创新技术为北约军队提供了新的机遇,帮助他们变得更有效、更有韧性、更具成本效益和可持续性。'该文件还申明,电子战技术既带来机遇也带来风险,它们正在改变冲突的性质,获得更大的战略重要性,并成为全球竞争的关键舞台。

此外,为了促进以合乎道德的方式使用人工智能系统,美国国防部(DoD)于 2020 年发布了在军队中合乎道德和合法地采用人工智能系统的原则,其中指出,“美国必须与我们的盟友和伙伴一起,加快采用人工智能,并在其国家安全应用中发挥领导作用,以保持我们的战略地位,在未来战场上取得胜利,并维护基于规则的国际秩序”。北约也发布了类似的原则,包括合法性、问责制、可解释性(原文如此)、可追溯性、可靠性和减少偏见,以应对人工智能在军事领域带来的挑战。

结论

利用 LLMs 协助人类和加强军事进程的潜力前景广阔,可为实现作战甚至战略目标提供显著优势。LLMs 能够处理、整合和分析来自不同来源的数据,并以相关的速度对人类的输入做出类似于人类的反应,从而支持战略敏捷性、改善态势感知、改进决策过程和高效的资源分配。此外,这项技术还能帮助识别盲点,提供有价值的见解,并协助完成复杂的认知任务。

然而,训练数据中的偏差、对模型输出的问责以及潜在的幻觉都凸显了在决策过程中保持人为监督和责任的重要性。承认这些挑战并实施适当的缓解机制,对于将 LLM 适当纳入军事决策过程至关重要。此外,培训和运行这些系统所需的大量投资必须与它们为军事行动带来的潜在好处相平衡。我们还应牢记,有些军队将难以承受相关的财务成本。与此相反,其他国家将利用这种技术带来的好处,从而可能在联盟内部造成技术差距。

由于这项技术目前面临的挑战和弊端,必须将 LLM 视为辅助工具,而不是自主决策者。人的因素仍应是核心,由 LLM 提供数据驱动的见解和建议,补充人类的专业知识,形成 “人在环中”(HITL)系统。采用这种支持性方法可以充分利用 LLM 的优势,同时在军事行动中保持人的能动性、问责制和责任感。

然而,在未来战争中,军事指挥官可能需要快速应对复杂而紧张的局势,尤其是在面对近在咫尺的竞争对手时。在这种情况下,利用 LLMs 组成半自主的 “人在回路中”(HOTL)甚至自主的 “人脱离回路”(HOOTL)系统,可能是在战场上保持优势的必然选择。

科学家和研究人员正在努力实现人工通用智能(AGI),而 LLM 也在不断变得更容易实现、更有效率,它们对社会的破坏性和变革性影响将是巨大的。这项技术对个人和社会的潜在风险也相当大,这凸显了政府和组织将人工智能监管作为优先事项的必要性。强调这一重点对于保护技术、降低潜在风险和实现预期效益最大化至关重要。

成为VIP会员查看完整内容
61

本文介绍了“作战智能体”(BattleAgent),这是一个结合了大型视觉语言模型(VLM)和多智能体系统(MAS)的详细仿真演示系统。这个新颖的系统旨在模拟多个智能体之间以及智能体与其环境之间在一段时间内的复杂动态互动。它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点。该模拟展示了智能体当前的能力,具有智能体与环境之间细粒度多模式交互的特点。它开发了可定制的智能体结构,以满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。BattleAgent 的技术基础为历史战役建立了详细和身临其境的场景,使智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。这些举措还有助于历史研究,因为传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,从而忽略了普通个人的经历。这种偏颇的文献记录导致我们对历史的理解存在相当大的差距,因为许多故事仍未被讲述。BattleAgent 利用当前人工智能(AI)的进步,为弥合这一差距提供了一些见解。它展示了人工智能在关键社会事件中重振人类方面的潜力,从而促进更细致入微的集体理解,推动人类社会的进步发展。对最终仿真结果进行了量化评估,显示了该方法的合理性能和有效性。

图 1:1346 年克雷西战役演示: 描绘历史交战中英法联军阵地的部队编队和运动,并标注关键地点和领导人。

智能体被定义为有能力感知周围环境并根据这些感知做出明智决策以完成特定目标xi2023崛的系统。大型语言模型(LLMs)zhao2023survey; fan2023bibliometric 的最新进展展示了令人印象深刻的推理能力huang2022towards; jin2024impact,表明它们具有作为智能体基础的潜力。这些模型在遵循指令zhou2023instruction; zeng2023evaluating;、解释命令以及模拟人类推理和学习过程wang2024llms; wang2024tool; shen2024small方面表现出了非凡的能力。此外,大型视觉语言模型(VLM)zhang2024vision 的开发促进了支持多模式信息交互的各种智能体应用程序的创建durante2024agent; xie2024large。当与外部工具(物理或虚拟工具)相结合时,这些智能体采用 LLM 或 VLM 作为其推理骨干,以确定应如何处理任务、如何利用工具以及应在内存中保留哪些信息。这种增强功能使智能体能够管理一系列自然语言处理任务,并使用语言与环境互动。

使用 LLM 和 VLM 创建了大量智能体应用程序,重点是增强推理能力,du2023improving; chan2023chateval; sun2023corex; liang2023encouraging, production capabilities hong2023metagpt; liu2023bolaa; ge2023openagi; yang2023appagent; mei2024llm; ge2023llm, gaming gong2023mindagent; xu2023exploring; lan2023llm; hu2024survey, and social simulation pang2024self; zhou2024real; sreedhar2024simulating; xie2024can; hua2023war, among others. WarAgent hua2023war 是基于 LLM 的 MAS 模拟历史事件的先驱,它研究的是宏观层面的系统行为,如国家和政府,而不是微观层面的模拟战斗中发生的详细动态事件或个人在这种动态时间段中的经历。因此,BattleAgent 在 WarAgent 为历史事件仿真奠定的基础上,研究了 LLM 和 VLM 在详细历史情况复原和探索仿真中个人经历方面的潜力。

长期以来,历史研究一直致力于通过过去事件的视角来理解人类的经历。传统的历史叙事往往侧重于领导人和决策者的视角,而将普通人的经历置于阴影之下。这种选择性的历史研究方法给我们的理解造成了巨大的差距,因为士兵等普通参与者的故事和经历经常被忽视。这项研究背后的动机就是要解决这种不平衡现象,并利用人工智能的进步为历史事件提供更全面的视角。口述历史(shopes2011oral; portelli2002makes)一直是用来捕捉个人经历的一种方法,为历史事件提供了更加个人化的描述。然而,这种方法仅限于近代史,而且受到目击者可用性的限制,往往会留下许多未被发现的细节。随着我们离事件发生的时间越来越远,亲历者的声音也会逐渐消失,随之消失的还有丰富的历史画卷。

为了应对这些挑战,我们的研究引入了 BattleAgent,这是一个新颖的仿真框架,利用基于 LMM 的 MAS 来详细重建历史事件,重点是描述普通人(尤其是士兵)的经历。BattleAgent 可在复杂的地形和等级森严的指挥结构中模拟历史上的战斗,其中包含复杂的军事后勤和战略规划。作为模型的核心,我们精心制作了 30 个独立的士兵智能体,每个智能体都有丰富详尽的背景和鲜明的个性,从而为他们注入了活力和深度。BattleAgent 的设计目的是模仿和记录这些智能体的经历,捕捉他们在整个战斗过程中的行动、受伤情况、情绪反应和心理状态。通过分析这些元素,我们生成了个性化的叙事,反映了参与战争的普通人的多方面经历。这种方法不仅使这些智能体的行动和情感永垂不朽,而且还能在更广阔的历史冲突背景下,以细致入微的个性化视角审视普通士兵的经历。

为了模拟如此复杂的场景,模拟包含以下三个关键特征:

  • 增强的 2-D 真实感功能: BattleAgent 可模拟环境中的详细互动,包括地形交战、时间进程和智能体之间的互动。
  • 身临其境的多智能体交互: 它集成了 MAS,以促进战斗模拟中智能体之间的动态交互,准确反映历史环境和错综复杂的军事交战,从战略演习到后勤考虑和通信动态。
  • 动态智能体结构: 该框架引入了可适应的智能体配置和多模式互动。该系统可以 "自我改进 "其结构,分叉、合并和剪切智能体,以持续保持仿真效果。它拥有自主调整结构以优化仿真保真度的能力。

研究对历史分析和社会的贡献可归纳如下:

  • 强调个人视角和细粒度: 提供一个平台,让普通人的声音在历史事件中得到倾听和理解。这一平台旨在通过纳入个人视角,提高历史重构的准确性。
  • 与过去的联系和共鸣: 通过详细分析过去的错误和人类付出的代价,帮助预防未来的冲突。该平台通过将历史战役参与者的经历人性化,促进同理心并加深与过去的联系。
  • 了解历史的教育工具: 提供一种教育工具,帮助人们了解错综复杂的历史和历史事件的残酷现实。其身临其境的互动平台可以培养人们的同理心,让人们从更细微的角度来看待过去,这使其成为学生和历史爱好者的宝贵资源。
  • 作为下一代游戏引擎的潜力: 提供全自动流程,创建身临其境的动态历史仿真,使其成为潜在的下一代游戏引擎。通过使用基于 LLM 的智能体和基于 VLM 的智能体,它可以生成详细而逼真的环境、人物和事件,提供独特而引人入胜的游戏体验。

多智能体系统

MAS为模拟复杂的交互和场景hua2023war提供了一个平台,彻底改变了人工智能的面貌。随着LLM推理智能的发展,特别是其在复杂场景中出色的推理能力fan2023nphardeval; fan2024nphardeval4v; zhang2024llm,MAS与人工智能系统的整合显示出其多功能性和有效性。MAS 最初分为推理增强系统、非玩家角色(NPC)多智能体玩家系统和生产增强系统,这对理解它们的不同应用具有奠基性作用。诸如 LLM-Debate du2023improving、ChatEval chan2023chateval 和 MAD liang2023encouraging 等著名的发展极大地推动了推理增强系统的发展。同样,在 NPC 多智能体系统中,生成式智能体 park2023generative 和 GPT-Bargaining fu2023improving 的出现为更多类似人类的智能体行为铺平了道路。在生产增强领域,MetaGPT hong2023metagpt 和 OpenAGI ge2023openagi 等创新简化并增强了软件开发中的协作努力。许多著作还探索了智能体在科学实验中的潜力 bran2023augmenting; hua2024trustagent; chen2023towards setting。

在人文和历史研究方面,"战争代理"(WarAgent)hua2023war 计划是应用基于 LLM 的 MAS 模拟国际冲突的典范,每个代理代表不同的国家,探索国际关系和冲突的动态。我们的研究以从 WarAgent 中获得的人道主义见解为基础,力求完善这一方法,从普通个人的视角出发,对历史场景进行细化模拟。转向关注历史事件中的微观体验,旨在利用 MAS 和 LLM 技术的进步,捕捉普通人在历史叙事中的细微视角,从而提供对过去更详细、更感同身受的理解。通过这样做,我们希望对历史关键时刻的人类经历进行更深入、更具包容性的研究,从而丰富对历史的理解。

多模式多智能体人工智能系统的最新进展进一步拓展了 MAS 的功能。AppAgent AppAgent 展示了作为智能手机用户的多模态代理的使用,增强了我们对人机交互的理解。AWS AWS 中的生成式人工智能和多模态智能体的整合释放了金融市场的新潜力。LLaVAPlus 在教会智能体使用各种工具方面的贡献为智能体的适应性和功能性开辟了新的途径。此外,"多模式行动链代理 "CoA 的实现为代理与数字界面的交互提供了新的视角,有助于在数字领域进行更直观的用户界面设计和更逼真的模拟。

BattleAgent 仿真是首个基于多模态模型的大型多智能体应用,它为历史和人文研究引入了一个新颖的定量维度,并强调了人工智能在理解人类历史和塑造未来情景方面的更广泛影响。通过探索其他历史路径和关键决定因素,我们的工作证明了 LMM 和 MAS 在提高我们对过去的理解力方面的重大贡献,并有可能引导一个更明智、更和平的未来。

历史颗粒度分析的挑战

多年来,使用计算方法模拟历史事件的追求有了很大发展。从人类模拟开始,过渡到人类-程序混合系统,最后到完全计算机化的模拟,每个阶段都带来了独特的见解和挑战hua2023war。迪克森(Dickson)的《迪克森 2002》(dickson 2002 road)概述的人体模拟提供了一种基础方法。在教育场景中,这种模拟涉及角色扮演练习,使学生能够深入了解历史事件的复杂性,如美国加入第一次世界大战。人机混合系统的出现,以国家间模拟模型 guetzkow1963simulation 及其各种应用 hermann1967attempt 为代表。这些系统将人类决策与计算过程相结合,为模拟国际冲突创造了一个更具活力和互动性的环境。然而,对人类输入的依赖在可扩展性和可能的分析深度方面仍然存在限制。

在过去十年中,利用计算能力创建更复杂的模拟发生了重大转变。OneSAF 目标系统(OOS)tolefson2008onesaf 和基于 JAVA 的比斯开湾潜艇战争模拟 hill2004using 就是最好的例子。这些模拟使用了详细的军事行动模型和博弈论,提高了历史分析的准确性和深度。最近,通过开发生成式人工智能方法,社会系统动态的高级模拟成为现实。尽管取得了这些进步,但要在这些模型中完全囊括人类行为的复杂性和历史数据的浩瀚性仍然具有挑战性。此外,全计算机模拟虽然可以实现三个阶段中最细致、最精确的模拟,但仍侧重于历史分析的全景式和高层次模拟,往往无法深入到国家或著名领导人视角之外的证人个体反思和细粒度分析。

"基于智能体的计算模型 "和 "生成性社会科学 "的思想,在21世纪e21pstein1999agent开始之前就已经是众所周知的理论。基于规则的智能体虽然可以重构复杂的社会行为,在一定程度上考察 "回溯未来 "ghaffarzadegan2023生成性,但往往无法保持类似人类的智能,而这正是模拟和理解人类社会的关键。即使是最先进的计算社会科学(CSS)方法,使用生成方法进行精细的历史分析似乎也不现实。当前的 CSS,尤其是在情感分析(fan2020stigmatization; yin2020using; li2023chatgpt)等领域,主要基于当代数据源。这给历史分析带来了巨大挑战,因为历史数据往往缺乏计算分析所需的粒度和数字格式。

研究通过在 MAS 框架内采用 LLM 来应对这一挑战。这种方法将现代人工智能的综合数据处理能力与 MAS 的复杂建模相结合,是历史模拟领域的一个新步骤。这种融合标志着与传统方法的重大差异,因为它试图克服历史研究中数据稀缺和质量的限制。通过利用先进的语言模型,我们可以推断、重建和模拟历史叙事和事件,其深度和准确性是以前无法达到的。因此,我们将这种精细模拟方法称为 "历史仿真"。

MAS 框架不仅模拟了单个智能体及其互动,还纳入了从有限历史数据中得出的更广泛的社会政治和经济背景。这种方法可以对历史事件进行更细致入微的探索,揭示形成这些事件的各种因素之间复杂的相互作用。因此,工作站在了历史仿真的最前沿,或者说,重新定义了 "历史仿真",将人工智能驱动的分析与传统的历史学术研究进行了独特的融合。这种协同作用旨在为历史事件提供新的视角,促进对过去及其对未来影响的细化、多样化和更深入的理解。

动态智能体结构

战场环境是高度动态和多变的,会出现许多不可预测的情况。针对这种复杂性,我们提出了一种动态代理结构 liu2023dynamic; han2024llm,使代理能够根据当前情况调整其组织配置。我们提出的动态智能体结构支持多种自适应机制,如图 5 所示:

图 5:智能体动态结构。

1.分叉:一个智能体可以决定分叉另一个自主智能体来完成特定任务,有效地分兵把口,分配资源,同时解决多个目标。

2.合并: 在一个智能体面临巨大压力却选择继续战斗的情况下,它可能会与最接近的盟友智能体合并,以整合力量,增强自身的应变能力。

3.剪枝: 在某个智能体不堪重负或从战场撤退的情况下,动态智能体结构会通过将该智能体从现役部队中剪枝来适应这种变化。

这种动态代理结构可以根据不断变化的战场情况做出灵活的自适应决策。例如,一个智能体可以分叉出一个子智能体,通过分配一部分士兵来创建一个自主智能体,负责收集周围环境的信息并将其传递回来。此外,该智能体还可根据形势要求,派遣自主子代理集中处理来犯敌军的特定部分。如果智能体缺乏应对当前局势所需的力量,它们可能会选择从地图上撤退或与其他智能体合并,以增强其综合实力。因此,我们的项目引入了一种动态多智能体系统,其中的智能体结构和数量可根据特定情况的需要进行调整。这种自适应方法使系统能够有效应对战场环境中出现的各种不可预测的挑战。

成为VIP会员查看完整内容
56

基于Transformer架构的大语言模型展现出强大的能力,是人类迈向通用人工智能(AGI)的一个重大进步。大语言模型架构和算法的演 进分为提高推理效率、提高模型能力两条技术路线。介绍了两条技术路线主流的技术方案和思路。提高推理效率的方法有分布式推理、计算优 化、访存优化、量化等;提高模型能力主要是引入新的架构,如混合专家(MoE)模型、状态空间模型(SSM)等。 OpenAI 于 2022 年、2023 年 分 别 发 布 ChatGPT[1] 和 GPT4[2] ,其强大的会话能力、多模态能力震惊业界,是人 类迈向通用人工智能 (AGI) 的一个重大进步。ChatGPT和 GPT-4能力强大的原因有两个:一是Transformer[3] 架构的自 注意力机制,可获取任意距离间单词的相关信息;二是大 模型、大数据、大算力,规模超过了一定阈值,则会产生 涌现能力[4] 。 目前各大公司都发布了自己的大语言模型 (LLM)。本 文中,我们主要介绍大语言模型在两条技术路线上的架构和 算法的演进。 1.1 语言模型的发展历程 语言模型的发展经历了统计语言模型、神经语言模型、 预训练语言模型和大语言模型4个阶段[5] 。其结构从基于统 计概率发展到基于神经网络,模型复杂度不断增加,能力也 出现了质的提升。 1) 统计语言模型 最初的语言模型是基于统计概率的,即根据语料统计出 在某个上下文出现某个词的概率,根据概率选择最合适的词。 2) 神经语言模型 文献[6]首次将神经网络引入语言模型。常见的模型结 构有循环神经网络 (RNN)[7] 、长短期记忆网络 (LSTM)[8] 等。RNN用隐藏层保存逐个输入的词的信息,但由于梯度 消失和梯度爆炸,只能保留短期信息。LSTM使用门控机制, 可以选择性地保留长期信息。 3) 预训练语言模型 ELMo[9] 用预训练的双向LSTM网络根据上下文动态生成 词向量,解决了一词多义问题。双向LSTM网络可以在下游 任务上微调,得到更好的效果。基于Transformer的双向编码 器表征法 (BERT)[10] 也采用了预训练+下游任务微调的 范式。 4) 大语言模型 预训练语言模型的性能随着规模的增大而提高,成幂律 关系[11-12] 。OpenAI设计了大型语言模型GPT-3[13] 。该模型表 现出强大的能力,性能和规模超越了幂律关系,出现了涌现1.2 大语言模型算法演进路线 大语言模型的发展主要有两条技术路线:一是提高推理 效率,降低推理成本;二是提高模型能力,迈向AGI。 大语言模型能力强大,有广阔的应用前景,各厂商都在 积极部署,提供服务。但是,由于模型规模巨大,算法对硬 件不够友好,需要消耗大量的算力、存储、能源。因此,如 何降低推理成本、推理延时,是一个亟待解决的问题。大语 言模型主要的技术路线有分布式推理、减小模型计算量、减 小模型访存量、提升硬件亲和性等。 大语言模型是迈向AGI的重大进步,而Transformer是其 中的核心架构,发挥了重大作用。但Transformer也有一定的 不足,如计算量大,通过提升规模来提升性能更加困难;上 下文窗口长度有限,难以支持超长序列。研究人员通过引入 新的结构,解决这些问题,取得了较好的效果。

成为VIP会员查看完整内容
48

本文以约翰-博伊德的观察、定向、决策、行动(OODA)循环及其 “指挥与控制的有机设计”(1987 年)分析为背景,对决策优势和主动权进行了定义。博伊德的思想远远超前于当时的时代,但在新兴的运营环境中却能产生清晰的共鸣。决策优势的结果就是主动权。此外,决策优势不仅是一种条件,也是实现这种优势所需的过程。由于人仍然是有效的联合全域指挥与控制的关键,因此规划者和战略家必须了解这些关键概念在条令上的细微差别。

美国国防部对联合全域作战(JADO)(前身为多域作战)的支持推动了一系列发展和组织活动,这些活动是由作战环境的明显变化和近邻对手挑战美国安全领导地位的具体努力引发的。指挥与控制是所有军种多域或全域作战概念的核心。鉴于新兴技术有可能对以往计划、决策和执行周期的局限性产生根本性影响,本文--空军大学 2020 年 JADC2 会议的产物--通过博伊德 1987 年的简报 “指挥与控制的有机设计 ”的视角,探讨了决策优势的概念。

在考虑 JADC2 的意图和架构时,博伊德在 20 世纪 80 年代末的著作似乎极具预见性。对博伊德思想的研究可以帮助当代规划师和架构师更好地理解各种可能性。

无论采用何种技术来驱散战争的迷雾和摩擦,人的因素--信念、信任、共同愿景、身份、知识、经验、教育和培训等--对于 JADC2 企业的重要性不亚于传感器网格、开放数据标准和交换、网状连接、云计算或边缘计算、人机协作、机器学习甚至人工智能(AI)。俄罗斯解决这一问题的方法表明,俄罗斯规划人员认为人为因素是 JADC2 体系最薄弱的环节之一,也可能是最强大的方面。

本文探讨了似乎支撑美国防部 JADC2 体系的一个基本原则--博伊德的观察、定向、决策、行动(OODA)循环。本文并不质疑美国防部对这一决策模式的接受。此外,虽然本文研究了 JADC2 的条令和架构设计,但由于篇幅所限,本文并未讨论作为一种实践的条令发展的适用性。

图 1. 修改后的 JADC2 高级概念图

定义决策优势的基础

虽然高层领导采用了信息优势和决策优势这两个术语来捕捉联合反战条 约方法的预期效益,但多年来,决策优势一直没有国防部的定义。尽管 JADC2 企业的整个宗旨是 “决策的艺术和科学,以及将这些决策转化为行动的能力,利用所有领域的能力并与任务伙伴合作,在竞争和冲突中取得作战优势”,但决策优势的概念在非保密的 JADC2 和多域作战/JADO 文件中有所暗示,但并未得到明确定义。最后,空军于 2021 年 11 月公布了其定义。

有些人可能会得出 JADC2 就是决策优势的结论。上述定义虽然没有明确将这一概念与 JADC2 的技术架构联系起来,但在冲突的连续性方面提供了有益的联系。这一定义也出现在 2020 年空战司令部关于 JADC2 的重要图表摘要中(图 1),其中规定了 “以压倒性的决策优势阻滞敌人前进 ”的任务,但同样没有界定决策优势的含义。

JADC2 概念是一种提供卓越态势感知的架构。理解 JADC2 至少需要深厚的领域知识,理想情况下还需要跨领域知识,反映关键视角,这些视角相互碰撞、相互作用,从而形成背景。

在美军内部,人机协同增强了决策过程。陆军多域作战条令指出,“在人工智能和高速数据处理的支持下,人机界面在速度和准确性上都能提高人类决策的水平”。美国陆军训练与条令司令部(TRADOC)第525-3-1号小册子《2028年多域作战中的美国陆军》强调了对对手情报、监视和侦察综合体的攻击:“陆军部队与合作伙伴和联合部队一起,对抗对手的侦察并进行欺骗,在对手的决策过程中制造不确定性”。报告进一步指出,“在竞争中展示的能力会破坏对手的信息战行动,并在其决策过程中产生复杂性和不确定性”。

这与俄罗斯的做法类似,旨在为决策周期注入模糊性,以创造机动空间,剥夺关键信息并造成瘫痪。

虽然陆军的小册子没有定义或使用决策优势一词,但它确实使用了决定性空间,并将其定义为 “时间和空间(物理、虚拟和认知)上的位置,在这些位置上,充分优化跨域能力的运用会对敌方产生明显优势,并极大地影响行动的结果”。这似乎是对我们熟悉的 “决定点 ”概念的改编,与大国的概念相似,即选择对手系统中的关键点并设计反击系统加以对抗。

TRADOC 525-3-1 还讨论了预测性维持行动: 精确后勤可通过以下方式实现:具有预测分析工具和无需请求即可补给和/或根据优先次序重新分配补给的能力的后勤企业资源规划决策支持系统(着重号后加);可供各级指挥官和后勤人员查看的实时共同行动画面。

这种系统对于支持灵活的作战部署或其他形式的动态部队部署是绝对必要的。

最后,陆军的综合运用行动旨在协调 “与信息相关的能力(IRC),与其他行动路线协同作战,以影响、欺骗、扰乱、腐蚀或篡夺敌人和对手的决策,同时保护我们自己的决策”,并影响敌人和民众的战斗意志。TRADOC 525-3-1 强调削弱敌方决策能力,并建议保护美国的类似能力。根据 TRADOC 525-3-1 的构想,赢得优势的主要方法是攻击敌方的认知,而不是建立优越的程序和信息环境。

图 2. 美空军指挥与参谋学院联合全域战略家计划演习的决策支持矩阵

确定决策优势

鉴于 OODA 循环概念强调人为因素、速度和信息优势以及主动权概念的核心地位,本文提出了决策优势的定义。第一部分定义了决策优势本身,第二部分将 JADC2 置于 OODA 概念和人为因素的背景下,并通过对手的作战方法加以说明: 决策优势是指在正确的时间获取并识别正确的信息(信息优势),及时做出决策并将其转化为行动,以及夺取或保持主动权。

美国空军最近发布了空军条令出版物 3-99/太空部队条令出版物 3-99《空军部在联合全域作战中的作用》,将决策优势定义为 “态势理解的产物,通过保持全域优势来保证和交换信息、做出和传达决策的能力”。这一定义有许多值得推荐之处。它强调的是理解而不是认识。与作者的建议不同,它强调沟通的中心地位,并将决策与沟通的需要联系起来。然而,它也提出了在所有领域保持优势的必要性,而这在实践中可能是不可能的--尽管毫无疑问,如果能以某种方式实现,这将是一个值得欢迎的情况。

然而,美空军的定义仍然缺乏强调决策优势重要性的核心要素--主动性的传递。为了更牢固地将决策与主动性联系在一起,对空军的定义可作如下修改: 对形势理解的产物,保证和交换信息的能力,作出和传达决策以在关键领域夺取或保持优势的能力。

无论采用哪种定义,决策优势都是由超强的理解力、信心和信任所支撑的,这种理解力、信心和信任能够克服模糊性并创造清晰性。决策可以夺取并保持对对手或竞争者的主动权,迫使其重新观察和调整方向,延迟其做出决定,并最终剥夺其行动甚至保持凝聚力的能力。同时,决策优势力求最大限度地扩大友军的行动自由、团结以及引导(对手)做出对美国有利的决策、目标和最终状态的能力,在一些俄罗斯文献中被表述为反身控制。

卓越的理解力来自于相关知识、经验、适当的智力工具、教育和培训;信心来自于清晰的理解、愿景、目的、权威和目标--或者说是已知的事物。信任通过建立关系来支持风险,从而抵御未知。因此,决策优势的对立面可能是瘫痪--无法确定方向、做出决定和采取行动。

大卫-爱泼斯坦(David Epstein)最近提出,跨领域和多领域知识--即学术领域的知识,而不一定是条令作战领域的知识--对于解决专业化世界中的棘手问题可能很有价值,这一点很有说服力。如果爱泼斯坦的观点是正确的,那么广泛而深入的教育是必要的,这样才能实现跨领域的知识转移,并为那些在专家看来难以解决的问题找到解决方案。此外,目前已知的人工智能固有局限性表明,适应性和灵活性是战胜相对狭隘但快如闪电的机器判断力的关键。

爱泼斯坦认为,跨领域知识是面对令人沮丧的模糊性时的有力武器,这与多域或全域作战是取得优势战胜对手的关键的军事概念相似。在这两种观点中,对来自单一领域之外的信息的了解或认识可以产生重要的优势。

乌克兰部队的小单元创新与俄罗斯部队的集中式方式形成了鲜明对比。乌克兰军民凭借技术优势,不断创新技术和战术,令对手无所适从。M142 高机动性火炮火箭系统、美国情报、监视和侦察系统、标枪导弹和无人机等技术使乌克兰军队在远距离作战时更加灵活。这些技术本身并没有让俄罗斯军方感到困惑,但与这些技术相结合的创新步伐或许才是。

同样,教育的广度可能有助于防止瘫痪,使人们能够迅速综合并解决棘手的问题。这将是必要的,因为模糊信息和虚假信息的注入肯定会对支持机器计算和人类判断产生不利影响,从而让人类填补空白。我们需要高质量的教育和培训,以应对有目的地注入模糊信息所带来的困难,以及子系统受到攻击和崩溃时产生的迷雾和摩擦。

在追求现代化和利用新兴技术潜力的过程中,JADC2 系统的最薄弱环节和最薄弱环节将是人类操作员和他们所操作的组织。然而,各级决策者仍然需要理解以接近机器速度呈现的信息--他们必须具备态势感知能力。视角、偏见、文化、身份和其他因素赋予信息以意义,并为作战信息的传递提供了另一种视角。教育是对抗窒息性组织狭隘性的一种方法,即使 JADC2 以任何形式实现,这种个人偏见也可能持续存在。

成为VIP会员查看完整内容
48

大型语言模型(LLMs)和扩散模型,如ChatGPT和Stable Diffusion,具有前所未有的潜力。由于它们经过了对互联网公开文本和图像的训练,它们可以为各种任务做出有用的贡献。随着入门门槛的显著降低,几乎任何开发者都可以利用LLMs和扩散模型来解决以前不适合自动化的问题。通过本书,您将获得生成式AI的坚实基础,包括如何在实践中应用这些模型。大多数开发者在首次将LLMs和扩散模型集成到他们的工作流程中时,往往难以从中获得足够可靠的结果以用于自动化系统。作者James Phoenix和Mike Taylor向您展示了一套称为提示工程的原则,这些原则可以使您有效地与AI合作。学习如何让AI为您服务。本书解释了:

  • 您程序的AI模型的交互链结构及其之间的细化步骤- 如何将应用问题转化为模型训练领域的文档完成问题,从而产生AI模型请求- LLM和扩散模型架构的影响——以及如何与其最佳互动- 这些原则在自然语言处理、文本和图像生成以及代码领域的实践应用书评“这是我读过的关于提示工程的最好的书籍资源。Mike和James是他们领域的专家。” ——Dan Shipper,Every联合创始人兼CEO“这本书是生成式AI和提示工程基础知识的一个坚实介绍。作者涵盖了从初学者到高级用户的各种有用技巧,简单、实用且易于理解。如果您希望提高AI系统的准确性和可靠性,这本书应当在您的书架上。”——Mayo Oshin,Siennai Analytics创始人兼CEO,LangChain早期贡献者“Phoenix和Taylor的指南是生成式AI浩瀚海洋中的灯塔。这本书成为了我们团队在Phiture AI Labs学习如何利用LLMs和扩散模型创建与客户应用和游戏本质相符的营销资产的基石。通过提示工程,我们能够大规模生成定制的品牌内容。这不仅仅是理论;这是将AI的原始潜力转化为定制解决方案的实践大师课程,使其成为希望将AI集成提升到新的创造力和效率高度的开发者的必读书籍。” ——Moritz Daan,Phiture移动增长咨询公司创始人/合伙人

“《生成式AI的提示工程》可能是未来保障您技术职业的最具前瞻性的方法。这无疑是任何从事AI实际应用工作的人的最佳资源。这里面丰富、精炼的原则将帮助新老AI工程师在未来可预见的竞争中保持领先。” ——Ellis Crosby,Incremento CTO兼联合创始人“这是代理和服务专业人员的必备指南。将AI与服务和客户交付结合起来,利用自动化管理,加快解决方案的速度,将设定新的行业标准。您会在书中找到有用、实用的信息和策略,使您能够充分理解和利用AI的潜力。” ——Byron Tassoni-Resch,WeDiscover CEO兼联合创始人作者的话自2020年GPT-3测试版以来,我们一直在做提示工程,当GPT-4推出时,我们发现许多我们曾使用的技巧和窍门已不再必要。这促使我们定义了一套可跨模型和模态转移的面向未来的原则,这些原则在使用GPT-5或未来的任何模型时仍然有用。提示的五项原则是:1. 提供方向:详细描述所需的风格,或参考相关的角色。2. 指定格式:定义要遵循的规则和响应的必要结构。3. 提供示例:插入一组多样的测试案例,其中任务已正确完成。4. 评估质量:识别错误并评价响应,测试驱动性能的因素。5. 分工:将任务分成多个步骤,链式连接以实现复杂目标。我们首次在2022年7月以博客文章的形式发布了这些原则,它们经受住了时间的考验,包括与OpenAI自己一年后发布的提示工程指南高度契合。任何与生成式AI密切合作的人都可能会收敛到一组类似的策略来解决常见问题,但这本书旨在更快地让您达到这一点。在本书中,您将看到数百个提示技术的示例,包括文本和图像提示,以及使用Python构建AI自动化脚本和产品。这不是一个寻找正确魔法词组组合的提示技巧列表,而是一个构建系统的实用指南,提供AI应用所需的正确上下文,以及如何测试和扩展生产环境中的AI系统。如果您符合以下情况,这本书将对您有用:- 您的时间价值超过每小时40美元,阅读这本书节省的几个小时,而不是从多个来源拼凑一切,对您来说是值得的。- 您不仅是随便使用AI,而是实际在构建一个AI应用或内部模板,许多人每天将使用数百或数千次。- 您希望通过学习数百个如何解决AI常见问题的真实案例来减少幻觉并提高AI的可靠性。- 您希望比较OpenAI与其他模型的优缺点,以及LangChain等常见框架、不同的向量数据库选项和AUTOMATIC1111。- 您想看到从一个天真的提示到一个完整AI代理,包括使用Gradio构建基本用户界面的端到端AI应用构建过程。

成为VIP会员查看完整内容
47

开、闭源模型共存满足不同开发需求,多模态有望催生现象级应用。大语言模型方面,闭源模型是模型基础能力上限持续突破的主阵地,同时通过开放API的方式实现能力延展。此外,开源与闭源模型差距缩小,并通过微调进一步助推应用生态繁荣。多模态方面,在头部AI公司及细分赛道领先者的共同推动下,图像、音视频生成等多模态愈发成熟。此外,集成文本、语音等混合多模态模型推出,变革人机交互方式,有望在强交互性场景中催生现象级应用。

  海外文本编辑类应用表现亮眼,国内有望复制海外发展路径。从4月全球访问量前100网页版AI应用来看,可分为基于大语言模型的文本编辑类和代码编程类应用,以及基于多模态模型的图像类和音视频/游戏类应用,共四大类。其中文本编辑类因为基础模型能力技术较为成熟,因此应用最成熟:数量占比达58%,单月访问量过亿的8个应用中占7个。此外,现阶段海内外应用仍存在较大差距:海外前十AI应用单月访问量总和为55亿,而国内为1.2亿,头部产品ChatGPT单月访问量为18.6亿,国内Kimi为2004万。但从过去3个月来看,海内外前十应用的总访问量差距正逐步缩小。     模型能力决定应用体量的下限,场景适配度决定上限。文本编辑类:海外访问量最高的是聊天机器人,其次是搜索引擎。因模型能力与场景适配度高,虚拟角色和教育应用体量上限较高:前者因容错率高有望随模型能力提升实现线性增长,而后者因容错率低需要模型出现较大迭代后方能实现体量突破。图像类应用:多数应用集成了图像生成和编辑功能,未来有望通过加深与B端场景融合实现规模增长。音视频/游戏类:全球视频和游戏市场规模均超1万亿元,场景天花板高同时AI适配度高。但因受限于多模态模型能力,目前尚未有过亿的应用。未来在AI深度赋能行业创作工作流的同时,AI+UGC视频和UGC游戏将是C端现象级应用的重要方向。

成为VIP会员查看完整内容
47

在本论文中,我们研究了机器学习算法的分布内泛化,重点是建立严格的泛化误差上界。我们引入并分析了量化学习算法与训练数据之间依赖关系的信息论界,脱离了传统的复杂性基础方法。我们考虑了两类泛化保证:

-** 期望保证**。这些界衡量平均情况下的性能。这里,算法与数据之间的依赖关系通常由互信息或基于f-散度的其他信息度量来捕捉。虽然这些度量提供了直观的解释,但可能忽视算法假设类的几何结构。为了解决这一限制,我们引入了使用Wasserstein距离的界,Wasserstein距离结合了几何考虑,但数学上更复杂。此外,我们提出了一种结构化、系统的方法,以推导出捕捉算法与单个数据之间以及算法与数据子集之间依赖关系的界,这些界是基于已知其他数据条件下的。这类界提供了更深入的见解,我们通过应用它们推导随机梯度Langevin动力学算法的泛化误差界来证明这一点。

  • PAC-Bayesian保证。这些界以高概率衡量性能水平。这里,算法与数据之间的依赖关系通常通过相对熵来衡量。我们建立了Seeger–Langford界和Catoni界之间的联系,揭示了前者由Gibbs后验优化。此外,我们为各种损失函数(包括有界范围、累积生成函数、矩或方差)的损失函数引入了新的、更紧的界。为此,我们引入了一种新的技术来优化概率陈述中的参数。

我们还研究了这些方法的局限性。我们提出了一个反例,其中大多数现有的(基于相对熵的)信息论界失效,而传统方法则不会。最后,我们探索了隐私与泛化之间的关系。我们展示了具有有限最大泄漏的算法可以泛化。此外,对于离散数据,我们推导出差分隐私算法的新界,这些界随着样本数量的增加而消失,从而保证即使在隐私参数不变的情况下也能泛化。这与文献中的先前界形成对比,后者需要隐私参数随着样本数量的增加而减小才能确保泛化。

成为VIP会员查看完整内容
45

工具学习就是让语言模型学会使用工具,遵循人类的指令,操纵工具来完成任务。这里的工具可以是软件程序,比如搜索引擎、知识库、文档阅读器、图像识别模型等等,也可以是硬件设备,比如家用电器、机器人等。语言模型通过对环境中的工具进行调用和交互,利用工具反馈的信息,最终给出满足要求的高质量结果。

成为VIP会员查看完整内容
47

计算机视觉近年来取得了巨大进展,其应用多种多样且增长迅速,但仍存在许多挑战。本书汇集了一系列领先研究人员,探讨了计算机视觉及其应用的各种研究方向、挑战和前景。 本书重点介绍了领域内顶尖研究人员提出的各种核心挑战及解决方案。涵盖了数据驱动的AI、生物识别、数字取证、医疗保健、机器人技术、娱乐和XR、自动驾驶、体育分析和类脑计算等重要话题,涵盖了学术和工业研发的视角。通过广度与深度的结合,本书将在计算机视觉、成像和AI领域产生深远影响。 《计算机视觉:挑战、趋势和机遇》涵盖了计算机视觉及其应用的及时和重要方面,突出未来的挑战并提供来自全球顶尖研究人员的各种视角。作为一个重要的思想和最新解决方案的合集,它将为学生、研究人员和行业从业者带来巨大益处。

关于作者 Md Atiqur Rahman Ahad, Ph.D.,IEEE高级会员,OPTICA(前OSA)高级会员,达卡大学(DU)电气与电子工程教授。目前,他在日本大阪大学担任特别聘任副教授。他的研究领域包括计算机视觉、成像、物联网、医疗保健等。他获得了2018年由孟加拉国总统颁发的UGC金奖、JSPS博士后奖学金以及多个奖项/奖学金。他曾在KIT担任访问研究员,已出版十余本书籍和约200篇期刊文章、会议论文和书籍章节。他在各种会议/期刊/学会中获得了约40个国际奖项,曾约110次被邀请在不同的会议/大学中担任主旨发言人。他建立了多个国际合作备忘录/合作关系(如克莱姆森大学、兵库大学、RCCIIT、福冈女子大学、九州大学等)。 网站:http://ahadVisionLab.com Upal Mahbub, Ph.D.,IEEE高级会员,目前在美国加利福尼亚州圣地亚哥高通技术公司的多媒体研发实验室担任高级工程师。他在马里兰大学帕克分校获得电气和计算机工程博士学位(2018)和硕士学位(2017)。在攻读博士学位之前,Mahbub博士是孟加拉国工程技术大学电气与电子工程系的助理教授。Upal Mahbub获得了IEEE UEMCON 2016最佳论文奖、BTAS 2016最佳海报奖、ICCIT 2011最佳论文奖以及马里兰大学A. James Clark工程学院的杰出研究生奖学金。他在国际会议和著名期刊上发表了三十多篇文章,最近出版了一本题为《无接触人类活动分析》的编辑书籍,担任国际期刊的编辑(PRL特刊AHAAGR 2021的客座编辑,IJCVSP的副编辑),在众多会议上展示了他的研究,并在ICIEV(2012-2021)、IVPR(2020赛道主席、2021程序主席)、ICECE(2010和2012)和ABC(2019、2020、2021)的技术和/或程序委员会中任职。 Matthew Turk, Ph.D.,IEEE会士,IAPR会士,现任芝加哥丰田技术学院(TTIC)院长,美国加利福尼亚大学圣巴巴拉分校计算机科学荣休教授,在那里他共同指导UCSB Four Eyes实验室,专注于成像、交互和创新界面。他在麻省理工学院获得博士学位,曾在Martin Marietta Aerospace、LIFIA/ENSIMAG(法国格勒诺布尔)、Teleos Research和微软研究院工作,在微软研究院时,他是视觉技术小组的创始成员。他担任了多次主要会议的大会主席或程序主席,包括ACM多媒体会议、IEEE自动人脸与手势识别会议、ACM国际多模式交互会议、IEEE计算机视觉与模式识别会议和IEEE冬季计算机视觉应用会议。他在2014年共同创办了一家增强现实初创公司,2016年被PTC Vuforia收购。Turk博士获得了多项最佳论文奖,并且是ACM会士、IEEE会士、IAPR会士,并获得了2011-2012年富布赖特-诺基亚信息与通信技术杰出主席奖。 Richard Hartley, Ph.D.,IEEE会士,澳大利亚科学院会士,澳大利亚数学学会会士,是澳大利亚国立大学信息工程系计算机视觉小组成员,自2001年1月起在此工作。他在加拿大多伦多大学完成数学博士研究(1976年),并在同一大学获得数学硕士学位(1972年)以及斯坦福大学计算机科学硕士学位(1985年)。Hartley博士从1985年到2001年在通用电气研发中心工作。在1985-1988年期间,他参与了电子设计的计算机辅助设计工具的设计和实现,并创建了一个非常成功的设计系统叫Parsifal硅编译器。由于这项工作,他在1991年获得了通用电气的Dushman奖。

成为VIP会员查看完整内容
46

图:2019 年 5 月 8 日,美第 11 装甲骑兵团和威胁系统管理办公室在加利福尼亚州欧文堡国家训练中心的 "拉齐什 "战役中维护了四十多架无人机群,以测试轮换单元的防空能力。这次演习是在国家训练中心举行的众多演习中的第一次。

现在的处境(场景、论点、挑战、模式)

人工智能(AI)使军事规划人员有可能迅速调整训练场景,以支持战场上不断发展和变化的情况。当前作战环境中最大的挑战之一是如何跟上不断发展的技术步伐。高超音速武器和太空领域战争等高科技能力引发了大量关于未来战争如何发展的理论。布鲁金斯学会(Brookings Institution)等政策智囊团提出,闲逛弹药、人工智能驱动的无人水下航行器和无人机群等技术将在下一次大规模冲突中变得司空见惯。然而,国王学院兵棋推演网络(Wargaming Network)主任伊万卡-巴尔扎什卡(Ivanka Barzashka)认为,许多学者目前并没有致力于开发人工智能驱动的兵棋推演和下一代战争建模所需的认识论。虽然或许可以利用人工智能发动下一场战争,但可能错失了利用同样的技术进行训练以创建全部队训练环境的重要机会。

军方发现自己必须提高灵活性,加快在不断变化的战场环境中训练部队的速度。采用基于人工智能的能力来开发支持美国国防部(DOD)指挥作战训练中心局(CTCD)的场景,可以提高训练中心适应外国威胁变化的能力,同时允许在轮换期间根据 BCT 性能指标 "即时 "调整场景。应用人工智能辅助,国防部门就有机会提高场景开发的灵活性,使其与行动和不断变化的地缘政治条件保持同步。

在过去的二十年里,美军队训练部队作战的任务主要集中在伊拉克或阿富汗的低技术对手身上。接受巡逻行动训练的士兵侧重于连一级的个人目标瞄准。反叛乱(COIN)环境持续了二十多年,这两种环境对士兵的场景要求相对相似。士兵们关注的是类似的文化和不对称威胁,目标是大机动区域内孤立的人口中心。条令和 COIN 行动与培训环境同步缓慢发展,2004 年完成了场景开发,2006 年编写了反叛乱手册,2008 年整合了 COIN 行动培训战略。从全球反恐战争开始到复制战场的非对称性质,针对不断变化的环境进行场景开发和设计大约用了七年时间。多年来,CTCD 针对技术含量低的对手有效地调整了场景,但在下一阶段的战争中可能就没有这样的优势了,因为下一阶段的战争将更加复杂、更加联合,更有可能涉及大面积的城市地区。

在俄罗斯乌克兰战争和美国防部对太平洋沿岸作战的关注度越来越高之后,为下一个作战环境做好部队准备的场景开发正日益受到军事决策者的关注。柯蒂斯-泰勒少将(Curtis Taylor)指出,下一个战场将比以前的 "COIN "战斗 "更大、更快、更复杂"。国家训练中心(NTC)的专业对抗部队--第 11 装甲骑兵团将熟练使用低地轨道卫星、基于无人机的蜂群技术和社交媒体的能力扩展到为训练部队制造困境。为了迅速将这些能力纳入场景,需要对城市研究、文化研究、经济评估、政府研究和社会研究等多个文件进行调整和开发。由于需要大量人力,如何快速调整具有足够深度的场景,以提供身临其境的体验并训练部队,是一个需要克服的重大挑战。

美国防分析研究所的 Thomas C. Greenwood、Terry Heuring 和 Alec Wahlman 认为,下一场训练革命将需要 "创新和严格的训练与实验活动,以胜任大规模联合/合成全域作战"。随着美国转向大国竞争,训练场景必须变得更加强大,以促进以政治和军事方式进行作战和竞争。大国竞争训练本质上要求以联合方式应对冲突、开展强有力的外交活动,以及融合政治军事环境的场景。CTCD 的方法必须保持灵活性,以便在各种战场条件和环境下利用微小优势。它应允许快速应用网络、空间、信息战,并与其他政府权力要素协同开展整合行动。但最重要的是,它的场景开发需要快速创建有深度和丰富性的场景,让士兵沉浸其中。

促进未来 CTCD 场景变化的最有可能的解决方案是采用人工智能作为行动的基石。任何应用人工智能的方法都必须符合国家安全战略,与 CTCD 训练能力相嵌套,解决当前的局限性,并在 2030 年前成为可行的人工智能方法。本文认为,美国防部门已做好充分准备,利用人工智能日益增强的场景开发能力,不仅用于作战训练中心,而且用于整个部队。商业部门已经在利用人工智能的能力提供基于场景的训练,它将成为美国防部武器库中不可避免的新成员。

美国的战略指导

人工智能已成为现代美国防部词典中的热门词汇,其应用将继续成为管理与技术驱动型军事力量相关的庞大且不断增长的数据集的巨大推动力。《2022 年国家安全战略》认为,国防部需要在 "网络和太空领域、导弹击溃能力、可信人工智能和量子系统 "方面投资人工智能,以确保战场能力与竞争对手不相上下。国防部的《2023 年数据、分析和人工智能应用战略》提出,政府希望取得的成果是 "作战空间感知和理解",以及 "自适应部队规划和应用"。该战略指出,在未来几代国防部门中,人工智能技术将变得无处不在,新士兵将在日常活动中使用基于人工智能的能力。

美国《国家安全战略》和《国防战略》都没有具体说明如何使用人工智能支持训练目标。作为陆军技术转让计划的一部分,人工智能集成中心正在带头将人工智能融入美国陆军,并主要将其使用集中在远程精确射击和士兵杀伤力等能力上。当前人工智能工作的大部分关注点仍主要集中在自动驾驶汽车和后勤改进领域。在人工智能集成中心的十个人工智能现代化项目组合中,训练集成开发似乎并不是核心优先事项。虽然关注作战前沿应是人工智能集成的应有优先事项,但在将其纳入训练发展方面似乎错失了良机。

关于使用人工智能的指导仍处于起步阶段。埃隆-马斯克(Elon Musk)和其他人工智能项目开发人员已经向国会讨论了这些新兴技术的益处和危险。但是,由于国会的年龄中位数为 58 岁,参议院为 65.3 岁,因此立法部门对新兴人工智能进行有效军事政策指导和讨论的机会可能要推迟到下一个十年,直到这些技术的使用变得更加普遍。

当前的 NTC 和训练环境

在三个月的时间里,NTC 为作战部队轮换制定了两个新的场景,在 NTC 创造了大规模作战行动(LSCO)的可战场景。这些场景是对各作战分队机动作战训练的有效调整,而各作战分队在 LSCO 中的主要任务是通过机动与敌人近距离接触并消灭敌人。当前的场景适用于我们期望机动 BCT 在孤立的武力对武力冲突和防御行动中完成的共同任务(MET),通常没有外交、信息和经济方面的考虑。当有关民间和政府活动的问题与单元的机动计划纠缠在一起时,场景挑战就开始出现了。城市中的地方安全部队、地方医疗设施和作战行动中的电力中断等考虑因素对于进攻中的 BCT 来说并不重要,而且将这些考虑因素导入场景所需的时间也很繁琐。

创建所需深度的场景,让士兵充分沉浸其中,是一项单调而耗时的任务,通常不在现役军人或退役人员的一般技能范围内。场景开发人员需要掌握情报职能、民政、宪兵和公共事务等方面的知识,以及大量非军事信息,这些知识一般都要进行分流,以便使 BCT 在部队行动中实现其 MET。场景设计人员要花费大量精力为部队行动开发这些环境,但对他们来说,创建一个完整的场景所需的数据仍是一项艰巨的任务。

为了说明这一点,最近在美国家指挥中心的一次轮调中,观察员、教练员和教官监督了战场上敌军俘虏的投降和战术审问。迅速显现的是,敌方战俘和轮换单元士兵对场景中的政治和社会构建知之甚少。对步兵来说,这些因素并不影响与敌人会合并消灭敌人的 MET。然而,当 BCT 开始要求部队说明情况,特别是回答指挥部优先情报要求时,反对派部队士兵却因缺乏场景深度而无法提供必要的数据。信息匮乏造成的二阶和三阶影响包括:阻碍了公共事务部门为指挥官编制举行会议的声明的能力;混淆了战俘是平民还是军人的身份;缺乏评估敌方能力的情报;以及对敌方士气缺乏了解。该场景失去了成为整个部队训练活动的机会。

以前在国家指挥中心进行场景开发的尝试需要大量的专家,以及分析和更新事件的时间。本世纪初,由于二十年来一直专注于单一环境,随着时间的推移,场景的深度变得更加丰富。这些训练活动发展到涵盖巡逻基地行动,主要侧重于简易爆炸装置和伏击行动。在技术上,战争的重点是非对称对手,开发周期超过三年。随着重新将重点放在大国竞争和更先进的对手上,场景开发必须更加迅速和稳健。

NTC 初步测试人工智能辅助场景开发

2023 年,美国国家训练中心与 Scale Donovan 人工智能平台合作,探索将人工智能整合到国家训练中心的训练业务中。人工智能集成的初步构想解决方案从查询供应链管理到支持智能操作不等。Donovan展示了与研究相关的三项独特能力:利用多种语言模型的能力、在政府批准的系统上创建隔离的可搜索数据库以控制非机密信息的能力,以及创建预制数据表格以在类似约束条件下重复查询的能力。Donovan演示了增强场景开发的基本要求,并利用有限的手头资源提高了工作量吞吐量。

测试的初始阶段从使用非机密场景数据开始,以实现场景开发自动化,并支持基于研究的心理行动系列文档。人们迅速发现,在基础数据集中,场景文档足够强大,可以促进一个 BCT 在 LSCO 环境中开展进攻行动,但场景数据不够丰富,生成式人工智能无法完成任务。为了填补训练数据中的空白,使用条令库作为人工智能的参考资料基础,对数据库进行查询,以确定场景中的空白。有一次,人工智能认为,在场景中的城镇内,单位开展民政事务和作战行动后的巩固活动所需的污水、水、电、学术、垃圾、医疗、安全等方面的信息深度不够。人工智能参考孤立数据集的能力是以陆军条令为基础的。它找出了局限性,使能够锁定信息缺口。Donovan完成这项任务的独特性展示了未来识别场景开发中的局限性并提出数据集和场景创建以填补信息的能力。

测试的第二项能力是生成项目设计表格,允许用户以复制的方式设置请求参数。该模型允许用户设定查询特定主题的准则,制定研究方法,并通过人工智能生成的报告提供完善的回复。为了锻炼这种能力,在编制心理作战目标受众评估工作表时,力求通过人工智能生成的解决方案达到 80%。这份社会科学文件由十个小节组成,用于评估目标受众的易感性、脆弱性、可及性以及绘制个人行为变化图的有效性措施等要素。在确定了用于查询数据库的适当词汇后,发现人工智能能够为请求找到 70% 的解决方案。人工智能语言模型的局限性包括在定义社会科学术语方面存在挑战,以及无法理解《野战手册 3-53》(军事信息支持行动)和《技术手册 3-53.11》(影响过程活动)等条令文件中的某些上下文理解: 目标受众分析。我们还发现,我们所使用的数据库不够强大,目前的语言模型还无法使用社会科学模型进行推测研究。无论存在何种限制,人工智能都证明了它能够减少一项任务大约 10 个小时的工作量,并提高研究人员的效率。

在美国国家指挥中心使用人工智能方面的合作将继续受到部队的关注。如果当前美国防部的指导和预测保持一致,其能力最终将被整合到场景开发中。人工智能最终将支持部队为单个 BCT 量身定制场景并根据地理和外交变化进行调整的能力。我们甚至可以假定,这种能力最终将扩散到各 BCT 本身,为各单元提供在场景训练演习中创建连队特有场景的能力。这种能力对特种作战部队尤其有利,因为他们经常在分遣队一级的各种外交、信息、军事和经济环境中工作。宪兵、民政、牧师、军法检察官和网络士兵等单元将特别受益于丰富的场景创建,由于创建支持武力演习和其他军事活动的场景需要大量人力,目前许多单元训练演习都无法实现这种场景创建。

当前的局限与机遇

"垃圾进,垃圾出"这句话准确地描述了许多人工智能生成程序的现状。使用人工智能生成图像平台的补救尝试表明,这些程序在书写文字和独特的手绘方面存在挑战。在基于文字的使用中,输出结果通常缺乏人们对人类产品所期望的深度和清晰度。在没有强大数据集的情况下,各种创建陆军书面文档的尝试通常会导致输出结果不尽如人意。这些文件可能不符合正确的格式,即使要求程序使用陆军条例 25-50《准备和管理信函》作为指令基础也是如此。此外,在测试各种人工智能语言模型时,它在开发可称为 "创造性 "的信息方面表现出局限性,因为这种能力只允许复制性地创建参考信息。对于人工智能系统的所有潜在用途,我们看到的是一种仍处于初级阶段的能力。

人工智能目前产生的编码方式称之为受限编码和非受限编码。受限编码指的是系统建模,用于将信息截断为一个特定的答案;这在概念上类似于文本到模型的提示。使用人工智能识别大型卫星图像数据集中的装甲车辆就是这类编码的例证。受限编码的目的是减少模糊性,以提供具体的答复。第二种形式是无约束编码,或使用人类语言学来查询数据库,以增加响应的模糊性。无约束编码应用于 ChatGPT 等系统中的查询,"在拉德斯纳市创建一个虚构的城市场景,以及 SOF 民政单元进行民政侦察所需的数据"。人工智能有能力识别民事侦察的组成部分,但受限于它所能提供的关于民间抵抗组织和当地非营利组织等编造团体的数据。无约束编码需要苏格拉底式的查询和多种开发的研究模型。目前,在试图利用人工智能生成假设性问题或场景时,缺乏强大的示例数据库和人工智能的创造力挑战构成了问题,在这些问题或场景中,人工智能必须通过上下文线索将绝望的数据结合起来。

图:得益于人工智能、智能体组队和机器学习的进步,士兵们将为指挥官提供从各种不同来源收集到的关于敌人的实时信息,包括可能的行动方案,这将帮助他们在战斗中做出更好的决策。

目前的人工智能模型缺乏创新能力和对上下文线索的理解,这为图书馆学专业人员提供了一个机会,使他们成为军队应用人工智能的关键因素。一些人工智能公司已经发现需要图书馆员作为 "提示工程师",或在语言建模和数据库系统方面训练有素的个人,能够识别适当的数据库 "提示 "请求。正如电影《办公室空间》(Office Space)所强调的,工程师和技术用户之间存在沟通障碍,需要有人能够在两者之间进行翻译。提示工程师需要确定适当的研究模型、词汇和提示链,以便人工智能做出适当的回应。拥有图书馆学学位的人员在满足军队未来对人工智能使用的需求方面具有得天独厚的优势,是连接人工智能平台与能力需求的潜在招聘选择。

结论: 人工智能辅助场景开发的未来

随着人工智能的普及,将从 "数字原生 "时代进入 "人工智能原生 "时代。目前,技术和语言模型仍处于起步阶段,但在场景开发和实时场景操作中展现出了应用潜力。研究人员一直致力于人工智能辅助的《龙与地下城》场景活动设计,角色扮演者能够沉浸在一个世界中,这个世界提供故事情节,并在玩家尝试新颖策略时填补信息缺失。这与士兵们要求获得独特而有创意的信息,以解决看似超出当前条令的复杂问题并无二致。

人工智能在未来训练场景开发中的应用,为部队迅速适应丰富的演习机会提供了重要机遇。一旦开发出重要的数据集,人工智能将成为一种强大的训练辅助工具,不仅能支持 CTCD 行动,还能为学校训练新兵提供一种能力。领导者可以创建强大的环境,将 BCT 行动与政治和社会环境条件联系起来。人工智能可以为演习导演提供改变条件的机会,而不必担心场景不够强大,无法适应不断变化的条件。

开发随着技术发展而不断改进的场景对于确保美国在全球环境中保持相对优势至关重要。CTCD 能够为多种轮换制定强大的场景,这将实现 BCT 所期望的灵活性和个性化。例如,如果一个 BCT 正在为前往非洲的轮调进行训练,那么人工智能支持的场景开发可以确定伙伴部队、敌对部队、民事因素和基本人口统计的参数,从而定义一个适当的场景,使该单元的任务具有独特性。通过人工智能辅助开发,劳动者将过渡技能组合,成为提示工程师和场景质量控制管理者。

正如测试人工智能构建《龙与地下城》场景能力的研究人员所指出的,当前的技术已经具备了场景开发的能力,"然而,在将其部署给用户之前,还必须做更多的工作"。人工智能目前的局限性不应减缓军方对该技术的采用,而应表明国防部门有必要加大对该技术的投入。与陆军在潜力上提拔士兵的方式类似,也应该在训练场景开发中提拔人工智能,看重其改善士兵训练体验的潜力。

成为VIP会员查看完整内容
46

为了应对人们对生成式人工智能(GenAI)模型的安全性、保障性和可信性日益增长的担忧,从业者和监管者都将人工智能 "红队"(red-teaming)作为其识别和降低这些风险的战略的关键组成部分。然而,尽管人工智能红队在政策讨论和企业信息传递中扮演着核心角色,但对于它的确切含义、它在监管中能发挥什么作用,以及它与网络安全领域最初设想的传统红队实践之间的关系,仍然存在重大疑问。在这项工作中,我们确定了人工智能行业最近的 "红队"活动案例,并对相关研究文献进行了广泛调查,以确定人工智能 "红队"实践的范围、结构和标准。我们的分析表明,先前的人工智能 "红队"方法和实践在几个方面存在分歧,包括活动的目的(通常比较模糊)、被评估的人工智能产品、开展活动的环境(如参与者、资源和方法),以及由此产生的决策(如报告、披露和缓解)。根据我们的研究结果,我们认为,虽然 "红队 "可能是描述 GenAI 危害缓解措施的一个有价值的大帐篷想法,而且行业可能会闭门有效地应用 "红队 "和其他策略来保护人工智能,但将 "红队"(基于公开定义)作为解决所有可能风险的“万能药”的姿态近乎不可能。为了为生成式人工智能提供一个更强大的评估工具箱,我们将我们的建议综合成一个问题库,旨在指导和支持未来的人工智能 "红队"实践。

表 1:提出的用于指导未来人工智能红队活动的一系列问题。

成为VIP会员查看完整内容
41

数据要素是数字经济发展的核心引擎。从微观看,数据作用 于劳动者,便于人们学习、使用先进的知识和技术,提升人力资 源的素质,提高劳动生产率;数据作用于资本,可以辅助投融资 决策,更好地推动金融服务实体经济;数据作用于技术,可以重 塑创新范式,促进先进技术的传播、扩散,带动全社会生产力水 平的提升。从宏观看,数据作用于经济,可以优化资源配置,促 进生产方式变革,提升经济发展的效率与质量数据作用于治理, 可以推进政府管理和社会治理模式的创新,实现政府决策科学化、 社会治理精准化、公共服务高效化。

数据要素流通是贯彻落实《关于构建数据基础制度更好发挥 数据要素作用的意见》的重要体现,其以公共数据、企业数据、 个人数据为主体,以数据供需方、数据商、第三方专业机构、数 据监管方等为主要参与对象,实现数据产权、定价、流通、交易、 使用、分配、治理、安全的有效落地,促进数据供需双方的互通 对接,在数据资源化、资产化、资本化的过程中逐步释放数据价值。

在数据流通利用设施方面,基础设施的建设完善能够为数据 流通应用提供通用化的平台支撑、传输服务、跨域应用、标识管 理等能力,帮助数据要素在设计、生产、管理、销售、服务等全 生命周期的流程优化,进一步降低数据应用门槛,提升数字化水 平。亟需通过规范数据流通利用中数据接入、数据传输、流通平 台、流通应用等相关设施的技术、流程、管控要求,为不同行业、 不同地区、不同机构提供可信的数据共享、开放、交易环境,保 证数据要素更好推动数据要素赋能千行百业,促进数字化转型和 智能化升级。

成为VIP会员查看完整内容
39

深度学习在许多领域中表现出了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q 网络。在单模态神经网络的基础上,引入了许多多模态模型以解决视觉问答、图像描述和语音识别等一系列任务。具身智能中遵循指令的机器人策略的兴起推动了被称为视觉-语言-动作模型(VLA)的新型多模态模型的发展。它们的多模态能力已经成为机器人学习中的基础要素。为了增强多样性、灵活性和泛化性等特性,提出了各种方法。一些模型通过预训练来优化特定组件,另一些则旨在开发能够预测低级动作的控制策略。某些VLA模型作为高级任务规划器,能够将长远任务分解为可执行的子任务。在过去几年中,出现了大量的VLA模型,反映了具身智能的快速进展。因此,通过一篇全面的综述来捕捉这一不断发展的领域是至关重要的。

视觉-语言-动作模型(VLA)代表了一类旨在处理多模态输入的模型,结合了视觉、语言和动作模态的信息。该术语最近由RT-2 [36]提出。VLA模型被开发用于解决具身智能中的指令跟随任务。与以ChatGPT [62]为代表的对话式AI等其他形式的AI不同,具身智能需要控制物理实体并与环境互动。机器人是具身智能最突出的领域。在语言条件的机器人任务中,策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力,这就需要VLA的多模态能力。相比于早期的深度强化学习方法,基于VLA的策略在复杂环境中表现出更优越的多样性、灵活性和泛化性。这使得VLA不仅适用于像工厂这样的受控环境,还适用于日常任务,如烹饪和房间清洁 [33]。 深度学习的早期发展主要由单模态模型组成。在计算机视觉(CV)领域,AlexNet [63]展示了人工神经网络(ANNs) [64]的潜力。循环神经网络(RNNs) [65]为许多自然语言处理(NLP)模型奠定了基础,但近年来,Transformers [66]逐渐占据了主导地位。深度Q网络证明了ANNs能够成功解决强化学习问题。借助于各个机器学习领域单模态模型的进步,多模态模型已经演变得足够强大,可以应对各种任务 [67],如视觉问答、图像描述和语音识别等。 基于强化学习的传统机器人策略主要集中在受控环境中的有限任务集,如工厂和实验室。例如,[68]训练了一个专门用于抓取物品的策略。然而,对于更具多样性的多任务策略的需求正在增长,类似于最近在大型语言模型(LLMs) [62], [69]和视觉-语言模型(VLMs) [70]中的发展。开发多任务策略更具挑战性,因为它需要学习更广泛的技能并适应动态和不确定的环境。此外,任务规范增加了另一个层次的复杂性。一些方法使用单热向量来选择任务 [71],但它们受限于训练集中任务的数量。 基于预训练视觉基础模型、大型语言模型(LLMs)和视觉-语言模型(VLMs)的成功,视觉-语言-动作模型已经证明其在应对这些挑战方面的能力。来自最新视觉编码器的预训练视觉表示帮助VLA在感知复杂环境时提供更精确的估计,如物体类别、物体姿态和物体几何形状。随着语言模型 [36], [69]能力的增强,基于语言指令的任务规范成为可能。基础VLMs探索了将视觉模型和语言模型整合的多种方式,包括BLIP-2 [72], Flamingo [70]等。这些不同领域的创新赋予了VLA解决具身智能挑战的能力。 不同的VLA在重点方面有所不同,如图1所示的分类法所描述。一些VLA通过为机器人任务专门设计的预训练任务来增强其预训练的视觉表示,主要集中在获取改进的视觉编码器。同时,大量工作致力于机器人控制策略。在这一类别中,语言指令被输入到控制策略中,策略根据环境生成动作。这些动作随后被传送到运动规划器以执行。相反,另一类VLA作为高级任务规划器,抽象掉了低级控制。这些模型专注于将长远的机器人任务分解为可执行的子任务。这些子任务然后由控制策略逐一完成,最终完成整个任务。 相关工作。尽管目前缺乏针对VLA的综述,但相关领域的现有综述为VLA研究提供了宝贵的见解。在计算机视觉领域,综述涵盖了从卷积神经网络 [73]到Transformers [74]的各种视觉模型。自然语言处理模型在综述 [75], [76]中得到了全面总结。强化学习的深入综述可在综述 [77]–[79]中找到。图神经网络的综述也有相关文献 [80]。此外,现有的视觉-语言模型综述为VLA提供了灵感 [67], [81]–[83]。另外,也有一篇关于早期具身智能工作的综述 [84]。 贡献。这篇综述是具身智能领域首篇深入的视觉-语言-动作模型综述。

  • 综合评述。我们对具身智能中新兴的VLA模型进行了全面评述,涵盖了各种方面,包括架构、训练目标和机器人任务。
  • 分类法。我们引入了当前机器人系统中层次结构的分类法,包括三个主要组成部分:预训练、控制策略和任务规划器。预训练技术旨在增强VLA的特定方面,如视觉编码器或动力学模型。低级控制策略根据指定的语言命令和感知的环境执行低级动作。高级任务规划器将长远任务分解为由控制策略执行的子任务。 -** 丰富的资源**。我们提供了训练和评估VLA模型所需资源的概述,通过比较其关键特性来调查最近引入的数据集和模拟器。此外,我们还包括了广泛采用的机器人控制和具身推理任务的基准。
  • 未来方向。我们概述了该领域当前的挑战和未来的机会,如解决数据稀缺性、增强机器人灵活性、实现不同任务、环境和具身的泛化以及提高机器人安全性。 论文组织。§ II-A概述了单模态模型的代表性发展和里程碑。由于视觉-语言模型与视觉-语言-动作模型密切相关,§ II-B对视觉-语言模型的最新进展进行了比较。§ III探讨了各种类型的视觉-语言-动作模型。§ IV总结了具身智能的最新数据集、环境和基准。挑战和未来方向包含在§ V中。

视觉-语言-动作模型(VLA)是处理视觉和语言的多模态输入并输出机器人动作以完成具身任务的模型。它们作为具身智能领域中指令跟随机器人策略的基石。这些模型依赖于强大的视觉编码器、语言编码器和动作解码器。为了提升在各种机器人任务中的表现,一些VLA优先获取卓越的预训练视觉表示(见III-A节);另一些则专注于优化低级控制策略,能够接收短期任务指令并生成通过机器人运动规划可执行的动作(见III-B节);此外,还有一些VLA从低级控制中抽象出来,专注于将长远任务分解为由低级控制策略可执行的子任务(见III-C节)。因此,低级控制策略和高级任务规划器的结合可以视为层次化策略,如图3所示。本节内容组织涵盖了这三个主要方面。

成为VIP会员查看完整内容
40
Top
微信扫码咨询专知VIP会员