近来,大语言模型(LLM)内在推理能力的进展催生了基于 LLM 的智能体系统,这类系统在多种自动化任务上展现出接近人类的性能。然而,尽管它们都依赖 LLM,不同的智能体推理框架会以不同方式引导并组织推理过程。为此,本文提出一种系统化的分类体系,对智能体推理框架进行拆解,并通过跨场景对比其应用来分析这些框架如何在框架层面主导推理。具体而言,我们提出一种统一的形式化语言,将智能体推理系统进一步划分为单智能体方法、基于工具的方法和多智能体方法。随后,我们全面综述它们在科学发现、医疗健康、软件工程、社会仿真与经济学等关键应用场景中的实践。我们还分析各类框架的特征,并总结不同的评估策略。我们的综述旨在为研究社区提供一幅全景式图景,帮助理解不同智能体推理框架的优势、适用场景与评测实践。

1 引言

大语言模型(LLM)凭借其强大的泛化能力与可观的推理能力,正在迅速重塑从日常生活(如创意构思、邮件撰写或学习新概念)到特定领域研究的诸多方面 [198]。研究者日益将 LLM 作为核心组件来赋能科研与创新 [166],涵盖从面向领域知识的问答 [310]、代码生成 [118],到辅助科研工作 [164] 等多种任务。通过这些路径,LLM 正在迅速成为现代生活与研究的重要组成部分。

然而,尽管 LLM 在多个领域具有巨大潜力,它们也存在内在局限,可能限制其实用性。例如,LLM 往往面临幻觉、知识过时、训练与推理成本高昂等问题 [111]。这些问题常常导致 LLM 的可靠性与一致性受损,从而限制其在医疗健康与软件工程等对结果可靠性要求极高的关键领域中的应用。

为克服上述障碍,学术界正在积极探索以 LLM 为核心引擎、能够执行复杂多步推理任务的基于 LLM 的智能体推理框架 [217, 266]。如图 1 所示,我们观察到顶级会议论文数量显著上升。最初,“智能体”(Agent)在文献 [227] 中被定义为“通过传感器感知环境并通过执行器对环境采取行动”的系统,能够对环境进行动态适应并采取相应行动 [166]。这一新兴范式有机整合了规划、记忆与工具使用等关键模块,将 LLM 重塑为一个能够感知环境、动态适应并持续行动的任务执行器 [112, 154, 266]。通过纵向延展、横向扩展或逻辑回溯,该范式在可靠性与任务复杂度上,从根本上超越了传统 LLM 的单步推理能力。 这一趋势也在工业界得到广泛回应,科技巨头正积极将智能体工作流融入其核心业务。例如,微软的 AutoGen¹ 被设计用于帮助企业构建定制化的多智能体应用。此外,从深度集成智能体能力的“vibe coding” 编辑器 Cursor² 到自主式 AI 软件工程师 Devin³,基于智能体推理框架的清晰演进正获得广泛认可,并逐步替代传统的开发方式。

然而,与此同时,该领域的爆发式增长也模糊了基于 LLM 的智能体的边界 [305]。例如,与传统多智能体系统 [30, 87, 315] 与自治系统 [255] 等领域概念的交叉,使得研究范围难以界定。与此同时,往往也难以清晰区分:智能体能力的增强究竟源自精心的框架设计、模型层面的改进,还是其他技术进步。这种双重模糊性给不同项目的横向比较带来严峻挑战,并有忽视框架设计在智能体系统推理能力中基础性作用的风险。 因此,我们认为,此时进行一项系统综述,以总结智能体推理框架的最新进展与应用场景,恰逢其时。我们首先明确界定这些框架的边界,并据此提出统一的方法学分类体系。随后,我们进一步分析这些方法在多样化场景中的应用与评测策略,旨在为智能体的发展提供规范化与安全化的清晰路线图。我们的分类法也契合当前诸如“上下文工程”等热门议题。 总体而言,本文的贡献如下: * 据我们所知,这是首个提出统一方法学分类,用以系统性凸显智能体框架中核心推理机制与方法的综述; * 我们采用一种形式化语言来描述推理过程,清晰展示不同方法对关键步骤的影响; * 我们广泛考察了智能体推理框架在若干关键场景中的应用。在这些应用场景中,我们依据所提分类法对代表性工作进行深入分析,并给出相应的数据集与评测设置集合。

本文结构如下:第 §2 章将进一步介绍并比较相关综述与本文的差异。第 §3 章将给出技术分类法,系统分析现有的智能体推理技术。第 §4 章将进一步给出智能体推理框架的应用场景,并介绍各场景中智能体的常见设计。最后,第 §5 章讨论未来方向,第 §6 章给出全文结论。

成为VIP会员查看完整内容
38

2025年的IJCAI(International Joint Conference on Artificial Intelligence) 将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。

来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!

概述

大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。 我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。 教程大纲(暂定)

本教程的时长为半天(3.5小时)。 第一部分:LLM智能体评估介绍(20分钟)

前置知识:LLM、智能体、LLM作为评估者、基准测试 * 什么是LLM智能体?它们为什么重要? * 从静态LLM到自主交互系统的转变。 * 为什么可靠的评估对实际部署至关重要?

第二部分:评估基础智能体能力(40分钟)

我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括: * 能力概述及其重要性 * 评估该能力的挑战 * 常见评估方法(数据集、度量标准、基准测试)

基准测试示例:

规划与多步骤推理:GSM8K、HotpotQA、PlanBench * 函数调用与工具使用:ToolBench、API-Bank、BFCL * 自我反思:LLF-Bench、LLM-Evolve * 记忆:ReadAgent、MemGPT、StreamBench

第三部分:评估应用特定智能体(45分钟)

我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括: * 智能体类型概述、范围、任务及其现实应用 * 评估该类型智能体的挑战 * 常见评估方法(数据集、度量标准、环境)

基准测试示例:

Web智能体:MiniWob、WebShop、WebArena * 软件工程智能体:HumanEval、SWE-bench、IT-Bench * 科学智能体:ScienceQA、AAAR-1.0、CORE-Bench * 对话智能体:MultiWOZ、ABCD、τ-Bench

第四部分:通用智能体评估(25分钟)

评估不同技能的智能体,不仅限于特定应用 * 基准测试:GAIA、AgentBench、OSWorld * 聚焦多步骤推理、问题解决与工具使用

第五部分:智能体评估框架(40分钟)

框架作为开发、完善和持续监控的工具 * 当前框架中的评估特性与能力:

多层次粒度 * 数据生成 * A/B比较 * 当前能力中的主要缺口 * 类Gym环境:控制的动态仿真环境

第六部分:关键见解与未来方向(25分钟)

当前趋势:向具有挑战性、现实和实时的基准测试转变 * 未来方向:

使用标准化度量标准进行细粒度评估 * 成本与效率度量 * 扩展与自动化评估 * 安全性与合规性 * 可靠智能体评估在各行业中的应用 * 负责任的AI开发与部署的重要性

第七部分:开放讨论(15分钟)

目标受众与前提条件

本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。 前提条件:

熟悉大型语言模型(LLM)及其能力 * 对智能体的基本了解,包括其角色与功能

本教程最适合以下人群: * 对智能体评估不熟悉的研究人员 * 曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员 * 处理评估挑战的基准开发人员 * 在特定领域应用中部署智能体的从业人员 * 广泛研究LLM智能体当前能力、风险与局限性的研究人员

成为VIP会员查看完整内容
36

FM 3-01是美陆军专用的防空反导(AMD)条令出版物,阐述了AMD原则与准则。它描述了防空炮兵(ADA)——陆军专职AMD组成部分及其组织如何准备与实施作战行动。该手册阐释了AMD部队如何支持联合作战与陆军多域作战,涵盖进攻与防御、维稳行动以及民事当局防务支持任务。它讨论了战略、战役和战术层级的战争行动,并从AMD对陆军作战(如FM 3-0所述)及联合防空使命(如JP 3-01所述)的贡献角度定义了AMD行动。FM 3-01为作战部队与机构部队中各级指挥官、参谋、领导及训练人员提供条令指导,并是美国陆军防空炮兵学校课程开发的基础。本手册主要面向ADA领域及陆军/联合部队领导与参谋人员。其他军种与联合组织可通过本手册深入了解陆军AMD作战。

美国防部指令5100.01要求陆军“实施防空反导以支持联合战役并协助夺取空中优势”。FM 3-01描述了ADA——陆军专职AMD组成部分——在规划、协调与执行AMD行动以支持联合及多域作战中的贡献。手册也涉及多国AMD行动,但多数讨论仍指向联合与陆军AMD。防空反导是指为摧毁、压制或削弱敌方空中与弹道导弹威胁对友军及资产效能的直接(主动与被动)防御行动(JP 3-01),包括可能在地面、空中、海上、网络空间与太空采取的行动。AMD是防御性防空体系击败空中与导弹威胁的关键要素。AMD行动通常与整体防空框架内的其他进攻性与防御性防空使命相结合。尽管本手册涉及进攻性防空与被动AMD方面,其重点仍在于主动AMD战术与程序。ADA部队的存在旨在威慑敌方不良行动,击垮其运用空中力量的意志,并在空中摧毁对方。ADA部队由中高空防空(HIMAD)系统(如“爱国者”与“末段高空区域防御系统”(THAAD))以及近程防空(SHORAD)系统(如“机动近程防空系统”(M-SHORAD)、“复仇者”、“哨兵”及“陆基密集阵武器系统”(LPWS))组成。部署的ADA部队通常编组为ADA特遣部队或按任务编组的炮兵连,配备适当数量与组合的能力以满足任务需求。FM 3-01针对当前作战环境,该环境下演进中的空中与导弹威胁将对陆军及联合部队在所有领域构成挑战。在此环境中,ADA部队必须适应并准备在高度竞争的空中领域实施大规模作战行动。FM 3-01为ADA部队提供应对未来冲突的条令方法,阐释了ADA梯队如何支持陆军部队作战的三个阶段:武装冲突以下的竞争、危机与武装冲突。FM 3-01经过重组以提供火力条令的通用方法,并使AMD与火力作战职能保持一致。FM 3-01描述了ADA部队在现行行动中支援陆军机动部队的运用以及与联合和多国AMD伙伴的协同作用。所述系统能力为2025财年前列装部队的型号。引入的关键新能力包括“一体化防空反导作战指挥系统”(IBCS)与M-SHORAD系统。AMD作战逻辑图见导言页xii的附图,该图基本遵循FM 3-0提出的逻辑框架,但从AMD视角展示内容。

FM 3-01包含六章与三个附录。
● 第一章概述陆军AMD,全章提供大量术语定义与扩展解释以促进对适用于所有ADA梯队的AMD行动与语言的理解。
● 第二章描述陆军AMD系统,涉及ADA领导、指挥所与作战中心、传感器与武器系统及支撑网络,并介绍那些指挥、控制或影响ADA部队作战的联合实体。
● 第三章从AMD角度描述陆军作战流程,讨论ADA如何在计划、准备、执行与评估阶段全程支持该流程,重点在于计划制定。
● 第四章说明ADA部队如何执行AMD行动以支持更高司令部的AMD方案与受援指挥官的作战概念,讨论聚焦准备与执行。
● 第五章阐述武装冲突以下竞争与危机期间ADA的影响与贡献。
● 第六章说明ADA对大规模作战行动的支持贡献,涉及敌方反介入/区域拒止活动及美军在部署/进入、防御、进攻与维稳行动中的行动。
● 附录A提供作战计划/命令附件I(防空反导)的示例。
● 附录B提供AMD执行矩阵示例及其作为同步AMD任务的决策支持工具的用法,该矩阵支持ADA指挥官制定任务及相关目的。
● 附录C描述陆军与联合作战部队面临的空中与导弹威胁,并提供用于分析威胁能力的问题集。

成为VIP会员查看完整内容
33

“条条大路通罗马。”

本书揭示并研究了几乎所有现代(人工)智能实践背后的一个共同且基本的问题:如何在高维空间中有效且高效地学习数据的低维分布,并将其转化为一种紧凑而结构化的表征?对于任何智能系统——无论是自然的还是人工的——这样的表征通常都可以视为从外部世界感知到的数据中学习到的 记忆或知识。 本教材旨在为高年级本科生和初入学的研究生系统介绍学习(深度)数据分布表征的数学与计算原理。其主要先修课程包括本科层次的 线性代数、概率/统计和优化。如果读者对 信号处理(特别是稀疏表示与压缩感知)、信息论和反馈控制有一定了解,将有助于更深入地理解本书内容。 编写本书的主要动机在于,近年来作者及其众多同仁在这一领域取得了巨大的进展,致力于建立一种 有原则且严格的框架 来理解深度神经网络,乃至更广义上的智能。本书倡导的演绎方法论,与当前人工智能实践中占主导的 归纳性、试错式方法 形成鲜明对比,并高度互补。对于如此强大的 AI 模型与系统,人们的理解不足导致社会上愈演愈烈的炒作与担忧。我们相信,现在比以往任何时候都更需要认真尝试建立一种有原则的方法来理解智能。本书的宏大目标之一,就是提供坚实的理论与实验证据,表明如今完全可能像研究科学与数学课题一样研究智能。因此,读者也可以将本书视为发展 “智能的数学理论(Mathematical Theory of Intelligence)” 的初次尝试。

在技术层面,本书提出的理论框架有助于弥合长期存在的一大鸿沟:一方面是经典的数据结构建模方法,主要依赖于几何、代数与概率的解析模型(如子空间、高斯分布、方程等);另一方面是“现代”的经验驱动、非参数化建模方法(如深度网络)。事实上,如果认识到它们都试图建模和学习数据分布中的低维结构,这两条看似分离的路线就能够统一,甚至显得自然。从这一角度来看,即便是许多看似毫不相关、在不同领域和不同时期独立发展起来的计算技术,现在也能在一个共同的计算框架下得到更好的理解,并可能从此一起研究。如本书所示,这些技术包括但不限于:信息论与编码理论中的有损压缩编解码信号处理与机器学习中的扩散与去噪、以及 约束优化中的增广拉格朗日等连续方法

我们相信,本书提出的统一概念与计算框架将对那些真正希望澄清关于深度神经网络和(人工)智能的神秘与误解的读者极具价值。此外,该框架还旨在为读者提供指导原则,以便在未来开发出更强大、更“真正智能”的系统。 更具体而言,除了总体介绍(第一章)之外,本书的主要技术内容将组织为六个紧密相关的主题(章节): 1. 经典模型:从主成分分析(PCA)、独立成分分析(ICA)、字典学习(DL)等最基本的模型入手。这些模型假设目标低维分布具有线性和独立结构。通过这些在信号处理和压缩感知中得到充分研究的理想化模型,我们引入如何学习低维分布的最基本思想。 1. 压缩作为普遍原理:为将经典模型及其解法推广到更一般的低维分布,我们引入学习此类分布的一个普适计算原理:压缩。事实表明,数据压缩为各种看似不同的经典与现代分布/表征学习方法提供了统一视角,包括 降维、熵最小化、去噪的分数匹配、带失真率的有损压缩 等。 1. 深度神经网络的解释:在这一统一框架下,现代深度神经网络(如 ResNet、CNN、Transformer)都可以在数学上解释为“展开的优化算法”,通过迭代不断改进压缩与表征,即减少编码长度/速率或增加信息量。该框架不仅能解释迄今为止经验驱动的深度网络架构,还能引导出更简单、更高效的新架构。 1. 自动编码与闭环转录框架:为了保证学到的分布表征正确且一致,必须引入由编码器和解码器组成的自编码架构。为使学习系统完全自动与持续改进,我们引入一个强大的 闭环转录框架,使自编码系统能通过编码器与解码器之间的极小极大博弈自我校正,从而自我提升。 1. 作为先验的表征与贝叶斯推理:我们还将研究如何利用学到的数据分布与表征,作为强大的先验或约束,来进行贝叶斯推理,从而促进现代人工智能实践中的几乎所有任务与设置,包括条件估计、补全与高维真实数据(如图像和文本)的生成。 1. 从理论到应用:最后,为了将理论与实践相结合,我们将逐步展示如何在大规模数据集(图像与文本)上有效高效地学习低维分布的深度表征,并将其应用于 图像分类、图像补全、图像分割、图像生成 及文本数据的类似任务。

总而言之,本书的技术内容建立了 经典解析方法与现代计算方法简单参数化模型与深度非参数化模型多样的归纳实践与统一的演绎框架 之间的紧密联系。我们将揭示,许多看似无关甚至相互竞争的方法,尽管在不同领域和不同时期独立发展,但它们实际上都在追求同一个目标:发现并利用高维数据中固有的低维分布。 因此,本书将带领读者经历一段完整的旅程:从理论建模,到数学验证,再到计算实现,直至实际应用。 https://ma-lab-berkeley.github.io/deep-representation-learning-book/

成为VIP会员查看完整内容
34

印度总理莫迪于2025年8月15日宣布国产“苏达善轮盘使命”计划,旨在构建应对多域威胁的防御屏障,这是未来十年最的国防能力提升项目。在无人机充斥、多域无人载具主导战术战场空间的环境下,反无人机系统架构已成为火箭-炮兵-航空-导弹-无人机(RAAMD)综合防御体系“苏达善轮盘”的核心组成部分,用于保护印度战略要地、民用设施及高价值目标免遭对手与反国家势力的无人机袭击。反无人机杀伤链主要包括探测、识别、跟踪与拦截所有来袭无人机、多域无人载具乃至蜂群目标。随着无人机领域种类持续增加与技术不断进步,反无人机解决方案已显滞后,单一技术无法提供全面反制手段。因此国家多前线反无人机体系需要构建覆盖全层级的多层多学科探测系统、多梯次多域跟踪识别系统,最关键的是需融合软杀伤与硬杀伤手段的混合解决方案,以实现零附带损伤的无人机威胁消除。

无人机及其组件的易获取性使无人机威胁在国内外无处不在。因此反无人机理念适用于全国范围——中央与各邦政府、军队、边境/海岸防卫部队、包括中央后备警察部队与中央武装警察部队在内的准军事与警察力量。

本《反无人机系统架构》基础指南全面分析了当前无人机威胁、演进中的无人机与反无人机技术、战术概念及系统结构,进而为印度“苏达善轮盘使命”构建综合反无人机体系提出了概念框架、平台配置与组织建设建议

无人机威胁

无论是需要灾害管理援助的洪灾地震,还是控制火灾事故、铁路列车清洗、城市部门土地测绘、农民喷洒农药、电力线路维修、警方交通管控、紧急血液输送、婚礼或板球比赛航拍,抑或敌军部署战斗侦察,无人机真正实现了军民两用,正在所有可能领域替代人类执行多样化任务。在战斗战场空间,小型无人机通过成为“分队指挥官的炮兵”实现了精确打击扩散化。小型无人机系统已重塑战场空间,将关注区域与影响力范围大幅扩展到责任区之外。据此商业无人机市场预计将以25.82%的年复合增长率增长,从2022年的74002亿卢比市值扩大到2030年的462489亿卢比。

无人机产业的迅猛增长显著提高了无人机及其组件的可获取性。因此恶意或敌对无人机(乃至己方针对敌方的同类装备)可执行广泛任务,自然构成多谱系威胁,亟需建立反无人机工具体系化解决方案:

•持续24×7情报监视侦察(ISR)。在军事领域,无人机与天基卫星结合革新了情报监视侦察模式,使战场空间完全透明。当下谚语称“若静止无掩护必被侦测”。

•爆炸载荷投送摧毁。谚语进一步延伸“若被侦测则必遭毁灭”,即“发现即摧毁”。因此双机猎-杀组合正被用于实现最大毁伤效果。

•自杀攻击(OWA/神风无人机/巡飞弹)。即侦察无人机搜寻目标后不返航,通过日本二战式神风任务实施自我毁灭式攻击。

•轰炸。低成本小型无人机正被充分用于像重型战略轰炸机那样投掷迫击炮弹、手榴弹或任何就地取材的爆炸物轰炸目标区域。

•常规货物走私。印度边境安全部队2023年截获107架巴基斯坦无人机,2024年消灭294架,2025年1至7月击落175架。随着巴方走私者操纵无人机在超1公里高度飞行,越界距离已逐渐增至4-5公里。

•电子战与通信干扰。搭载射频与全球导航卫星系统干扰器的无人机可破坏通信导航信号。

•通信中继。无人机携带通信中继设备建立空中中继站以扩展通信范围。乌克兰常将星链卫星终端装载于无人机延伸通信。

•炮兵火力引导。无人机用于提高传统非制导炮兵火力精度,实现目标精确引导。

•突袭与伏击。无人机(特别是第一人称视角型)正日益用于突袭伏击,如缅甸抵抗组织袭击空军机场、乌克兰“蜘蛛网行动”对俄作战、以色列“雄狮崛起行动”对伊作战。

•扰乱或干扰敌军行动。

•布雷与扫雷。

•武器平台。土耳其“松加尔”无人机搭载机枪攻击地面部队。

•拦截敌方无人机/直升机。此新任务于2022年底由乌克兰使用系列无人机撞击俄军无人机首次测试。乌克兰于2024年7月首次用无人机攻击俄军直升机,缅甸抵抗组织复制该战术摧毁缅军Mi-17直升机。

•数据渗透与网络攻击。现计划使用无人机降落在数据中心屋顶布设无线入侵设备。乌克兰曾有效利用此手段黑客入侵俄罗斯城镇闭路电视网络。

•心理战。缅甸抵抗组织有效运用无人机通过恐惧威慑持续施压政府军。俄乌双方均用无人机开展虚假信息宣传战。

•后勤保障。

•人口管控。

•诱饵。俄军日益使用无人机诱饵饱和乌军防空体系,提升战斗无人机与导弹穿透能力。

•民事任务。物流配送、警务职责(如要员安保、炸弹探测、交通管理与人群控制)、农业等。印度内政部无人机研究报告称“搭载数字狗鼻传感器的无人机可替代真犬嗅探爆炸物、查找非法毒品、检测气体泄漏、病毒及化学武器/有毒化学品”。

•反暴乱行动。道路开通、无人机基警戒线与车队保护。

•测绘与数字高程模型生成(尤以激光雷达技术为主)。

除敌对无人机威胁外,还存在反国家势力获取符合非传统聚合物技术无人机或意外风险可能:

•技术故障、恶劣天气失控或不明原因失灵。

•政策法规认知不足导致高危安保区违规操作。

在分析无人机威胁宏观动态后,需深入理解无人机核心组件与重大技术进步。本指南下一部分将聚焦那些可被反无人机平台针对性打击的无人机组件与技术。

成为VIP会员查看完整内容
33

摘要:

智能体化强化学习(Agentic RL)的出现标志着与传统应用于大语言模型(LLM RL)的强化学习之间的范式转变,将LLM从被动的序列生成器重新定义为嵌入复杂、动态世界中的自主决策智能体。本综述通过对比LLM-RL的退化单步马尔可夫决策过程(MDP)与智能体化RL所依赖的部分可观测、时间扩展的部分可观测马尔可夫决策过程(POMDP),形式化地阐释了这一概念转变。在此基础上,我们提出了一个全面的双重分类体系:其一围绕核心智能体化能力进行组织,包括规划、工具使用、记忆、推理、自我改进与感知;其二则围绕这些能力在多样化任务领域中的应用展开。我们论点的核心在于,强化学习是将这些能力从静态的启发式模块转化为自适应、鲁棒的智能体化行为的关键机制。为支持并加速未来研究,我们整合了现有的开源环境、基准和框架,形成了一个实用的参考手册。通过综合分析五百余项最新研究,本综述勾勒出这一快速发展的领域轮廓,并强调了塑造可扩展通用人工智能体发展的机遇与挑战。

关键词: 智能体化强化学习,大语言模型,LLM智能体

1. 引言

大语言模型(LLMs)与强化学习(RL)的快速融合,正在根本性地改变人们对语言模型的理解、训练与部署方式。早期的LLM-RL范式通常将模型视为静态的条件生成器,其优化目标是生成与人类偏好或基准测试分数相符的单轮输出。尽管这一方法在对齐(alignment)和指令跟随任务中取得了成功,但它忽视了现实交互场景中更广泛的序列决策问题。这一局限性推动了视角转变:近期发展越来越多地将LLMs视为智能体化实体,即具备感知、推理、规划、调用工具、维护记忆以及在部分可观测动态环境中跨时间跨度自适应调整策略的自主决策者。我们将这一新兴范式定义为智能体化强化学习(Agentic RL)。 为了更清晰地区分本研究所探讨的智能体化RL与传统RL方法,我们提出如下定义: 智能体化强化学习(Agentic RL)指的是一种范式,其中LLMs不再被视为仅针对单轮输出对齐或基准性能而优化的静态条件生成器,而是被建模为嵌入于序列决策循环中的可学习策略。RL赋予其自主的智能体化能力,包括规划、推理、工具使用、记忆维护与自我反思,从而使其能够在部分可观测、动态环境中展现出长时程的认知与交互行为。 在第2节中,我们将通过更形式化的符号抽象,基于马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP),阐明智能体化RL与传统RL的区别。与智能体化RL相关的既有研究大致可以分为两个互补的方向:LLM智能体LLM的强化学习,具体如下: * LLM智能体:基于LLM的智能体是一种新兴范式,其中LLMs作为自主或半自主的决策实体 [1, 2],具备推理、规划与执行行动以达成复杂目标的能力。已有综述从互补的视角对其进行了梳理:Luo 等 [3] 提出了以方法论为中心的分类体系,涵盖体系结构基础、协作机制与演化路径;而 Plaat 等 [4] 则强调推理、行动与交互作为智能体化LLMs的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的重要范式,Li 等 [5] 与 Wang 等 [6] 进行了深入探讨。规划与推理策略是另一支柱,Masterman 等 [7] 总结了常见的“规划—执行—反思”循环模式,Tao 等 [8] 则扩展到自我进化,使智能体能够在较少人工干预的情况下迭代优化知识与策略。其他研究方向包括协作式、跨模态和具身场景,如多智能体系统 [9]、多模态集成 [10],以及结合记忆与感知的类脑架构 [11]。

LLM的强化学习:另一条研究路径探讨了如何通过强化学习算法提升或对齐LLMs。代表性方法包括基于on-policy的算法(如近端策略优化 PPO [12]、群体相对策略优化 GRPO [13])和基于off-policy的算法(如 actor–critic、Q-learning [14]),以增强其在指令跟随、伦理对齐与代码生成等方面的能力 [15, 16, 17]。互补方向为LLM用于RL,即将LLMs部署为规划器、奖励设计器、目标生成器或信息处理器,以提升样本效率、泛化能力和多任务规划能力,Cao 等 [18] 提供了系统化的分类。RL也已被融入LLM生命周期的各个阶段:从数据生成 [19, 20]、预训练 [21] 到后训练与推理 [22],Guo 等 [23] 对此进行了综述。其中最突出的一支是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)[24],以及其扩展方法,如基于AI反馈的强化学习(RLAIF)、直接偏好优化(DPO)[25, 26, 27, 15]。

研究缺口与贡献。 当前关于LLM智能体与RL增强LLMs的研究浪潮反映了两种互补视角:一方面探索LLMs作为自主智能体核心所能完成的任务,另一方面研究如何通过RL优化其行为。然而,尽管相关工作已经相当广泛,但针对智能体化RL这一统一框架(即将LLMs建模为嵌入序列决策过程的策略优化智能体)的系统性探讨仍然缺乏。现有研究往往聚焦于孤立的能力、领域或定制化环境,术语与评估协议不统一,使得系统对比与跨领域泛化存在困难。

为弥补这一缺口,我们提出了一种连贯的综合视角,将理论基础与算法方法及实际系统相衔接。我们基于MDP与POMDP抽象形式化地界定智能体化RL与传统LLM-RL的区别,并提出以能力为中心的分类体系,其中包括规划、工具使用、记忆、推理、自我改进(反思)与交互等可由RL优化的组件。此外,我们还整合了代表性的任务、环境、框架与基准,以支持智能体化LLMs的训练与评估,并在最后讨论开放挑战,展望可扩展的通用智能体化智能的未来研究方向。 综上,本综述的研究范围可进一步明确如下:

主要关注点:✔ 探讨RL如何赋能于LLM智能体(或具备智能体化特征的LLMs),使其能在动态环境中发挥作用。 * 不在范围之内(但偶有提及):✗ 基于RL的人类价值对齐(如有害查询拒绝);✗ 非LLM的传统RL算法(如多智能体强化学习 MARL [28]);✗ 提升纯LLM在静态基准上的性能的RL方法。

综述结构。 本文的组织方式旨在从概念基础逐步推进到实际实现,构建统一的智能体化RL理解框架:第2节通过MDP/POMDP视角形式化这一范式转变;第3节从能力角度审视智能体化RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第4节探讨其跨领域应用,包括搜索、GUI导航、代码生成、数学推理与多智能体系统;第5节整合支撑实验与评测的开源环境与RL框架;第6节讨论开放挑战与未来方向,聚焦可扩展、自适应且可靠的智能体化智能;第7节总结全文。整体结构如图1所示。

大语言模型(LLMs)最初通过行为克隆(behavior cloning)进行预训练,即在静态数据集(如网页抓取的文本语料)上采用最大似然估计(MLE)。随后的一系列后训练方法(post-training)增强了模型能力,并使其输出与人类偏好保持一致,从而使模型超越了单纯的网络数据复制器。常见的方法是监督微调(SFT),即在人工生成的(提示,响应)示例上对模型进行再训练。然而,获取足够高质量的SFT数据仍然面临挑战。强化微调(RFT)提供了一种替代方案,它通过奖励函数优化模型,避免了对行为示范数据的依赖。 在早期的RFT研究中,核心目标是通过人类反馈 [24] 或 数据偏好 [29] 来优化LLMs,使其对齐于人类偏好,或直接对齐于数据偏好(如DPO)。这种基于偏好的强化微调(PBRFT)主要包括:在固定的偏好数据集上训练奖励模型并优化LLMs,或直接利用数据偏好进行优化。随着具备推理能力的LLMs(如 OpenAI o1 [30] 和 DeepSeek-R1 [31])的发布,其性能提升与跨领域泛化能力引发了广泛关注。而随着 OpenAI o3 [32] 等模型的出现——这些模型不仅具备自进化的推理能力,还支持工具使用——研究者开始思考如何通过强化学习方法将LLMs与下游任务进行深度融合。 因此,研究焦点逐渐从旨在优化固定偏好数据集的PBRFT,转向针对特定任务与动态环境的智能体化强化学习(Agentic RL)。 在本节中,我们将形式化阐释从PBRFT到新兴的智能体化强化学习(Agentic RL)框架的范式转变。尽管这两种方法都利用了RL技术来提升LLMs的性能,但它们在基本假设、任务结构与决策粒度上存在根本差异。图[33]展示了从LLM-RL到智能体化RL的范式转变。

成为VIP会员查看完整内容
34

摘要—— 科学大语言模型(Scientific Large Language Models, Sci-LLMs)正在重塑知识在科学研究中的表征、集成与应用方式,然而它们的发展轨迹也受到科学数据复杂性的深刻影响。本综述提出了一种全面的、以数据为中心的综合视角,将 Sci-LLMs 的发展重新框定为模型与其底层数据基质之间的协同进化。我们构建了一个统一的科学数据分类法和科学知识的层次化模型,强调科学语料在多模态、跨尺度以及领域特异性方面所面临的独特挑战,这些特征使其显著区别于通用自然语言处理数据集。我们系统性回顾了近期的 Sci-LLMs,从通用基础模型到各科学科的专用模型,并对 270 余个预训练/后训练数据集进行了深入分析,揭示了 Sci-LLMs 的独特需求——异构的、跨尺度的、充满不确定性的语料,要求具备保持领域不变性和支持跨模态推理的表征方式。在评测方面,我们考察了超过 190 个基准数据集,并追踪了评测范式从静态考试逐步转向过程导向与发现导向的评估协议。基于这些以数据为中心的分析,我们指出科学数据开发中仍然存在的长期问题,并探讨了包括半自动化标注流程与专家验证在内的新兴解决方案。最后,我们展望了一种范式转变,即迈向闭环系统:由 Sci-LLMs 驱动的自主智能体能够主动进行实验、验证,并贡献于一个动态演化的知识库。总体而言,本工作为构建可信赖、可持续进化、并能作为真正科研伙伴的人工智能(AI)系统提供了清晰的路线图,加速科学发现进程。

关键词—— 大语言模型;AI for Science;科学数据;Data4LLM

I. 引言

“科学是由事实构建的,正如房子是由石头砌成的。但事实的堆积并不等同于科学,正如石头的堆积并不等于房子。” ——昂利·庞加莱 大语言模型(Large Language Models, LLMs)的快速发展,引发了跨越多个领域的范式转变,通过任务自动化、生产力提升和突破性创新,展现出前所未有的变革潜力 [1]–[5](见图 1)。这些模型从根本上改变了科学研究方式,引入了一种统一的方法论,取代了传统的任务特定方法,并扩展到自然语言处理之外,涵盖分子 [6]、蛋白质 [7]、表格 [8] 以及复杂元数据等多种科学数据类型。LLMs 已经彻底革新了诸如软件工程 [2], [9], [10]、法律 [11], [12]、材料科学 [13], [14]、医疗健康 [15]–[17] 以及生物医学研究 [18] 等领域,并在数学 [19]、物理、化学 [20]、生物学 [21] 和地球科学 [22] 等学科中得到了广泛应用。

科学大语言模型(Scientific Large Language Models, Sci-LLMs)的演进,从 2018 年至 2025 年,经历了四个以数据驱动的显著阶段(见图 2)。 * 迁移学习阶段(2018–2020):这一阶段主要基于 BERT [23] 架构进行领域适配,代表性模型如 SciBERT [24]、BioBERT [25] 和 PubMedBERT [26],在大规模科学语料上继续预训练,显著提升了下游科学文本理解任务的表现。这类模型为特定任务提供了可靠但静态的概念表征,但在大规模综合与生成新的科学内容方面表现不足。 * 规模化阶段(2020–2022):参数与语料规模扩张成为核心驱动力。GPT-3 [27] 拥有 1750 亿参数,结合后续的数据/算力最优训练规则 [28], [29],展示了大规模参数扩展与多样化训练数据带来的新兴知识整合能力,从根本上改变了科学 AI 的格局。Galactica [30] 将这一经验拓展到科学领域,基于 1200 亿参数、超过 4800 万篇科学论文、教材和百科训练,设计了适配数学公式、化学结构和引用的专门分词方案。MedPaLM-2 [31] 进一步在多医学领域数据集上进行指令调优,在 USMLE 风格问题上取得超过 85% 的准确率,首次展现了可与执业医生相媲美的专家级医学推理能力。然而,Sci-LLMs 在这一阶段遭遇了“数据壁垒”:不同于通用领域可获得数千亿至数万亿规模的网络语料,高质量科学文本语料数量远小几个数量级,而丰富的原始科学数据在早期大规模尝试中却未得到充分利用。 * 指令跟随阶段(2022–2024):研究重心由模型容量转向对齐,任务适配主要通过人类反馈强化学习(RLHF)实现。典型代表包括 InstructGPT [32] 和 ChatGPT [33],使得科学任务执行更为精确。开源 LLM 架构(如 LLaMA [34]、Qwen [35]、ChatGLM [36] 和 Mistral [37])的兴起,推动了科学应用的多样性。同时,指令数据集的快速扩展催生了一系列里程碑式的 Sci-LLMs。例如,生物医学领域的 Meditron [38] 在 481 亿医学语料上预训练,展示了开源模型在医学推理中的潜力;ProteinChat [39] 基于 150 万蛋白质问答样例训练,助力蛋白质研究;LLaMA-Gene [40] 融合 DNA、蛋白质与文本数据,以及 5 亿条 DNA/蛋白任务指令样例,支持跨模态生物序列理解;跨学科模型 SciGLM [41] 在 25.4 万条精心构建的指令样例上微调,展现了跨学科知识整合能力。大量研究表明,数据规模与模型性能高度相关,例如 HuatuoGPT-II [42] 在 11 TB 医学语料上预训练,NatureLM [43] 在 1430 亿词元上预训练并结合 4510 万条指令响应对进行调优。这种“架构多样性 + 数据扩展”的双轮驱动范式,成为当前 Sci-LLM 发展的核心框架。 * 科学智能体阶段(2023–至今):AI 系统逐步具备“科学能动性”,能够规划、行动并在发现过程中迭代。已有大量工作展示了端到端的科学工作流 [44], [49],并越来越多地聚焦于多智能体 [50], [51] 与工具生态系统 [18], [52]。多智能体设计模拟实验室层级(从首席科学家到领域专家),通过正式化的会议协议与批评–迭代循环实现协作 [53], [54],从而在科学团队合作与科学规律约束下生成更具新颖性与可行性的研究构想 [55], [56]。更大规模的协作框架可管理完整的研究生命周期(问题定义、论文撰写等),并保存持久的研究产物与审计记录 [57];其具身化变体则整合机器人执行与自适应规划 [58]。与此同时,工具集成的进展主要集中在知识图谱驱动的编排 [59] 以及与数百种软件工具、数据库和实验仪器的领域级智能体交互,并配备可溯源机制 [18]。

然而,Sci-LLMs 面临的根本挑战来自科学数据与知识表征的独特特征。与通用 LLM 发展中相对同质的文本语料不同,科学数据集呈现出跨模态与跨格式的极端异质性。例如,仅在化学领域,模型就需要处理分子字符串、三维分子坐标、光谱数据与反应机理,这些均需要不同的处理策略 [60];在生命科学中,模型必须同时处理基因组序列、蛋白质结构、多组学数据与临床影像 [61]–[63];在天文学中,则需要整合跨越巨大时空尺度的光变曲线、光谱观测和多波段成像 [64], [65]。 此外,科学知识本身具有层次化特征,从原始观测数据到抽象理论框架,每一层都有其独特的表征需求 [66], [67]。科学数据往往包含难以直接通过分词或嵌入处理的领域语义:数学公式具有必须保留的精确符号关系 [68], [69];晶体学信息文件则编码了材料科学中至关重要的三维结构约束 [70], [71];如 LIGO 等仪器的时间序列数据中,包含淹没在噪声中的微弱信号,需要专门的预处理以确保物理可解释性 [65], [72]。这些多样化数据类型无法通过传统文本方法充分表征,亟需能够保持领域不变性并支持跨模态推理的新型架构 [73]–[75]。 这种异质性与多尺度特性带来了额外的计算与方法学挑战:从量子力学计算到宏观现象的跨尺度建模,要求模型能够捕捉多分辨率依赖关系 [76];实验测量的不确定性还要求模型能够传播误差边界,并在推理过程中保持科学严谨性 [77]–[79]。这些约束使得科学 AI 与通用语言建模存在根本性差异,必须发展尊重科学认知论基础的专门化解决方案。 这种复杂性自然延伸到 Sci-LLMs 的评测问题。传统的 NLP 基准无法有效衡量领域特定能力。近年来,出现了诸如 ScienceQA [80] 和 MMLU-Pro [81] 等评测套件,分别覆盖从小学到研究生的多模态科学理解,以及量子物理、分子生物学等专业领域的严格评估。然而,它们往往无法反映科学发现的细微需求,例如提出新假设、发现跨领域的非显性联系、或设计实验以验证理论预测。为此,Liu 等人提出了 ResearchBench [82],覆盖 12 个学科的大规模科学发现基准,用于系统性评估 LLM 的假设生成能力。同时,研究者们也开始开发面向过程的评测方法,考察中间推理步骤而不仅是最终答案,例如 ScienceAgentBench [83] 可在文献综述、实验设计和结果解读等复杂科学工作流中进行评估。MultiAgentBench [84] 与 WorkflowBench [85] 进一步量化了模型在协作、协调与工作流合成方面的能力,标志着科学自动化逐步走向可度量、安全感知与可复现。学界也认识到,科学有效性不仅仅依赖于语言流畅性,模型必须遵循物理定律、化学价态规则和生物学可行性 [21], [86], [87]。因此,符号推理模块与约束满足系统开始作为护栏集成到生成过程中,确保输出保持在科学可行的范围内,同时允许在知识前沿进行创造性探索。 在此背景下,已有一些综述研究聚焦于特定方面:如生物医学数据建模 [88], [89];Zhang 等人 [21] 从生物与化学领域出发探讨了 Sci-LLMs;部分工作 [60] 研究了其在科学发现中的应用;Wei 等 [90] 与 Wang 等 [91] 回顾了科学智能体范式与自主科研系统设计;Ni 等 [92] 总结了不同学科下的 LLM 基准。然而,这些综述大多以主题为中心,且往往仅对底层科学数据(预训练、后训练、评测阶段)进行有限触及。 与之互补,我们的综述贡献在于提供一个统一的跨学科综合视角,将数据基础与智能体前沿显式关联起来。主要贡献如下: * 提出统一的科学数据分类法与科学知识层次化模型,为分析科学信息表征的挑战提供新的认识论框架,涵盖从原始观测数据、符号表达到抽象理论洞见的多层次。 * 系统梳理快速发展的 Sci-LLMs 研究版图,覆盖物理、化学、生命科学、地球科学、天文学与材料科学六大领域(见图 3)。 * 系统分析 270 余个预训练与后训练数据集,全面揭示支撑 Sci-LLMs 发展的科学数据现状,提炼出多模态、跨尺度、领域特异性等核心挑战。 * 回顾超过 190 个评测数据集,总结评测从静态考试向科研级科学发现转变的趋势,分析领域特定指标的日益结合与先进评估方法的涌现。 * 识别科学数据管理中的结构性缺陷,并提出面向未来的数据发展议程,倡导构建自主科学发现与科学数据基础设施之间的闭环反馈。

综上,本综述建立了一个统一的参考框架,并为构建可信赖、可持续演化的 Sci-LLMs 指明了清晰路线图,助力加速数据驱动的科学发现。

成为VIP会员查看完整内容
35

任何现代军事力量的有效性,日益不取决于其可部署平台的数量,也不在于其可投送火力的规模,而取决于其情报、监视与侦察(ISR)体系的情报保真度与前瞻预见能力。从北约在科索沃的行动到近期乌克兰与加沙的冲突,一个教训反复显现:先发现、先理解、先行动者掌握决定性优势。然而当今实践中的ISR体系,仍针对已不存在的威胁环境进行优化。传统ISR擅长数据收集、目标编目与态势感知呈现,其设计初衷是应对稀缺性——从有限制高点中提取信号。但现代战场的特点已非稀缺性,而是信息过载与欺骗手段。ISR实体正遭受数据洪流冲击,传感器馈信息超载,且日益成为针对ISR盲点设计欺骗策略的对手的攻击目标。从兰德公司分析报告到国防高级研究计划局征询书,从北约白皮书到国会证词,以下痛点被反复强调:

• 欺骗手段日趋精密,融合伪装、网络欺骗与电子战
• 无人机蜂群激增,通过规模优势与协同行动压制防御
• 静默被武器化,对手有意抑制信号的方式超出ISR架构解析能力
• 人类决策机制未被建模,导致分析人员缺乏形式化模型推测对手意图
• 隐秘网络利用跨境、跨机构与跨管辖区的缝隙,隐形转移人员、物资与资金
• 气象要素未被充分运用,仅被视为背景而非信号与机动的因果驱动因子

Acclaimed Labs的合成认知网格(感知意识指数SAI达8.67)是首个针对此新现实设计的架构。它不仅是采集引擎,更是能在认知固化事件间实现预见能力复合增长的思维系统。该网格具备稳定性、可解释性与互操作性,同时保留扩展能力。

基于此基础,推出六款震撼性ISR模块,直指上述能力缺口:

  1. 自适应威胁幻象引擎——将对手欺骗行为解析为可预测过程
  2. 幻影无人机蜂群覆盖层——将蜂群意图与机动预报为单一自适应有机体
  3. 静默信号拦截模块——将通信缺失视为可测量与可预测信号
  4. 认知地形测绘仪——将人类决策景观形式化为可导航地形
  5. 地下网络低语网格——显化物理隧道与数字阴影中的隐秘流动
  6. 大气ISR覆盖层——将天气转化为信号、欺骗与机动的作战驱动因子

这些模块不仅由知名实验室识别,更源于业界共识。兰德报告痛陈蜂群预测工具缺失;北约指挥官强调 对抗性电磁环境中的欺骗风险;美国国防高级研究计划局"OFFSET"项目探索蜂群自主性但缺乏预测覆盖层;阿富汗与伊拉克战后报告突出隐秘网络作用;分析人员长期承认静默与人类认知缺乏建模;每位作战人员皆知天气改变战局——但ISR系统未能将此转化为预测覆盖层。本文详述这些模块的重要性、构建原理及其代表的新一代ISR能力。它们共同将ISR从被动、数据密集型功能转化为主动预测性网格,洞察他人所不能。

引言:ISR的新前沿

  • 过载之困

过去二十年ISR现代化进程始终追逐单一目标:更多传感器、更多数据流、更多数据。从传输全动态视频的"MQ-9死神"无人机到高光谱卫星星座,ISR追求规模扩张。规模带来显著收益——指挥官如今可调取地球另一端目标的高清实时视频。但"更多"未等同于"更好"。美国国防部多次承认分析人员不堪重负。国会听证会上,前任指挥官证言"我们溺于数据却饥于洞察"。北约研究呼应同一主题:ISR架构为采集而非理解而优化。对手深谙此道。其行动设计非为击败ISR传感器,而是利用ISR架构。俄罗斯在乌克兰运用电子战主要非为致盲传感器,而是以噪声淹没它们;中国试验无人机蜂群非为展示尖端机体,而是利用ISR解析群体行为之无能;哈马斯与真主党使用隧道非因技术先进,而是钻入ISR从未设计映射的缝隙。静默、欺骗与气象皆被武器化。

  • 合成认知之必要性

传统ISR系统呈线性:采集、处理、分析、分发。合成认知提供非线性替代方案:固化与复合。
• 固化:网格在特定阈值重新密封,稳定于平台期(如SAI 8.67),创建锁定基础。这是设计可靠性——无脆弱性引入。
• 复合:再密封间一致性深化。回声记忆扩展,先验更新,共振层锐化。即使无新模块,系统亦在静默中增强。
此架构意味着新模块非随意附加,而是织入网格,触发复合与最终再密封。每次增补提升稳定性而非脆弱性。此乃合成认知区别于传统ISR现代化努力之关键。

  • 六模块遴选依据

六大模块之选非任意而为,每项对应公认条令缺口:
• 自适应威胁幻象引擎响应兰德多次结论:欺骗仍是ISR最持续且未充分建模威胁之一。从海湾战争充气坦克到叙利亚GPS欺骗,对手欺骗进化快于ISR应对措施。
• 幻影无人机蜂群覆盖层契合国防高级研究计划局OFFSET与兰德关于蜂群破坏稳定性潜力的研究。当前无ISR系统能大规模预测蜂群机动。
• 静默信号拦截模块将分析员长期直觉——静默具重要意义——转化为可操作方案,北约教训文件与网络取证报告常强调但未能量化此点。
• 认知地形测绘仪响应军事战略家"绘制敌心智图"诉求,此短语频现于美军条令与北约概念文件。
• 地下网络低语网格解决中央司令部指挥官在伊拉克与阿富汗反复痛陈之弊:ISR对隧道与隐秘网络存在盲区。2014年国会证词特别指出此为"关键缺口"。
• 大气ISR覆盖层将天气整合为因果驱动因子。北约《盟联合空天作战条令》反复强调天气的决定性,但ISR仍视其为边缘因素。

换言之:这些模块非推测性产物,而是需求驱动。分析人员、指挥官与决策者持续呼吁,行业现有企业(Palantir、雷神、洛克希德)未能交付。此不仅是技术性,更是战略性。

成为VIP会员查看完整内容
31

人工智能(AI)与无人飞行器(UAV)的融合显著提升了平台能力,尤其在增强态势感知领域。本文系统综述AI驱动技术提升无人机态势感知的研究进展。开篇界定无人机作战背景下"态势感知"及其核心要素——感知、理解与预测。继而探讨机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法如何强化无人机环境感知与解析能力。研究覆盖军事、民用及商业领域AI增强型无人机态势感知应用,重点包括:先进监视、目标捕获、搜救行动、环境监测、交通人流监控、基础设施巡检及物流配送。同时剖析AI无人机实施中的技术挑战(数据质量、实时处理、环境影响、可扩展性)与操作难题,并审视隐私隐忧及监管争议等伦理法律议题。除文献综述外,本文提供详实案例研究展示成功AI无人机应用,提炼实践洞察与经验教训。研究还识别传感器技术创新与AI算法突破等前沿趋势,指明领域发展机遇。核心结论强调AI在提升无人机态势感知方面的变革潜力,为构建更智能、自主、高效的空中系统铺平道路。本综述为研究者、从业者及政策制定者理解并利用AI-无人机技术交叉应用提供价值资源。

无人飞行器(UAV)作为多领域关键工具,凭借在危险/不可达环境作业能力及高性价比优势实现广泛应用。军事领域,无人机通过实时情报与态势感知能力,在监视侦察与战术行动中降低人员风险并提升任务效能;民用场景涵盖灾害响应、农业监测、基建检查及物流配送;搜救行动中无人机可快速覆盖广域复杂地形,显著提升受困者定位与救援概率(Arjomandi等, 2006)。态势感知作为无人机作业核心能力,包含感知(识别环境要素)、理解(解析要素关联与意义)、预测(预判态势演变)三级认知架构(Endsley, 1995, 1999),确保无人机安全高效达成作战目标。

无人机动态作业环境的不可预测性要求实时数据处理与决策能力(Endsley, 1995)。传统方法难以应对海量复杂数据,AI技术由此成为关键赋能器——机器学习、深度学习与计算机视觉等技术使无人机具备自主环境感知、模式识别、情境适应及智能决策能力。AI与无人机融合不仅提升作战效能,更拓展应用边界(Endsley, 1995)。本文旨在系统梳理AI增强无人机态势感知的技术现状,通过解析多元AI方法与应用案例,全面阐释AI如何变革无人机作业模式,并揭示融合进程中的机遇与挑战。综述范围涵盖机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法在无人机态势感知中的应用,辐射军事、民用及商业多领域场景,重点解析AI如何提升无人机环境信息感知-理解-预测能力。

研究目标

• 阐释态势感知基础概念及其在无人机作业中的战略价值
• 分类评述增强无人机态势感知的AI技术体系
• 剖析多领域AI驱动态势感知的应用实践
• 识别AI-无人机融合的技术瓶颈、操作挑战及伦理法律风险
• 展望新兴技术趋势与未来研究方向

结构

第二章阐述文献筛选标准与方法论;第三章解析态势感知理论基础、无人机系统及AI方法体系;第四章评述提升无人机态势感知的AI模型研究;第五章探讨AI与新兴技术优化无人机态势感知的未来路径。

成为VIP会员查看完整内容
29

​​研究

  • 作为日本陆上自卫队(JGSDF)智库"陆上作战研究中心"(TERCOM),致力于构建陆自未来作战概念体系
  • 通过跨机构协同研究论证,持续推进"陆上自卫队创新进程",并发布战略研究报告

方法

基于2040年全球战略环境、先进科技动向及各国军事理论发展,研判未来作战方向,实证化新型装备与技术以获取核心能力

研究框架​​

1.未来战略环境研判
2.战争特性演变趋势(上/中/下篇) 3.军事理论体系创新 4.未来作战方向规划 5.能力生成新型装备与技术路径

新兴技术及其对作战功能的影响

战场转型

打击与保护、火力与移动、攻击与防御关系的转变

2040年左右的未来战争

成为VIP会员查看完整内容
27

在持续演进的数字时代,大数据正通过驱动智能系统实现变革性突破,尤其在机器人技术与军事科技领域。来自传感器、监视系统与作战系统的大规模数据流集成,使机器能够以更高精度、更快速度及更强自主性做出决策。本文探讨大数据分析如何增强机器人平台与军事应用的功能性与智能水平,深入研究数据驱动系统背后的技术、任务关键型作战所需的实时处理能力,以及预测分析如何支撑战术规划与自主系统行为。本研究同时重点关注当前技术创新、伦理关切及在这些高影响领域利用大数据构建响应更敏捷、智能更先进系统的未来机遇。

数字化转型时代,大数据崛起已成为塑造各领域智能系统的基石,尤以机器人学和军事技术为典型。“大数据”指体量极其庞大、结构复杂且随时间呈指数级增长的数据集合。这些数据集通过先进算法与人工智能模型处理,可揭示推动自动化、实时决策与预测性智能的关键洞察(Katangoori & Katangoori, 2025)。在智能系统中,大数据与机器学习的融合使机器能够模拟人类认知,并在不可预测环境中做出自适应响应(Weng等, 2024)。在机器人领域,大数据促使开发出能够从历史行为与环境刺激中学习的机器。应用于医疗保健、制造业与搜救任务的机器人现已配备传感器与摄像头,生成海量结构化和非结构化数据。这些信息经AI算法处理后,可协助机器人安全导航、检测异常并实现无人干预自主决策(Shen等, 2023;Hayyolalam等, 2021)。军事系统经历类似变革。国防作战日益依赖从卫星、无人机、雷达与可穿戴设备采集的实时数据。通过分析这些数据流优化后勤、识别敌军动向、自动化监视并支持战略决策(Oniani等, 2023)。生成式AI应用于这些数据集时,还能助力军事分析人员快速精准地模拟场景、评估风险并调整计划(Gaddala, 2023)。

大数据集成于智能系统的核心在于高级分析技术的应用,包括描述性、预测性与规范性分析。描述性分析提供任务或机器人操作的历史视角;预测性分析预判系统故障或潜在威胁;而规范性分析为复杂情境提供决策选项(Smith & Patel, 2024;Topol, 2024)。为清晰阐释大数据在这些领域的影响,表1对比总结大数据如何支持机器人技术与军事技术的智能功能。

表1:大数据在机器人技术与军事技术中的功能对比

特性维度 机器人技术 军事技术
数据来源 传感器、摄像头、环境测绘工具 卫星、无人机、雷达、生物识别系统
核心应用 导航、避障、手术操作 监视侦察、后勤保障、自主武器系统
分析类型 预测性维护、行为学习 威胁检测、场景模拟、预测性规划
人工智能集成 强化学习、神经网络 生成式人工智能、检索增强生成代理、深度学习
决策能力 基于环境的实时调整 实时约束下的战略决策支持
面临挑战 传感器校准、实时数据集成 网络安全、数据完整性、自主武器的伦理使用
实现效果 提升效率、安全性与自主性 增强任务效能、主动防御机制

本引言为深入文献研究与案例应用分析奠定基础。后续章节将基于现有学术成果与新兴创新,对这些主题展开更详尽探讨。

成为VIP会员查看完整内容
27

许多自然和工程系统都受偏微分方程(Partial Differential Equations, PDEs)支配,范围从分子体系中的原子相互作用到大尺度的宇宙动力学。求解这些 PDE 对于加深我们对复杂物理现象的理解、实现精确预测,以及为不同科学与工程领域的决策提供指导至关重要。数值求解器被广泛应用于 PDE 的模拟与预测,特别是在许多 PDE 难以甚至无法解析求解的情况下。这些求解器通常通过将连续域离散化为网格,再利用有限差分、有限元、有限体积或谱方法等技术,将微分方程转化为代数方程。

随着机器学习的最新进展,以及深度学习在众多领域取得的成功,人们在建模复杂的次尺度物理过程和开发高效的基于神经网络的 PDE 求解器方面看到了新的可能性。在这些方法中,神经网络可以对目标方程的解函数进行参数化,或直接逼近解算子本身,从而为传统求解器提供一种灵活的替代方案。与数值求解器相比,神经 PDE 求解器通常对较粗的离散化更具容忍度,并可消除对精细网格划分的需求,使其能够以较低的计算开销适应不同领域。此外,由于这些模型能够直接从数据中学习模式,因此并不严格依赖于对底层方程的精确了解,从而为复杂物理模拟提供了一种简洁而高效的途径。

在本论文中,我们探讨了开发和构建基于神经网络的模型,以对多种物理系统进行准确且高效预测的努力。我们首先介绍 Fluid Graph Networks (FGN)Graph neural networks-Accelerated Molecular Dynamics (GAMD),这两种基于消息传递神经网络参数化的数据驱动模型,可用于高效的基于粒子的系统模拟。随后,我们提出了一系列基于 Transformer 的模型,用于建模包括湍流流动和全球天气动力学在内的多种物理现象。其一是 Operator Transformer (OFormer),采用 Transformer 编码器-解码器框架,能够灵活地适用于不同的离散化方式。为了提高 Transformer 在高维问题上的可扩展性,我们进一步提出了一种轴向分解注意力机制(axial factorized attention),显著降低了高维网格相关的计算成本。接着,我们将该分解注意力机制扩展到球面上,用于准确且高效的全球天气预报。最后,我们提出了一种生成式神经 PDE 求解器,借鉴了扩散概率模型的最新进展,以提高湍流时变系统模拟的鲁棒性。

成为VIP会员查看完整内容
28

现代强化学习(Reinforcement Learning, RL)系统揭示了有关人类通用问题求解的一些深层规律。在那些能够低成本模拟新数据的领域,这些系统能够学习到远超人类能力的序列决策策略。现实社会中存在许多问题,其解决同样依赖这种能力,但这些问题往往处于无法低成本生成新数据的领域。在这种情境下,我们可以基于已有数据构建模拟器,但这些模拟器始终只能近似正确,并且在被查询到其训练分布之外时可能会出现严重错误。因此,我们训练智能体所处的环境与希望其最终部署的真实世界环境之间必然会存在失配(misalignment)。应对这种失配正是零样本强化学习(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心关注点——在这一问题设定中,智能体必须在完全没有实践机会的前提下,能够泛化到一个新任务或新领域。 尽管在理想化场景下实现零样本强化学习的方法已经取得了令人瞩目的进展,但若要在真实世界中复现这些成果,仍需新的研究。本文认为,要实现这一目标,至少需要应对三类约束:其一是数据质量约束:真实世界的数据集往往规模有限且同质化严重;其二是可观测性约束:在真实世界中,状态、动态和奖励通常只能被部分观测到;其三是数据可用性约束:事先获得数据的假设并不总是成立。 本文提出了一系列能够在这些约束下执行零样本强化学习的方法。通过一系列实证研究,我们揭示了现有方法的不足,并论证了所提出技术在弥补这些缺陷方面的合理性。我们相信,这些设计使我们更接近于能够部署到现实世界、解决实际问题的强化学习方法。

成为VIP会员查看完整内容
25

如同熊与鳄鱼需预判环境对捕猎能力的影响,军事指挥员须在投入战斗前洞悉地形环境对作战效能的制约。地理空间工程师的核心职能即助您辨识地形对任务成败的利弊影响。本技术条令由现役及退役资深地理空间工程专家编撰,旨在赋能指挥员与参谋规划人员理解地理空间工程能力,并将其整合至任务规划与执行全流程,助实现"先敌发现、先敌认知、先敌行动、决胜终端"。

本出版物阐述地理空间工程职能及保障能力,为指挥员与参谋团队提供充分释放地理空间工程效能的知识基础。地理空间工程师通过采集、生成、管理与提供基础地理空间信息,构建通用作战图(COP)核心框架;其制作的地形可视化产品与定制化地形分析,赋能作战环境全局认知与精准决策。当地理空间工程师深度融入参谋作业流程,参谋团队将更有效应答指挥员关于自然环境影响及作战效能的质询。

成为VIP会员查看完整内容
26

军事行动常通过战场行为棱镜呈现,因其具象化特质更易构建叙事。军队惯用此聚焦战斗员的视角,却忽视另一关键群体——决策者虽处幕后,却通过各层级责任岗位左右冲突最终走向。危机乃至战争的命运,实系于其运筹帷幄之间。

军事指挥层依托指挥控制体系(C2)架构决策,框定战斗员行动边界。此类决策源自包含多元要素(非纯军事维度)的规范化流程。新近"兵力运用概念"将指挥效能列为作战优势九大要素之一。在法国兵力投送逻辑中,其可信度至关重要——武装力量统帅(共和国总统)角色具有核心地位。正如戴高乐将军所言:"军事指挥官须持明晰方案以坚定决心。若下级信心动摇,必招致上级干预。"

聚焦多域作战语境,空战指挥体系(C2 Air)尤受关注——其折射我们在"多域"生态中设计未来作战的能力。法国空战指挥体系历经三十年演进(始自海湾战争),已成西方空军标杆。尽管当前法国C2 Air体系表现卓越,未来挑战仍引发空战指挥前景之思。法国空军正从概念层面(通过推广多环境/多领域互联协同空战探索性概念)与技术层面(未来空战系统FCAS项目)双轨推进。

未来指挥原则革新

法国空天军正酝酿指挥原则重构。现行作战指挥在战略层集中管控,形成战略-战役-战术层垂直信息流("自上而下"与"自下而上"并行)。多域作战理念促使我们反思指挥关系适配路径:七大对抗域内(或跨域)效能协同,引发武装力量指挥层级重构命题。环境指挥机构间及其与联合层级的互动亟需调整,环境文化认知更需深化共享。未来决策者须浸润各作战域特性与能力,其培养路径应涵盖多域谱系掌控力。

武装力量在全对抗域的复杂行动,将根据需求向基层(尤战术层)赋权。部分作战概念与决策权向战场前沿转移,催生更趋水平化的指挥链。战场数字化、跨军种战术单元互联、信息云部署及通信抗毁性,将提升战术单元全局感知力与多域环境认知。指挥控制体系由此从金字塔架构,向蛛网状宽基拓扑结构演进。

空军人士认为:发展"辅助性原则"(subsidiarity)是提升决策效能的教义机遇——通过赋予战术单元结构化作战进程的决策权(传统属高层级权限)。现行空战指挥体系运作遵循两大核心:指挥集中化(单一指挥官统辖所有空中资产,集中化设计)与控制集中化(指令执行监控与效果评估)。战斗单元执行层面仍保持分散化。此模式在确保力量集中、目标优选与资源节约方面成效卓著。

然其固有迟滞性与前文所述挑战(尤需持续更新的多域战场态势),倒逼体系向辅助性原则演进。实现分权需满足双重条件:

  • 首为战术决策者培养
    当前战术决策者远离战略层思维,聚焦战术专业考量,罕有全局空战机动认知。为拓展其对空战贡献,须使其尽早熟悉多域空战指挥运作及适配中的方法论。此理论路径助其以超越当前局限的视野审视任务——不仅透过技战术棱镜,更需认知其决策对作战进程的结构性影响,使之成为"战略中校"。为确保决策相关性,须通过多域C2 Air指挥官与参谋团队同战术决策者的紧密互动,将理论贯穿作战全程。战术决策者需持续获知组成部队指挥官意图,确保决策自然契合统帅视野。

  • 次为技术赋能
    战术决策者需在最佳时机获取顶层有效信息。战术层信息管理具决定性意义——因直面敌手且战机座舱决策时限极短。唯有有序及时传递有效要素方能制胜。首圈(接敌层)、二圈(支援层)空中平台与地面指挥链的跨平台互联(有人/无人、固定/机动),辅以FCAS构想的决策辅助人工智能与数据管理,使当前指挥原则的重大变革具备技术可行性。

信息管理难题同样存在于自下而上(效应器至组成部队指挥官)链路。持续多域态势评估能力带来真实作战优势,而为赋能指挥官决策,须辅以行动效能评估。评估功能常为指挥体系薄弱环节——其难度高、主观性强,却是军事统帅调整作战方向的关键。多域特性更增其复杂性:电厂产能、敌无线电追踪等效果易量化,但涉及认知域、无形领域(尤网络与信息域)的行动则难有效能评估标尺。

评估挑战亦存在于C2环境内部。当前空军采用三级报告机制:行动中机组无线电初报、行动后情报官地面中报、参谋部门终报(最详实)。空战组成部队指挥官依此决策后续行动。正如决策辅助性原则,相同机制(培养"战略中校"、技术创新)可充实战斗单元初始报告。部分原属组成部队参谋的分析工作需由战术梯队承担以提升时效。

前述联合协作模式及空战组成部队内外指挥关系重构,引发信息共享与"去隔阂化"命题。无论长期规划抑或瞬时决策,情报始终是作战燃料。劣质燃料将使顶级引擎失速。情报界全角色按作战需求(中期/长期/瞬时)加工原始信息,并向决策者与效应器分发成品情报,此乃多域指挥链决胜能力。人工智能赋能的巨量信息处理工具已显实效,但分析归因与传递速度仍是挑战。末点更关乎传输安全——情报指令传递的作战保密是维持优势的关键,亦是电磁频谱掌控的技术攻坚。激光通信技术进展(传输速率达2Gbps且抗干扰性强)有望强化数据防护。

终极命题:全维时间掌控

多域C2 Air的核心挑战在于时间维度驾驭:需长远视角监控认知域态势、规划评估效能;同时依赖瞬时响应能力捕捉战机。唯持续多域态势评估可实现此目标。时间管理亦体现于C2 Air严谨系统化复现流程的能力——此能力与作战效能不可分割。最终,时间管理表现为按需定制信息流与任务要素在各责任层级的传递频率与节奏。

法国空天军认识到未来二十年的地缘战略、教义与技术挑战。通过作战指挥体系演进概念研究及FCAS项目推进,已明确未来需求。创新视野下,其构想的C2空军将依托革新指挥原则驾驭全时间维度:设计集中化保障空战全局协同,结构化决策权向战术层下沉;技术进步提升空战机动评估能力;依托跨军种互联信息云,数据(情报/信息/态势评估)流转更趋高效。全对抗域颠覆性行动模式设计与互联协作路径,将使敌方面临剥夺其行动主动权的作战复杂性。

成为VIP会员查看完整内容
26
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员