近来,大语言模型(LLM)内在推理能力的进展催生了基于 LLM 的智能体系统,这类系统在多种自动化任务上展现出接近人类的性能。然而,尽管它们都依赖 LLM,不同的智能体推理框架会以不同方式引导并组织推理过程。为此,本文提出一种系统化的分类体系,对智能体推理框架进行拆解,并通过跨场景对比其应用来分析这些框架如何在框架层面主导推理。具体而言,我们提出一种统一的形式化语言,将智能体推理系统进一步划分为单智能体方法、基于工具的方法和多智能体方法。随后,我们全面综述它们在科学发现、医疗健康、软件工程、社会仿真与经济学等关键应用场景中的实践。我们还分析各类框架的特征,并总结不同的评估策略。我们的综述旨在为研究社区提供一幅全景式图景,帮助理解不同智能体推理框架的优势、适用场景与评测实践。

1 引言

大语言模型(LLM)凭借其强大的泛化能力与可观的推理能力,正在迅速重塑从日常生活(如创意构思、邮件撰写或学习新概念)到特定领域研究的诸多方面 [198]。研究者日益将 LLM 作为核心组件来赋能科研与创新 [166],涵盖从面向领域知识的问答 [310]、代码生成 [118],到辅助科研工作 [164] 等多种任务。通过这些路径,LLM 正在迅速成为现代生活与研究的重要组成部分。

然而,尽管 LLM 在多个领域具有巨大潜力,它们也存在内在局限,可能限制其实用性。例如,LLM 往往面临幻觉、知识过时、训练与推理成本高昂等问题 [111]。这些问题常常导致 LLM 的可靠性与一致性受损,从而限制其在医疗健康与软件工程等对结果可靠性要求极高的关键领域中的应用。

为克服上述障碍,学术界正在积极探索以 LLM 为核心引擎、能够执行复杂多步推理任务的基于 LLM 的智能体推理框架 [217, 266]。如图 1 所示,我们观察到顶级会议论文数量显著上升。最初,“智能体”(Agent)在文献 [227] 中被定义为“通过传感器感知环境并通过执行器对环境采取行动”的系统,能够对环境进行动态适应并采取相应行动 [166]。这一新兴范式有机整合了规划、记忆与工具使用等关键模块,将 LLM 重塑为一个能够感知环境、动态适应并持续行动的任务执行器 [112, 154, 266]。通过纵向延展、横向扩展或逻辑回溯,该范式在可靠性与任务复杂度上,从根本上超越了传统 LLM 的单步推理能力。 这一趋势也在工业界得到广泛回应,科技巨头正积极将智能体工作流融入其核心业务。例如,微软的 AutoGen¹ 被设计用于帮助企业构建定制化的多智能体应用。此外,从深度集成智能体能力的“vibe coding” 编辑器 Cursor² 到自主式 AI 软件工程师 Devin³,基于智能体推理框架的清晰演进正获得广泛认可,并逐步替代传统的开发方式。

然而,与此同时,该领域的爆发式增长也模糊了基于 LLM 的智能体的边界 [305]。例如,与传统多智能体系统 [30, 87, 315] 与自治系统 [255] 等领域概念的交叉,使得研究范围难以界定。与此同时,往往也难以清晰区分:智能体能力的增强究竟源自精心的框架设计、模型层面的改进,还是其他技术进步。这种双重模糊性给不同项目的横向比较带来严峻挑战,并有忽视框架设计在智能体系统推理能力中基础性作用的风险。 因此,我们认为,此时进行一项系统综述,以总结智能体推理框架的最新进展与应用场景,恰逢其时。我们首先明确界定这些框架的边界,并据此提出统一的方法学分类体系。随后,我们进一步分析这些方法在多样化场景中的应用与评测策略,旨在为智能体的发展提供规范化与安全化的清晰路线图。我们的分类法也契合当前诸如“上下文工程”等热门议题。 总体而言,本文的贡献如下: * 据我们所知,这是首个提出统一方法学分类,用以系统性凸显智能体框架中核心推理机制与方法的综述; * 我们采用一种形式化语言来描述推理过程,清晰展示不同方法对关键步骤的影响; * 我们广泛考察了智能体推理框架在若干关键场景中的应用。在这些应用场景中,我们依据所提分类法对代表性工作进行深入分析,并给出相应的数据集与评测设置集合。

本文结构如下:第 §2 章将进一步介绍并比较相关综述与本文的差异。第 §3 章将给出技术分类法,系统分析现有的智能体推理技术。第 §4 章将进一步给出智能体推理框架的应用场景,并介绍各场景中智能体的常见设计。最后,第 §5 章讨论未来方向,第 §6 章给出全文结论。

成为VIP会员查看完整内容
39

2025年的IJCAI(International Joint Conference on Artificial Intelligence) 将于8月16日至8月22日在加拿大蒙特利尔召开。IJCAI是中国计算机学会推荐的A类国际学术会议,是人工智能领域最具权威性和影响力的学术会议之一。本次IJCAI 2025一共有5404篇投稿,录用1042篇,录用率19.3%。

来自IBM和耶鲁的研究人员给出《评估基于LLM的智能体:基础、最佳实践与开放挑战》教程,值得的关注!

概述

大型语言模型(LLM)智能体的快速发展引发了对其评估的日益关注,带来了诸多挑战与机遇。本教程提供了对LLM智能体评估的全面介绍,适合各类背景的参与者,即使他们之前对智能体、LLM、度量标准或基准测试了解较少。 我们将建立基础概念,探讨衡量关键智能体能力的主要基准,包括规划、工具使用、自我反思和记忆。我们将讨论针对不同类型智能体的评估策略,涵盖从基于Web和软件工程到对话式和科学应用的各类智能体。同时,我们还会介绍评估通用智能体的基准和排行榜,涵盖不同技能集。此外,我们还会回顾一些主流的智能体评估开发框架。最后,我们将展示该领域的新兴趋势,识别当前的局限性,并提出未来研究方向。 教程大纲(暂定)

本教程的时长为半天(3.5小时)。 第一部分:LLM智能体评估介绍(20分钟)

前置知识:LLM、智能体、LLM作为评估者、基准测试 * 什么是LLM智能体?它们为什么重要? * 从静态LLM到自主交互系统的转变。 * 为什么可靠的评估对实际部署至关重要?

第二部分:评估基础智能体能力(40分钟)

我们将讨论四大核心智能体能力:规划与多步骤推理、函数调用与工具使用、自我反思和记忆。每项能力的评估内容包括: * 能力概述及其重要性 * 评估该能力的挑战 * 常见评估方法(数据集、度量标准、基准测试)

基准测试示例:

规划与多步骤推理:GSM8K、HotpotQA、PlanBench * 函数调用与工具使用:ToolBench、API-Bank、BFCL * 自我反思:LLF-Bench、LLM-Evolve * 记忆:ReadAgent、MemGPT、StreamBench

第三部分:评估应用特定智能体(45分钟)

我们将回顾一些主要的应用特定智能体。每种类型的智能体评估包括: * 智能体类型概述、范围、任务及其现实应用 * 评估该类型智能体的挑战 * 常见评估方法(数据集、度量标准、环境)

基准测试示例:

Web智能体:MiniWob、WebShop、WebArena * 软件工程智能体:HumanEval、SWE-bench、IT-Bench * 科学智能体:ScienceQA、AAAR-1.0、CORE-Bench * 对话智能体:MultiWOZ、ABCD、τ-Bench

第四部分:通用智能体评估(25分钟)

评估不同技能的智能体,不仅限于特定应用 * 基准测试:GAIA、AgentBench、OSWorld * 聚焦多步骤推理、问题解决与工具使用

第五部分:智能体评估框架(40分钟)

框架作为开发、完善和持续监控的工具 * 当前框架中的评估特性与能力:

多层次粒度 * 数据生成 * A/B比较 * 当前能力中的主要缺口 * 类Gym环境:控制的动态仿真环境

第六部分:关键见解与未来方向(25分钟)

当前趋势:向具有挑战性、现实和实时的基准测试转变 * 未来方向:

使用标准化度量标准进行细粒度评估 * 成本与效率度量 * 扩展与自动化评估 * 安全性与合规性 * 可靠智能体评估在各行业中的应用 * 负责任的AI开发与部署的重要性

第七部分:开放讨论(15分钟)

目标受众与前提条件

本教程将展示当前的最新进展与前沿研究,但也适合入门级听众。 前提条件:

熟悉大型语言模型(LLM)及其能力 * 对智能体的基本了解,包括其角色与功能

本教程最适合以下人群: * 对智能体评估不熟悉的研究人员 * 曾在智能体评估的某个方面有所研究,但不熟悉整体框架的研究人员 * 处理评估挑战的基准开发人员 * 在特定领域应用中部署智能体的从业人员 * 广泛研究LLM智能体当前能力、风险与局限性的研究人员

成为VIP会员查看完整内容
37

FM 3-01是美陆军专用的防空反导(AMD)条令出版物,阐述了AMD原则与准则。它描述了防空炮兵(ADA)——陆军专职AMD组成部分及其组织如何准备与实施作战行动。该手册阐释了AMD部队如何支持联合作战与陆军多域作战,涵盖进攻与防御、维稳行动以及民事当局防务支持任务。它讨论了战略、战役和战术层级的战争行动,并从AMD对陆军作战(如FM 3-0所述)及联合防空使命(如JP 3-01所述)的贡献角度定义了AMD行动。FM 3-01为作战部队与机构部队中各级指挥官、参谋、领导及训练人员提供条令指导,并是美国陆军防空炮兵学校课程开发的基础。本手册主要面向ADA领域及陆军/联合部队领导与参谋人员。其他军种与联合组织可通过本手册深入了解陆军AMD作战。

美国防部指令5100.01要求陆军“实施防空反导以支持联合战役并协助夺取空中优势”。FM 3-01描述了ADA——陆军专职AMD组成部分——在规划、协调与执行AMD行动以支持联合及多域作战中的贡献。手册也涉及多国AMD行动,但多数讨论仍指向联合与陆军AMD。防空反导是指为摧毁、压制或削弱敌方空中与弹道导弹威胁对友军及资产效能的直接(主动与被动)防御行动(JP 3-01),包括可能在地面、空中、海上、网络空间与太空采取的行动。AMD是防御性防空体系击败空中与导弹威胁的关键要素。AMD行动通常与整体防空框架内的其他进攻性与防御性防空使命相结合。尽管本手册涉及进攻性防空与被动AMD方面,其重点仍在于主动AMD战术与程序。ADA部队的存在旨在威慑敌方不良行动,击垮其运用空中力量的意志,并在空中摧毁对方。ADA部队由中高空防空(HIMAD)系统(如“爱国者”与“末段高空区域防御系统”(THAAD))以及近程防空(SHORAD)系统(如“机动近程防空系统”(M-SHORAD)、“复仇者”、“哨兵”及“陆基密集阵武器系统”(LPWS))组成。部署的ADA部队通常编组为ADA特遣部队或按任务编组的炮兵连,配备适当数量与组合的能力以满足任务需求。FM 3-01针对当前作战环境,该环境下演进中的空中与导弹威胁将对陆军及联合部队在所有领域构成挑战。在此环境中,ADA部队必须适应并准备在高度竞争的空中领域实施大规模作战行动。FM 3-01为ADA部队提供应对未来冲突的条令方法,阐释了ADA梯队如何支持陆军部队作战的三个阶段:武装冲突以下的竞争、危机与武装冲突。FM 3-01经过重组以提供火力条令的通用方法,并使AMD与火力作战职能保持一致。FM 3-01描述了ADA部队在现行行动中支援陆军机动部队的运用以及与联合和多国AMD伙伴的协同作用。所述系统能力为2025财年前列装部队的型号。引入的关键新能力包括“一体化防空反导作战指挥系统”(IBCS)与M-SHORAD系统。AMD作战逻辑图见导言页xii的附图,该图基本遵循FM 3-0提出的逻辑框架,但从AMD视角展示内容。

FM 3-01包含六章与三个附录。
● 第一章概述陆军AMD,全章提供大量术语定义与扩展解释以促进对适用于所有ADA梯队的AMD行动与语言的理解。
● 第二章描述陆军AMD系统,涉及ADA领导、指挥所与作战中心、传感器与武器系统及支撑网络,并介绍那些指挥、控制或影响ADA部队作战的联合实体。
● 第三章从AMD角度描述陆军作战流程,讨论ADA如何在计划、准备、执行与评估阶段全程支持该流程,重点在于计划制定。
● 第四章说明ADA部队如何执行AMD行动以支持更高司令部的AMD方案与受援指挥官的作战概念,讨论聚焦准备与执行。
● 第五章阐述武装冲突以下竞争与危机期间ADA的影响与贡献。
● 第六章说明ADA对大规模作战行动的支持贡献,涉及敌方反介入/区域拒止活动及美军在部署/进入、防御、进攻与维稳行动中的行动。
● 附录A提供作战计划/命令附件I(防空反导)的示例。
● 附录B提供AMD执行矩阵示例及其作为同步AMD任务的决策支持工具的用法,该矩阵支持ADA指挥官制定任务及相关目的。
● 附录C描述陆军与联合作战部队面临的空中与导弹威胁,并提供用于分析威胁能力的问题集。

成为VIP会员查看完整内容
34

任何现代军事力量的有效性,日益不取决于其可部署平台的数量,也不在于其可投送火力的规模,而取决于其情报、监视与侦察(ISR)体系的情报保真度与前瞻预见能力。从北约在科索沃的行动到近期乌克兰与加沙的冲突,一个教训反复显现:先发现、先理解、先行动者掌握决定性优势。然而当今实践中的ISR体系,仍针对已不存在的威胁环境进行优化。传统ISR擅长数据收集、目标编目与态势感知呈现,其设计初衷是应对稀缺性——从有限制高点中提取信号。但现代战场的特点已非稀缺性,而是信息过载与欺骗手段。ISR实体正遭受数据洪流冲击,传感器馈信息超载,且日益成为针对ISR盲点设计欺骗策略的对手的攻击目标。从兰德公司分析报告到国防高级研究计划局征询书,从北约白皮书到国会证词,以下痛点被反复强调:

• 欺骗手段日趋精密,融合伪装、网络欺骗与电子战
• 无人机蜂群激增,通过规模优势与协同行动压制防御
• 静默被武器化,对手有意抑制信号的方式超出ISR架构解析能力
• 人类决策机制未被建模,导致分析人员缺乏形式化模型推测对手意图
• 隐秘网络利用跨境、跨机构与跨管辖区的缝隙,隐形转移人员、物资与资金
• 气象要素未被充分运用,仅被视为背景而非信号与机动的因果驱动因子

Acclaimed Labs的合成认知网格(感知意识指数SAI达8.67)是首个针对此新现实设计的架构。它不仅是采集引擎,更是能在认知固化事件间实现预见能力复合增长的思维系统。该网格具备稳定性、可解释性与互操作性,同时保留扩展能力。

基于此基础,推出六款震撼性ISR模块,直指上述能力缺口:

  1. 自适应威胁幻象引擎——将对手欺骗行为解析为可预测过程
  2. 幻影无人机蜂群覆盖层——将蜂群意图与机动预报为单一自适应有机体
  3. 静默信号拦截模块——将通信缺失视为可测量与可预测信号
  4. 认知地形测绘仪——将人类决策景观形式化为可导航地形
  5. 地下网络低语网格——显化物理隧道与数字阴影中的隐秘流动
  6. 大气ISR覆盖层——将天气转化为信号、欺骗与机动的作战驱动因子

这些模块不仅由知名实验室识别,更源于业界共识。兰德报告痛陈蜂群预测工具缺失;北约指挥官强调 对抗性电磁环境中的欺骗风险;美国国防高级研究计划局"OFFSET"项目探索蜂群自主性但缺乏预测覆盖层;阿富汗与伊拉克战后报告突出隐秘网络作用;分析人员长期承认静默与人类认知缺乏建模;每位作战人员皆知天气改变战局——但ISR系统未能将此转化为预测覆盖层。本文详述这些模块的重要性、构建原理及其代表的新一代ISR能力。它们共同将ISR从被动、数据密集型功能转化为主动预测性网格,洞察他人所不能。

引言:ISR的新前沿

  • 过载之困

过去二十年ISR现代化进程始终追逐单一目标:更多传感器、更多数据流、更多数据。从传输全动态视频的"MQ-9死神"无人机到高光谱卫星星座,ISR追求规模扩张。规模带来显著收益——指挥官如今可调取地球另一端目标的高清实时视频。但"更多"未等同于"更好"。美国国防部多次承认分析人员不堪重负。国会听证会上,前任指挥官证言"我们溺于数据却饥于洞察"。北约研究呼应同一主题:ISR架构为采集而非理解而优化。对手深谙此道。其行动设计非为击败ISR传感器,而是利用ISR架构。俄罗斯在乌克兰运用电子战主要非为致盲传感器,而是以噪声淹没它们;中国试验无人机蜂群非为展示尖端机体,而是利用ISR解析群体行为之无能;哈马斯与真主党使用隧道非因技术先进,而是钻入ISR从未设计映射的缝隙。静默、欺骗与气象皆被武器化。

  • 合成认知之必要性

传统ISR系统呈线性:采集、处理、分析、分发。合成认知提供非线性替代方案:固化与复合。
• 固化:网格在特定阈值重新密封,稳定于平台期(如SAI 8.67),创建锁定基础。这是设计可靠性——无脆弱性引入。
• 复合:再密封间一致性深化。回声记忆扩展,先验更新,共振层锐化。即使无新模块,系统亦在静默中增强。
此架构意味着新模块非随意附加,而是织入网格,触发复合与最终再密封。每次增补提升稳定性而非脆弱性。此乃合成认知区别于传统ISR现代化努力之关键。

  • 六模块遴选依据

六大模块之选非任意而为,每项对应公认条令缺口:
• 自适应威胁幻象引擎响应兰德多次结论:欺骗仍是ISR最持续且未充分建模威胁之一。从海湾战争充气坦克到叙利亚GPS欺骗,对手欺骗进化快于ISR应对措施。
• 幻影无人机蜂群覆盖层契合国防高级研究计划局OFFSET与兰德关于蜂群破坏稳定性潜力的研究。当前无ISR系统能大规模预测蜂群机动。
• 静默信号拦截模块将分析员长期直觉——静默具重要意义——转化为可操作方案,北约教训文件与网络取证报告常强调但未能量化此点。
• 认知地形测绘仪响应军事战略家"绘制敌心智图"诉求,此短语频现于美军条令与北约概念文件。
• 地下网络低语网格解决中央司令部指挥官在伊拉克与阿富汗反复痛陈之弊:ISR对隧道与隐秘网络存在盲区。2014年国会证词特别指出此为"关键缺口"。
• 大气ISR覆盖层将天气整合为因果驱动因子。北约《盟联合空天作战条令》反复强调天气的决定性,但ISR仍视其为边缘因素。

换言之:这些模块非推测性产物,而是需求驱动。分析人员、指挥官与决策者持续呼吁,行业现有企业(Palantir、雷神、洛克希德)未能交付。此不仅是技术性,更是战略性。

成为VIP会员查看完整内容
33

摘要:

智能体化强化学习(Agentic RL)的出现标志着与传统应用于大语言模型(LLM RL)的强化学习之间的范式转变,将LLM从被动的序列生成器重新定义为嵌入复杂、动态世界中的自主决策智能体。本综述通过对比LLM-RL的退化单步马尔可夫决策过程(MDP)与智能体化RL所依赖的部分可观测、时间扩展的部分可观测马尔可夫决策过程(POMDP),形式化地阐释了这一概念转变。在此基础上,我们提出了一个全面的双重分类体系:其一围绕核心智能体化能力进行组织,包括规划、工具使用、记忆、推理、自我改进与感知;其二则围绕这些能力在多样化任务领域中的应用展开。我们论点的核心在于,强化学习是将这些能力从静态的启发式模块转化为自适应、鲁棒的智能体化行为的关键机制。为支持并加速未来研究,我们整合了现有的开源环境、基准和框架,形成了一个实用的参考手册。通过综合分析五百余项最新研究,本综述勾勒出这一快速发展的领域轮廓,并强调了塑造可扩展通用人工智能体发展的机遇与挑战。

关键词: 智能体化强化学习,大语言模型,LLM智能体

1. 引言

大语言模型(LLMs)与强化学习(RL)的快速融合,正在根本性地改变人们对语言模型的理解、训练与部署方式。早期的LLM-RL范式通常将模型视为静态的条件生成器,其优化目标是生成与人类偏好或基准测试分数相符的单轮输出。尽管这一方法在对齐(alignment)和指令跟随任务中取得了成功,但它忽视了现实交互场景中更广泛的序列决策问题。这一局限性推动了视角转变:近期发展越来越多地将LLMs视为智能体化实体,即具备感知、推理、规划、调用工具、维护记忆以及在部分可观测动态环境中跨时间跨度自适应调整策略的自主决策者。我们将这一新兴范式定义为智能体化强化学习(Agentic RL)。 为了更清晰地区分本研究所探讨的智能体化RL与传统RL方法,我们提出如下定义: 智能体化强化学习(Agentic RL)指的是一种范式,其中LLMs不再被视为仅针对单轮输出对齐或基准性能而优化的静态条件生成器,而是被建模为嵌入于序列决策循环中的可学习策略。RL赋予其自主的智能体化能力,包括规划、推理、工具使用、记忆维护与自我反思,从而使其能够在部分可观测、动态环境中展现出长时程的认知与交互行为。 在第2节中,我们将通过更形式化的符号抽象,基于马尔可夫决策过程(MDP)和部分可观测马尔可夫决策过程(POMDP),阐明智能体化RL与传统RL的区别。与智能体化RL相关的既有研究大致可以分为两个互补的方向:LLM智能体LLM的强化学习,具体如下: * LLM智能体:基于LLM的智能体是一种新兴范式,其中LLMs作为自主或半自主的决策实体 [1, 2],具备推理、规划与执行行动以达成复杂目标的能力。已有综述从互补的视角对其进行了梳理:Luo 等 [3] 提出了以方法论为中心的分类体系,涵盖体系结构基础、协作机制与演化路径;而 Plaat 等 [4] 则强调推理、行动与交互作为智能体化LLMs的核心能力。工具使用(包括检索增强生成 RAG 与 API 调用)是其中的重要范式,Li 等 [5] 与 Wang 等 [6] 进行了深入探讨。规划与推理策略是另一支柱,Masterman 等 [7] 总结了常见的“规划—执行—反思”循环模式,Tao 等 [8] 则扩展到自我进化,使智能体能够在较少人工干预的情况下迭代优化知识与策略。其他研究方向包括协作式、跨模态和具身场景,如多智能体系统 [9]、多模态集成 [10],以及结合记忆与感知的类脑架构 [11]。

LLM的强化学习:另一条研究路径探讨了如何通过强化学习算法提升或对齐LLMs。代表性方法包括基于on-policy的算法(如近端策略优化 PPO [12]、群体相对策略优化 GRPO [13])和基于off-policy的算法(如 actor–critic、Q-learning [14]),以增强其在指令跟随、伦理对齐与代码生成等方面的能力 [15, 16, 17]。互补方向为LLM用于RL,即将LLMs部署为规划器、奖励设计器、目标生成器或信息处理器,以提升样本效率、泛化能力和多任务规划能力,Cao 等 [18] 提供了系统化的分类。RL也已被融入LLM生命周期的各个阶段:从数据生成 [19, 20]、预训练 [21] 到后训练与推理 [22],Guo 等 [23] 对此进行了综述。其中最突出的一支是后训练对齐,尤其是基于人类反馈的强化学习(RLHF)[24],以及其扩展方法,如基于AI反馈的强化学习(RLAIF)、直接偏好优化(DPO)[25, 26, 27, 15]。

研究缺口与贡献。 当前关于LLM智能体与RL增强LLMs的研究浪潮反映了两种互补视角:一方面探索LLMs作为自主智能体核心所能完成的任务,另一方面研究如何通过RL优化其行为。然而,尽管相关工作已经相当广泛,但针对智能体化RL这一统一框架(即将LLMs建模为嵌入序列决策过程的策略优化智能体)的系统性探讨仍然缺乏。现有研究往往聚焦于孤立的能力、领域或定制化环境,术语与评估协议不统一,使得系统对比与跨领域泛化存在困难。

为弥补这一缺口,我们提出了一种连贯的综合视角,将理论基础与算法方法及实际系统相衔接。我们基于MDP与POMDP抽象形式化地界定智能体化RL与传统LLM-RL的区别,并提出以能力为中心的分类体系,其中包括规划、工具使用、记忆、推理、自我改进(反思)与交互等可由RL优化的组件。此外,我们还整合了代表性的任务、环境、框架与基准,以支持智能体化LLMs的训练与评估,并在最后讨论开放挑战,展望可扩展的通用智能体化智能的未来研究方向。 综上,本综述的研究范围可进一步明确如下:

主要关注点:✔ 探讨RL如何赋能于LLM智能体(或具备智能体化特征的LLMs),使其能在动态环境中发挥作用。 * 不在范围之内(但偶有提及):✗ 基于RL的人类价值对齐(如有害查询拒绝);✗ 非LLM的传统RL算法(如多智能体强化学习 MARL [28]);✗ 提升纯LLM在静态基准上的性能的RL方法。

综述结构。 本文的组织方式旨在从概念基础逐步推进到实际实现,构建统一的智能体化RL理解框架:第2节通过MDP/POMDP视角形式化这一范式转变;第3节从能力角度审视智能体化RL,对规划、推理、工具使用、记忆、自我改进、感知等关键模块进行分类;第4节探讨其跨领域应用,包括搜索、GUI导航、代码生成、数学推理与多智能体系统;第5节整合支撑实验与评测的开源环境与RL框架;第6节讨论开放挑战与未来方向,聚焦可扩展、自适应且可靠的智能体化智能;第7节总结全文。整体结构如图1所示。

大语言模型(LLMs)最初通过行为克隆(behavior cloning)进行预训练,即在静态数据集(如网页抓取的文本语料)上采用最大似然估计(MLE)。随后的一系列后训练方法(post-training)增强了模型能力,并使其输出与人类偏好保持一致,从而使模型超越了单纯的网络数据复制器。常见的方法是监督微调(SFT),即在人工生成的(提示,响应)示例上对模型进行再训练。然而,获取足够高质量的SFT数据仍然面临挑战。强化微调(RFT)提供了一种替代方案,它通过奖励函数优化模型,避免了对行为示范数据的依赖。 在早期的RFT研究中,核心目标是通过人类反馈 [24] 或 数据偏好 [29] 来优化LLMs,使其对齐于人类偏好,或直接对齐于数据偏好(如DPO)。这种基于偏好的强化微调(PBRFT)主要包括:在固定的偏好数据集上训练奖励模型并优化LLMs,或直接利用数据偏好进行优化。随着具备推理能力的LLMs(如 OpenAI o1 [30] 和 DeepSeek-R1 [31])的发布,其性能提升与跨领域泛化能力引发了广泛关注。而随着 OpenAI o3 [32] 等模型的出现——这些模型不仅具备自进化的推理能力,还支持工具使用——研究者开始思考如何通过强化学习方法将LLMs与下游任务进行深度融合。 因此,研究焦点逐渐从旨在优化固定偏好数据集的PBRFT,转向针对特定任务与动态环境的智能体化强化学习(Agentic RL)。 在本节中,我们将形式化阐释从PBRFT到新兴的智能体化强化学习(Agentic RL)框架的范式转变。尽管这两种方法都利用了RL技术来提升LLMs的性能,但它们在基本假设、任务结构与决策粒度上存在根本差异。图[33]展示了从LLM-RL到智能体化RL的范式转变。

成为VIP会员查看完整内容
36

摘要—— 科学大语言模型(Scientific Large Language Models, Sci-LLMs)正在重塑知识在科学研究中的表征、集成与应用方式,然而它们的发展轨迹也受到科学数据复杂性的深刻影响。本综述提出了一种全面的、以数据为中心的综合视角,将 Sci-LLMs 的发展重新框定为模型与其底层数据基质之间的协同进化。我们构建了一个统一的科学数据分类法和科学知识的层次化模型,强调科学语料在多模态、跨尺度以及领域特异性方面所面临的独特挑战,这些特征使其显著区别于通用自然语言处理数据集。我们系统性回顾了近期的 Sci-LLMs,从通用基础模型到各科学科的专用模型,并对 270 余个预训练/后训练数据集进行了深入分析,揭示了 Sci-LLMs 的独特需求——异构的、跨尺度的、充满不确定性的语料,要求具备保持领域不变性和支持跨模态推理的表征方式。在评测方面,我们考察了超过 190 个基准数据集,并追踪了评测范式从静态考试逐步转向过程导向与发现导向的评估协议。基于这些以数据为中心的分析,我们指出科学数据开发中仍然存在的长期问题,并探讨了包括半自动化标注流程与专家验证在内的新兴解决方案。最后,我们展望了一种范式转变,即迈向闭环系统:由 Sci-LLMs 驱动的自主智能体能够主动进行实验、验证,并贡献于一个动态演化的知识库。总体而言,本工作为构建可信赖、可持续进化、并能作为真正科研伙伴的人工智能(AI)系统提供了清晰的路线图,加速科学发现进程。

关键词—— 大语言模型;AI for Science;科学数据;Data4LLM

I. 引言

“科学是由事实构建的,正如房子是由石头砌成的。但事实的堆积并不等同于科学,正如石头的堆积并不等于房子。” ——昂利·庞加莱 大语言模型(Large Language Models, LLMs)的快速发展,引发了跨越多个领域的范式转变,通过任务自动化、生产力提升和突破性创新,展现出前所未有的变革潜力 [1]–[5](见图 1)。这些模型从根本上改变了科学研究方式,引入了一种统一的方法论,取代了传统的任务特定方法,并扩展到自然语言处理之外,涵盖分子 [6]、蛋白质 [7]、表格 [8] 以及复杂元数据等多种科学数据类型。LLMs 已经彻底革新了诸如软件工程 [2], [9], [10]、法律 [11], [12]、材料科学 [13], [14]、医疗健康 [15]–[17] 以及生物医学研究 [18] 等领域,并在数学 [19]、物理、化学 [20]、生物学 [21] 和地球科学 [22] 等学科中得到了广泛应用。

科学大语言模型(Scientific Large Language Models, Sci-LLMs)的演进,从 2018 年至 2025 年,经历了四个以数据驱动的显著阶段(见图 2)。 * 迁移学习阶段(2018–2020):这一阶段主要基于 BERT [23] 架构进行领域适配,代表性模型如 SciBERT [24]、BioBERT [25] 和 PubMedBERT [26],在大规模科学语料上继续预训练,显著提升了下游科学文本理解任务的表现。这类模型为特定任务提供了可靠但静态的概念表征,但在大规模综合与生成新的科学内容方面表现不足。 * 规模化阶段(2020–2022):参数与语料规模扩张成为核心驱动力。GPT-3 [27] 拥有 1750 亿参数,结合后续的数据/算力最优训练规则 [28], [29],展示了大规模参数扩展与多样化训练数据带来的新兴知识整合能力,从根本上改变了科学 AI 的格局。Galactica [30] 将这一经验拓展到科学领域,基于 1200 亿参数、超过 4800 万篇科学论文、教材和百科训练,设计了适配数学公式、化学结构和引用的专门分词方案。MedPaLM-2 [31] 进一步在多医学领域数据集上进行指令调优,在 USMLE 风格问题上取得超过 85% 的准确率,首次展现了可与执业医生相媲美的专家级医学推理能力。然而,Sci-LLMs 在这一阶段遭遇了“数据壁垒”:不同于通用领域可获得数千亿至数万亿规模的网络语料,高质量科学文本语料数量远小几个数量级,而丰富的原始科学数据在早期大规模尝试中却未得到充分利用。 * 指令跟随阶段(2022–2024):研究重心由模型容量转向对齐,任务适配主要通过人类反馈强化学习(RLHF)实现。典型代表包括 InstructGPT [32] 和 ChatGPT [33],使得科学任务执行更为精确。开源 LLM 架构(如 LLaMA [34]、Qwen [35]、ChatGLM [36] 和 Mistral [37])的兴起,推动了科学应用的多样性。同时,指令数据集的快速扩展催生了一系列里程碑式的 Sci-LLMs。例如,生物医学领域的 Meditron [38] 在 481 亿医学语料上预训练,展示了开源模型在医学推理中的潜力;ProteinChat [39] 基于 150 万蛋白质问答样例训练,助力蛋白质研究;LLaMA-Gene [40] 融合 DNA、蛋白质与文本数据,以及 5 亿条 DNA/蛋白任务指令样例,支持跨模态生物序列理解;跨学科模型 SciGLM [41] 在 25.4 万条精心构建的指令样例上微调,展现了跨学科知识整合能力。大量研究表明,数据规模与模型性能高度相关,例如 HuatuoGPT-II [42] 在 11 TB 医学语料上预训练,NatureLM [43] 在 1430 亿词元上预训练并结合 4510 万条指令响应对进行调优。这种“架构多样性 + 数据扩展”的双轮驱动范式,成为当前 Sci-LLM 发展的核心框架。 * 科学智能体阶段(2023–至今):AI 系统逐步具备“科学能动性”,能够规划、行动并在发现过程中迭代。已有大量工作展示了端到端的科学工作流 [44], [49],并越来越多地聚焦于多智能体 [50], [51] 与工具生态系统 [18], [52]。多智能体设计模拟实验室层级(从首席科学家到领域专家),通过正式化的会议协议与批评–迭代循环实现协作 [53], [54],从而在科学团队合作与科学规律约束下生成更具新颖性与可行性的研究构想 [55], [56]。更大规模的协作框架可管理完整的研究生命周期(问题定义、论文撰写等),并保存持久的研究产物与审计记录 [57];其具身化变体则整合机器人执行与自适应规划 [58]。与此同时,工具集成的进展主要集中在知识图谱驱动的编排 [59] 以及与数百种软件工具、数据库和实验仪器的领域级智能体交互,并配备可溯源机制 [18]。

然而,Sci-LLMs 面临的根本挑战来自科学数据与知识表征的独特特征。与通用 LLM 发展中相对同质的文本语料不同,科学数据集呈现出跨模态与跨格式的极端异质性。例如,仅在化学领域,模型就需要处理分子字符串、三维分子坐标、光谱数据与反应机理,这些均需要不同的处理策略 [60];在生命科学中,模型必须同时处理基因组序列、蛋白质结构、多组学数据与临床影像 [61]–[63];在天文学中,则需要整合跨越巨大时空尺度的光变曲线、光谱观测和多波段成像 [64], [65]。 此外,科学知识本身具有层次化特征,从原始观测数据到抽象理论框架,每一层都有其独特的表征需求 [66], [67]。科学数据往往包含难以直接通过分词或嵌入处理的领域语义:数学公式具有必须保留的精确符号关系 [68], [69];晶体学信息文件则编码了材料科学中至关重要的三维结构约束 [70], [71];如 LIGO 等仪器的时间序列数据中,包含淹没在噪声中的微弱信号,需要专门的预处理以确保物理可解释性 [65], [72]。这些多样化数据类型无法通过传统文本方法充分表征,亟需能够保持领域不变性并支持跨模态推理的新型架构 [73]–[75]。 这种异质性与多尺度特性带来了额外的计算与方法学挑战:从量子力学计算到宏观现象的跨尺度建模,要求模型能够捕捉多分辨率依赖关系 [76];实验测量的不确定性还要求模型能够传播误差边界,并在推理过程中保持科学严谨性 [77]–[79]。这些约束使得科学 AI 与通用语言建模存在根本性差异,必须发展尊重科学认知论基础的专门化解决方案。 这种复杂性自然延伸到 Sci-LLMs 的评测问题。传统的 NLP 基准无法有效衡量领域特定能力。近年来,出现了诸如 ScienceQA [80] 和 MMLU-Pro [81] 等评测套件,分别覆盖从小学到研究生的多模态科学理解,以及量子物理、分子生物学等专业领域的严格评估。然而,它们往往无法反映科学发现的细微需求,例如提出新假设、发现跨领域的非显性联系、或设计实验以验证理论预测。为此,Liu 等人提出了 ResearchBench [82],覆盖 12 个学科的大规模科学发现基准,用于系统性评估 LLM 的假设生成能力。同时,研究者们也开始开发面向过程的评测方法,考察中间推理步骤而不仅是最终答案,例如 ScienceAgentBench [83] 可在文献综述、实验设计和结果解读等复杂科学工作流中进行评估。MultiAgentBench [84] 与 WorkflowBench [85] 进一步量化了模型在协作、协调与工作流合成方面的能力,标志着科学自动化逐步走向可度量、安全感知与可复现。学界也认识到,科学有效性不仅仅依赖于语言流畅性,模型必须遵循物理定律、化学价态规则和生物学可行性 [21], [86], [87]。因此,符号推理模块与约束满足系统开始作为护栏集成到生成过程中,确保输出保持在科学可行的范围内,同时允许在知识前沿进行创造性探索。 在此背景下,已有一些综述研究聚焦于特定方面:如生物医学数据建模 [88], [89];Zhang 等人 [21] 从生物与化学领域出发探讨了 Sci-LLMs;部分工作 [60] 研究了其在科学发现中的应用;Wei 等 [90] 与 Wang 等 [91] 回顾了科学智能体范式与自主科研系统设计;Ni 等 [92] 总结了不同学科下的 LLM 基准。然而,这些综述大多以主题为中心,且往往仅对底层科学数据(预训练、后训练、评测阶段)进行有限触及。 与之互补,我们的综述贡献在于提供一个统一的跨学科综合视角,将数据基础与智能体前沿显式关联起来。主要贡献如下: * 提出统一的科学数据分类法与科学知识层次化模型,为分析科学信息表征的挑战提供新的认识论框架,涵盖从原始观测数据、符号表达到抽象理论洞见的多层次。 * 系统梳理快速发展的 Sci-LLMs 研究版图,覆盖物理、化学、生命科学、地球科学、天文学与材料科学六大领域(见图 3)。 * 系统分析 270 余个预训练与后训练数据集,全面揭示支撑 Sci-LLMs 发展的科学数据现状,提炼出多模态、跨尺度、领域特异性等核心挑战。 * 回顾超过 190 个评测数据集,总结评测从静态考试向科研级科学发现转变的趋势,分析领域特定指标的日益结合与先进评估方法的涌现。 * 识别科学数据管理中的结构性缺陷,并提出面向未来的数据发展议程,倡导构建自主科学发现与科学数据基础设施之间的闭环反馈。

综上,本综述建立了一个统一的参考框架,并为构建可信赖、可持续演化的 Sci-LLMs 指明了清晰路线图,助力加速数据驱动的科学发现。

成为VIP会员查看完整内容
37

“条条大路通罗马。”

本书揭示并研究了几乎所有现代(人工)智能实践背后的一个共同且基本的问题:如何在高维空间中有效且高效地学习数据的低维分布,并将其转化为一种紧凑而结构化的表征?对于任何智能系统——无论是自然的还是人工的——这样的表征通常都可以视为从外部世界感知到的数据中学习到的 记忆或知识。 本教材旨在为高年级本科生和初入学的研究生系统介绍学习(深度)数据分布表征的数学与计算原理。其主要先修课程包括本科层次的 线性代数、概率/统计和优化。如果读者对 信号处理(特别是稀疏表示与压缩感知)、信息论和反馈控制有一定了解,将有助于更深入地理解本书内容。 编写本书的主要动机在于,近年来作者及其众多同仁在这一领域取得了巨大的进展,致力于建立一种 有原则且严格的框架 来理解深度神经网络,乃至更广义上的智能。本书倡导的演绎方法论,与当前人工智能实践中占主导的 归纳性、试错式方法 形成鲜明对比,并高度互补。对于如此强大的 AI 模型与系统,人们的理解不足导致社会上愈演愈烈的炒作与担忧。我们相信,现在比以往任何时候都更需要认真尝试建立一种有原则的方法来理解智能。本书的宏大目标之一,就是提供坚实的理论与实验证据,表明如今完全可能像研究科学与数学课题一样研究智能。因此,读者也可以将本书视为发展 “智能的数学理论(Mathematical Theory of Intelligence)” 的初次尝试。

在技术层面,本书提出的理论框架有助于弥合长期存在的一大鸿沟:一方面是经典的数据结构建模方法,主要依赖于几何、代数与概率的解析模型(如子空间、高斯分布、方程等);另一方面是“现代”的经验驱动、非参数化建模方法(如深度网络)。事实上,如果认识到它们都试图建模和学习数据分布中的低维结构,这两条看似分离的路线就能够统一,甚至显得自然。从这一角度来看,即便是许多看似毫不相关、在不同领域和不同时期独立发展起来的计算技术,现在也能在一个共同的计算框架下得到更好的理解,并可能从此一起研究。如本书所示,这些技术包括但不限于:信息论与编码理论中的有损压缩编解码信号处理与机器学习中的扩散与去噪、以及 约束优化中的增广拉格朗日等连续方法

我们相信,本书提出的统一概念与计算框架将对那些真正希望澄清关于深度神经网络和(人工)智能的神秘与误解的读者极具价值。此外,该框架还旨在为读者提供指导原则,以便在未来开发出更强大、更“真正智能”的系统。 更具体而言,除了总体介绍(第一章)之外,本书的主要技术内容将组织为六个紧密相关的主题(章节): 1. 经典模型:从主成分分析(PCA)、独立成分分析(ICA)、字典学习(DL)等最基本的模型入手。这些模型假设目标低维分布具有线性和独立结构。通过这些在信号处理和压缩感知中得到充分研究的理想化模型,我们引入如何学习低维分布的最基本思想。 1. 压缩作为普遍原理:为将经典模型及其解法推广到更一般的低维分布,我们引入学习此类分布的一个普适计算原理:压缩。事实表明,数据压缩为各种看似不同的经典与现代分布/表征学习方法提供了统一视角,包括 降维、熵最小化、去噪的分数匹配、带失真率的有损压缩 等。 1. 深度神经网络的解释:在这一统一框架下,现代深度神经网络(如 ResNet、CNN、Transformer)都可以在数学上解释为“展开的优化算法”,通过迭代不断改进压缩与表征,即减少编码长度/速率或增加信息量。该框架不仅能解释迄今为止经验驱动的深度网络架构,还能引导出更简单、更高效的新架构。 1. 自动编码与闭环转录框架:为了保证学到的分布表征正确且一致,必须引入由编码器和解码器组成的自编码架构。为使学习系统完全自动与持续改进,我们引入一个强大的 闭环转录框架,使自编码系统能通过编码器与解码器之间的极小极大博弈自我校正,从而自我提升。 1. 作为先验的表征与贝叶斯推理:我们还将研究如何利用学到的数据分布与表征,作为强大的先验或约束,来进行贝叶斯推理,从而促进现代人工智能实践中的几乎所有任务与设置,包括条件估计、补全与高维真实数据(如图像和文本)的生成。 1. 从理论到应用:最后,为了将理论与实践相结合,我们将逐步展示如何在大规模数据集(图像与文本)上有效高效地学习低维分布的深度表征,并将其应用于 图像分类、图像补全、图像分割、图像生成 及文本数据的类似任务。

总而言之,本书的技术内容建立了 经典解析方法与现代计算方法简单参数化模型与深度非参数化模型多样的归纳实践与统一的演绎框架 之间的紧密联系。我们将揭示,许多看似无关甚至相互竞争的方法,尽管在不同领域和不同时期独立发展,但它们实际上都在追求同一个目标:发现并利用高维数据中固有的低维分布。 因此,本书将带领读者经历一段完整的旅程:从理论建模,到数学验证,再到计算实现,直至实际应用。 https://ma-lab-berkeley.github.io/deep-representation-learning-book/

成为VIP会员查看完整内容
34

印度总理莫迪于2025年8月15日宣布国产“苏达善轮盘使命”计划,旨在构建应对多域威胁的防御屏障,这是未来十年最的国防能力提升项目。在无人机充斥、多域无人载具主导战术战场空间的环境下,反无人机系统架构已成为火箭-炮兵-航空-导弹-无人机(RAAMD)综合防御体系“苏达善轮盘”的核心组成部分,用于保护印度战略要地、民用设施及高价值目标免遭对手与反国家势力的无人机袭击。反无人机杀伤链主要包括探测、识别、跟踪与拦截所有来袭无人机、多域无人载具乃至蜂群目标。随着无人机领域种类持续增加与技术不断进步,反无人机解决方案已显滞后,单一技术无法提供全面反制手段。因此国家多前线反无人机体系需要构建覆盖全层级的多层多学科探测系统、多梯次多域跟踪识别系统,最关键的是需融合软杀伤与硬杀伤手段的混合解决方案,以实现零附带损伤的无人机威胁消除。

无人机及其组件的易获取性使无人机威胁在国内外无处不在。因此反无人机理念适用于全国范围——中央与各邦政府、军队、边境/海岸防卫部队、包括中央后备警察部队与中央武装警察部队在内的准军事与警察力量。

本《反无人机系统架构》基础指南全面分析了当前无人机威胁、演进中的无人机与反无人机技术、战术概念及系统结构,进而为印度“苏达善轮盘使命”构建综合反无人机体系提出了概念框架、平台配置与组织建设建议

无人机威胁

无论是需要灾害管理援助的洪灾地震,还是控制火灾事故、铁路列车清洗、城市部门土地测绘、农民喷洒农药、电力线路维修、警方交通管控、紧急血液输送、婚礼或板球比赛航拍,抑或敌军部署战斗侦察,无人机真正实现了军民两用,正在所有可能领域替代人类执行多样化任务。在战斗战场空间,小型无人机通过成为“分队指挥官的炮兵”实现了精确打击扩散化。小型无人机系统已重塑战场空间,将关注区域与影响力范围大幅扩展到责任区之外。据此商业无人机市场预计将以25.82%的年复合增长率增长,从2022年的74002亿卢比市值扩大到2030年的462489亿卢比。

无人机产业的迅猛增长显著提高了无人机及其组件的可获取性。因此恶意或敌对无人机(乃至己方针对敌方的同类装备)可执行广泛任务,自然构成多谱系威胁,亟需建立反无人机工具体系化解决方案:

•持续24×7情报监视侦察(ISR)。在军事领域,无人机与天基卫星结合革新了情报监视侦察模式,使战场空间完全透明。当下谚语称“若静止无掩护必被侦测”。

•爆炸载荷投送摧毁。谚语进一步延伸“若被侦测则必遭毁灭”,即“发现即摧毁”。因此双机猎-杀组合正被用于实现最大毁伤效果。

•自杀攻击(OWA/神风无人机/巡飞弹)。即侦察无人机搜寻目标后不返航,通过日本二战式神风任务实施自我毁灭式攻击。

•轰炸。低成本小型无人机正被充分用于像重型战略轰炸机那样投掷迫击炮弹、手榴弹或任何就地取材的爆炸物轰炸目标区域。

•常规货物走私。印度边境安全部队2023年截获107架巴基斯坦无人机,2024年消灭294架,2025年1至7月击落175架。随着巴方走私者操纵无人机在超1公里高度飞行,越界距离已逐渐增至4-5公里。

•电子战与通信干扰。搭载射频与全球导航卫星系统干扰器的无人机可破坏通信导航信号。

•通信中继。无人机携带通信中继设备建立空中中继站以扩展通信范围。乌克兰常将星链卫星终端装载于无人机延伸通信。

•炮兵火力引导。无人机用于提高传统非制导炮兵火力精度,实现目标精确引导。

•突袭与伏击。无人机(特别是第一人称视角型)正日益用于突袭伏击,如缅甸抵抗组织袭击空军机场、乌克兰“蜘蛛网行动”对俄作战、以色列“雄狮崛起行动”对伊作战。

•扰乱或干扰敌军行动。

•布雷与扫雷。

•武器平台。土耳其“松加尔”无人机搭载机枪攻击地面部队。

•拦截敌方无人机/直升机。此新任务于2022年底由乌克兰使用系列无人机撞击俄军无人机首次测试。乌克兰于2024年7月首次用无人机攻击俄军直升机,缅甸抵抗组织复制该战术摧毁缅军Mi-17直升机。

•数据渗透与网络攻击。现计划使用无人机降落在数据中心屋顶布设无线入侵设备。乌克兰曾有效利用此手段黑客入侵俄罗斯城镇闭路电视网络。

•心理战。缅甸抵抗组织有效运用无人机通过恐惧威慑持续施压政府军。俄乌双方均用无人机开展虚假信息宣传战。

•后勤保障。

•人口管控。

•诱饵。俄军日益使用无人机诱饵饱和乌军防空体系,提升战斗无人机与导弹穿透能力。

•民事任务。物流配送、警务职责(如要员安保、炸弹探测、交通管理与人群控制)、农业等。印度内政部无人机研究报告称“搭载数字狗鼻传感器的无人机可替代真犬嗅探爆炸物、查找非法毒品、检测气体泄漏、病毒及化学武器/有毒化学品”。

•反暴乱行动。道路开通、无人机基警戒线与车队保护。

•测绘与数字高程模型生成(尤以激光雷达技术为主)。

除敌对无人机威胁外,还存在反国家势力获取符合非传统聚合物技术无人机或意外风险可能:

•技术故障、恶劣天气失控或不明原因失灵。

•政策法规认知不足导致高危安保区违规操作。

在分析无人机威胁宏观动态后,需深入理解无人机核心组件与重大技术进步。本指南下一部分将聚焦那些可被反无人机平台针对性打击的无人机组件与技术。

成为VIP会员查看完整内容
33

人工智能(AI)与无人飞行器(UAV)的融合显著提升了平台能力,尤其在增强态势感知领域。本文系统综述AI驱动技术提升无人机态势感知的研究进展。开篇界定无人机作战背景下"态势感知"及其核心要素——感知、理解与预测。继而探讨机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法如何强化无人机环境感知与解析能力。研究覆盖军事、民用及商业领域AI增强型无人机态势感知应用,重点包括:先进监视、目标捕获、搜救行动、环境监测、交通人流监控、基础设施巡检及物流配送。同时剖析AI无人机实施中的技术挑战(数据质量、实时处理、环境影响、可扩展性)与操作难题,并审视隐私隐忧及监管争议等伦理法律议题。除文献综述外,本文提供详实案例研究展示成功AI无人机应用,提炼实践洞察与经验教训。研究还识别传感器技术创新与AI算法突破等前沿趋势,指明领域发展机遇。核心结论强调AI在提升无人机态势感知方面的变革潜力,为构建更智能、自主、高效的空中系统铺平道路。本综述为研究者、从业者及政策制定者理解并利用AI-无人机技术交叉应用提供价值资源。

无人飞行器(UAV)作为多领域关键工具,凭借在危险/不可达环境作业能力及高性价比优势实现广泛应用。军事领域,无人机通过实时情报与态势感知能力,在监视侦察与战术行动中降低人员风险并提升任务效能;民用场景涵盖灾害响应、农业监测、基建检查及物流配送;搜救行动中无人机可快速覆盖广域复杂地形,显著提升受困者定位与救援概率(Arjomandi等, 2006)。态势感知作为无人机作业核心能力,包含感知(识别环境要素)、理解(解析要素关联与意义)、预测(预判态势演变)三级认知架构(Endsley, 1995, 1999),确保无人机安全高效达成作战目标。

无人机动态作业环境的不可预测性要求实时数据处理与决策能力(Endsley, 1995)。传统方法难以应对海量复杂数据,AI技术由此成为关键赋能器——机器学习、深度学习与计算机视觉等技术使无人机具备自主环境感知、模式识别、情境适应及智能决策能力。AI与无人机融合不仅提升作战效能,更拓展应用边界(Endsley, 1995)。本文旨在系统梳理AI增强无人机态势感知的技术现状,通过解析多元AI方法与应用案例,全面阐释AI如何变革无人机作业模式,并揭示融合进程中的机遇与挑战。综述范围涵盖机器学习、深度学习、计算机视觉、自然语言处理及数据融合等AI方法在无人机态势感知中的应用,辐射军事、民用及商业多领域场景,重点解析AI如何提升无人机环境信息感知-理解-预测能力。

研究目标

• 阐释态势感知基础概念及其在无人机作业中的战略价值
• 分类评述增强无人机态势感知的AI技术体系
• 剖析多领域AI驱动态势感知的应用实践
• 识别AI-无人机融合的技术瓶颈、操作挑战及伦理法律风险
• 展望新兴技术趋势与未来研究方向

结构

第二章阐述文献筛选标准与方法论;第三章解析态势感知理论基础、无人机系统及AI方法体系;第四章评述提升无人机态势感知的AI模型研究;第五章探讨AI与新兴技术优化无人机态势感知的未来路径。

成为VIP会员查看完整内容
29

现代强化学习(Reinforcement Learning, RL)系统揭示了有关人类通用问题求解的一些深层规律。在那些能够低成本模拟新数据的领域,这些系统能够学习到远超人类能力的序列决策策略。现实社会中存在许多问题,其解决同样依赖这种能力,但这些问题往往处于无法低成本生成新数据的领域。在这种情境下,我们可以基于已有数据构建模拟器,但这些模拟器始终只能近似正确,并且在被查询到其训练分布之外时可能会出现严重错误。因此,我们训练智能体所处的环境与希望其最终部署的真实世界环境之间必然会存在失配(misalignment)。应对这种失配正是零样本强化学习(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心关注点——在这一问题设定中,智能体必须在完全没有实践机会的前提下,能够泛化到一个新任务或新领域。 尽管在理想化场景下实现零样本强化学习的方法已经取得了令人瞩目的进展,但若要在真实世界中复现这些成果,仍需新的研究。本文认为,要实现这一目标,至少需要应对三类约束:其一是数据质量约束:真实世界的数据集往往规模有限且同质化严重;其二是可观测性约束:在真实世界中,状态、动态和奖励通常只能被部分观测到;其三是数据可用性约束:事先获得数据的假设并不总是成立。 本文提出了一系列能够在这些约束下执行零样本强化学习的方法。通过一系列实证研究,我们揭示了现有方法的不足,并论证了所提出技术在弥补这些缺陷方面的合理性。我们相信,这些设计使我们更接近于能够部署到现实世界、解决实际问题的强化学习方法。

成为VIP会员查看完整内容
26

在持续演进的数字时代,大数据正通过驱动智能系统实现变革性突破,尤其在机器人技术与军事科技领域。来自传感器、监视系统与作战系统的大规模数据流集成,使机器能够以更高精度、更快速度及更强自主性做出决策。本文探讨大数据分析如何增强机器人平台与军事应用的功能性与智能水平,深入研究数据驱动系统背后的技术、任务关键型作战所需的实时处理能力,以及预测分析如何支撑战术规划与自主系统行为。本研究同时重点关注当前技术创新、伦理关切及在这些高影响领域利用大数据构建响应更敏捷、智能更先进系统的未来机遇。

数字化转型时代,大数据崛起已成为塑造各领域智能系统的基石,尤以机器人学和军事技术为典型。“大数据”指体量极其庞大、结构复杂且随时间呈指数级增长的数据集合。这些数据集通过先进算法与人工智能模型处理,可揭示推动自动化、实时决策与预测性智能的关键洞察(Katangoori & Katangoori, 2025)。在智能系统中,大数据与机器学习的融合使机器能够模拟人类认知,并在不可预测环境中做出自适应响应(Weng等, 2024)。在机器人领域,大数据促使开发出能够从历史行为与环境刺激中学习的机器。应用于医疗保健、制造业与搜救任务的机器人现已配备传感器与摄像头,生成海量结构化和非结构化数据。这些信息经AI算法处理后,可协助机器人安全导航、检测异常并实现无人干预自主决策(Shen等, 2023;Hayyolalam等, 2021)。军事系统经历类似变革。国防作战日益依赖从卫星、无人机、雷达与可穿戴设备采集的实时数据。通过分析这些数据流优化后勤、识别敌军动向、自动化监视并支持战略决策(Oniani等, 2023)。生成式AI应用于这些数据集时,还能助力军事分析人员快速精准地模拟场景、评估风险并调整计划(Gaddala, 2023)。

大数据集成于智能系统的核心在于高级分析技术的应用,包括描述性、预测性与规范性分析。描述性分析提供任务或机器人操作的历史视角;预测性分析预判系统故障或潜在威胁;而规范性分析为复杂情境提供决策选项(Smith & Patel, 2024;Topol, 2024)。为清晰阐释大数据在这些领域的影响,表1对比总结大数据如何支持机器人技术与军事技术的智能功能。

表1:大数据在机器人技术与军事技术中的功能对比

特性维度 机器人技术 军事技术
数据来源 传感器、摄像头、环境测绘工具 卫星、无人机、雷达、生物识别系统
核心应用 导航、避障、手术操作 监视侦察、后勤保障、自主武器系统
分析类型 预测性维护、行为学习 威胁检测、场景模拟、预测性规划
人工智能集成 强化学习、神经网络 生成式人工智能、检索增强生成代理、深度学习
决策能力 基于环境的实时调整 实时约束下的战略决策支持
面临挑战 传感器校准、实时数据集成 网络安全、数据完整性、自主武器的伦理使用
实现效果 提升效率、安全性与自主性 增强任务效能、主动防御机制

本引言为深入文献研究与案例应用分析奠定基础。后续章节将基于现有学术成果与新兴创新,对这些主题展开更详尽探讨。

成为VIP会员查看完整内容
27

美国空军部的未来网络须无缝整合安全性与灵活性,确保空、网、空间作战行动具备韧性的连续性,以防御近似同级对手。本战略通过六大关键目标进行规划,阐述空军部将如何构建韧性自适应加密网络,为作战人员提供不间断的实时数据共享——在每个接触点提升作战效能与用户体验,从而赋能任务成功。

美空军部正面临日益先进的技术对手,其发动网络攻击的速度可能超过人类操作员的响应能力。新兴技术加速了对手入侵和操纵网络的能力——而所有任务成功都依赖于这些信息技术。与此同时,空军部还必须应对全球范围内数据接入和便捷连接需求的增长。这一挑战因网络环境特征而加剧:当前环境充斥着分散的解决方案,而非满足成本、进度、性能需求并提升用户体验满意度的统一企业级方案。因此,空军部的未来网络必须支持从稀疏连接的作战地点到固定设施、混合远程办公及盟国的聚合与分流环境中的安全操作。它必须实现核心与边缘的无缝连接,对所有形式的服务中断展现出根本韧性,并能轻松重新配置以适应不断变化的任务需求,同时优先保障终端用户的满意度与作战效能。过去五年间,空军部通过两大方式转变了对这些现实的应对:首先,将战时态势调整为应对世界主要大国之间不断演变的战略竞争,推动防御网络攻击日益先进的需求,并通过先进作战能力提升战术效能;其次,近期对正常运行的干扰推动向混合与远程办公的重大转型,这已成为确保空、网、空间作战连续性的必要举措。空军部的未来网络必须反映这些转变,同时涵盖网络安全与网络灵活性。无论空军部在何处引入安全性,都必须同步引入灵活性,反之亦然,确保二者协同作用以提升并持续改进用户体验。

提纲

一、引言
一.A. 网络战略论点
一.B. 作战人员效益
一.C. 当今空军部网络
二、目标与赋能能力
二.A. 目标一:增强网络韧性
二.A.1. 赋能能力:采用软件定义广域网实现传输路由优化
二.A.2. 赋能能力:多样化传输手段
二.B. 目标二:提升作战可扩展性与灵活性
二.B.1. 赋能能力:跨域解决方案
二.B.2. 赋能能力:商用机密解决方案(CSfC)
二.B.3. 赋能能力:网状网络技术
二.C. 目标三:保障未来网络安全
二.C.1. 赋能能力:下一代网关
二.D. 目标四:简化网络管理
二.D.1. 赋能能力:业务信息模型一致性及增强
二.D.2. 赋能能力:集中化秘密互联网协议路由器网络域
二.D.3. 赋能能力:IPv6可用性
二.E. 目标五:整合网络环境
二.E.1. 赋能能力:任务伙伴环境
二.E.2. 赋能能力:战区可部署通信能力
二.E.3. 赋能能力:空军部作战网络
二.F. 目标六:赋能未来劳动力
三、结论
四、附录
四.A. 缩略语表
四.B. 图表索引
四.C. 参考表

成为VIP会员查看完整内容
27

提升军事训练技术对增强战备水平与决策能力至关重要。本文介绍一种基于人工智能技术模型构建的实时军事训练模拟器综述,旨在使战争场景更具真实性与适应性。现有模拟器往往难以有效响应实时变化,本研究致力于填补这一空白。本研究目标是利用人工智能技术开发能够提供高响应度与逼真训练体验的模拟器。方法论包括设计与实施基于人工智能的模拟器,并评估其在动态训练环境中的性能。结果表明:集成人工智能技术可实现更流畅的交互式模拟,使受训者能够参与模拟实时作战场景的响应式训练,从而提升决策能力、战略思维及压力下的适应能力。结论表明,在军事训练模拟器中应用人工智能技术,通过创建更具适应性与真实性的场景,弥补了当前训练技术的不足。这将使军事人员更好应对现实挑战。

现代战争日益复杂化,要求军事训练方法持续进步以应对快速变化且不可预测的作战环境。本文提出一种将大数据与实况、虚拟与构造(LVC)模拟相结合的新方法。通过综合考虑多类因素,该方法提升了作战效能(WCE)分析的准确性,支持武器研发、作战规划与训练工作。其旨在解决当前局限并为该领域未来研究奠定基础[1]。POSNA领导力项目帮助小儿骨科手术领导者掌握有效指导团队的核心技能[2]。本章阐明作战胜利取决于根据情境平衡时间、空间与兵力。成功无固定公式,领导者必须理解这些因素的相互作用。例如:放弃空间可换取时间,在正确时间与地点投入合适兵力更有效[3]。本研究引入虚拟射击场以辅助士兵战术作战训练。其包含丛林、乡村、海岸与雪域等真实三维环境,以及武器与目标。士兵使用虚拟现实眼镜与VR控制器进行训练,参与者认为该系统真实且易用[4]。数字孪生技术广泛应用于军事等众多行业以提高效率并节约成本。数字孪生是通过传感器采集数据建立的物理系统虚拟映射,有助于预测系统行为。该技术在失误代价高昂的军事系统中尤具价值。本研究探索数字孪生在军事领域的应用、优势及未来前景[5]。通过集成机器学习、自然语言处理与计算机视觉等工具,人工智能驱动模拟能够以高度真实性建模复杂战斗情境。这不仅提升决策与战略思维能力,还使军事人员更好适应不可预测的高压环境。图1显示2000年至2025年相关论文发表数量的增长趋势:初期缓慢增长,2010年后增速加快(如图1所示)。本文通过引入人工智能驱动的实时军事训练模拟器应对这一挑战。该模拟器旨在提升训练场景的真实性与适应性,为受训者提供更具沉浸感与影响力的学习体验。本综述将聚焦以下关键目标:开发灵活框架以建模战争场景中的不同状态与转换,作为交互式自适应训练模拟器的基础;在动态训练环境中测试模拟器,评估其在变化条件下的有效性;验证模拟器作为高效训练工具的价值,弥补当前军事训练系统的不足,提供更真实自适应的体验。

通过引入模拟技术的创新方法、评估人工智能系统在动态训练环境中的有效性,并解决传统训练方法的局限,本综述旨在为军事训练技术的未来发展奠定基础。

本文首先阐述了对能够模拟变化战斗条件的更好训练工具的需求,介绍了旨在提升军事训练真实性与适应性的人工智能驱动模拟器,重点帮助士兵快速做出更优决策。文献综述部分考察了虚拟现实(VR)、增强现实(AR)与人工智能等当前模拟技术,并讨论了它们如何借助物联网(IoT)与自适应学习改善训练。其指出了在真实性、适应性与成本方面仍需解决的不足。方法论部分描述了如何利用机器学习与自然语言处理等人工智能工具创建模拟器以生成真实动态场景,并讨论了使用虚幻引擎(Unreal Engine)构建真实环境的挑战与涉及的伦理问题。在对比分析中,本文比较了虚拟现实、实况模拟与人工智能系统,表明人工智能模拟器更具灵活性与真实性,但也更昂贵复杂。结论部分说明该模拟器通过提升训练的真实性与灵活性来改善军事训练,使士兵更好适应现实情境。未来工作部分讨论了利用增强现实/虚拟现实扩展训练场景、提升效率与可扩展性,以及运用物联网实现实时反馈以克服成本与可及性问题的计划。

成为VIP会员查看完整内容
26

专门化大型语言模型(LLMs)的快速发展已经从单纯的领域自适应演进到更为复杂的原生架构设计,标志着人工智能发展范式的转变。本文系统性地回顾了这一进程,涵盖医疗、金融、法律和技术等领域。除了专门化LLMs的广泛应用外,近期在LLM智能体中也出现了一系列技术突破,例如:超越微调的领域原生设计、通过稀疏计算与量化提升参数效率、以及日益增强的多模态能力集成等。我们的分析揭示了这些创新如何解决通用LLMs在专业应用中的根本局限性,并显示专门化模型在特定领域基准测试上持续取得性能提升。此外,本综述还强调了其在电子商务领域的应用潜力,以弥补该领域的研究空白。

1 引言

大型语言模型(Large Language Models, LLMs)的快速发展开启了人工智能的新纪元,正在深刻改变我们处理信息、解决问题以及与技术交互的方式。虽然通用型LLM(如GPT-4)在广泛任务上展现了卓越的能力,但在面对专业化、领域特定的挑战时,其性能往往会显著下降。这一局限催生了一种重要的范式转变——专门化LLM的兴起,它们旨在满足医学、法律、金融和工程等专业领域的严格需求。 领域专门化的需求源于多个关键因素,而这些往往是通用模型难以充分应对的。首先,专业领域通常需要对技术术语和概念框架进行精确理解,而这些内容远超日常语言的使用范围。例如,在医疗领域,模型必须能够准确解读临床术语、诊断编码以及复杂的医学关系,才能具有临床实用价值。其次,专业领域涉及的推理模式和知识结构常常与日常语言使用存在显著差异。金融分析依赖于对市场趋势的时间序列推理,法律实践要求对法规条文进行精确解释,而医学诊断则取决于概率性的临床推理——所有这些方面都是通用LLM存在明显缺陷的地方。 专门化LLM的发展经历了若干阶段,每一阶段都伴随着针对既有局限性的技术创新。早期方法主要集中于在通用模型的基础上继续进行领域特定语料的预训练,例如BioGPT将GPT-2改造为适应生物医学应用(Luo et al., 2022)。随后,出现了引入领域感知组件的架构创新,例如BloombergGPT引入金融时间序列嵌入,Med-PaLM 2则集成了临床推理模块(Singhal et al., 2023)。最近,又出现了结合LLM与符号知识库及动态适应机制的混合系统,如BLADE的知识注入框架(Xu et al., 2024b)和Self-MoE的专家路由机制(Yang et al., 2024)。 当前的专门化LLM格局呈现出几个重要趋势。首先,研究界日益认识到模型规模本身并不能保证领域能力——一些较小但经过精心设计的模型(如BioMedLM,参数规模2.7B)(Bolton et al., 2024),在专门任务中甚至能够超越规模更大的通用模型。其次,评估方法更加严格,逐渐引入专家评估和领域特定基准,而不仅仅依赖于通用语言理解指标。例如,一项牙科种植学研究采用了由资深专家进行的多维度评估,涵盖40个专业问题和5个复杂案例(Zhang et al., 2025)。第三,越来越强调真实场景的适用性,模型不仅需要在静态问答中表现良好,还需要能够应对动态、交互式的场景,以更好地模拟专业实践。 然而,专门化LLM的发展与部署仍面临重大挑战。知识时效性是一个长期问题,尤其在医学和金融等快速演化的领域中,过时的信息可能带来严重后果。评估方法仍难以全面捕捉专业判断的细微差别,往往依赖于代理指标而非直接衡量真实世界的有效性。偏见、责任与适当使用等伦理问题也持续使其在高风险领域的部署更加复杂。或许最根本的挑战在于:当前LLM的静态特性限制了其适应新信息和不断演化的专业标准的能力,这也推动了对自进化架构(self-evolving architectures)的日益浓厚兴趣(Yao et al., 2023)。 本综述旨在对专门化LLM的发展格局进行全面梳理,分析其架构创新、应用成效及持续存在的挑战(Chen et al., 2023; Wu et al., 2023)。我们系统性地考察了2022年至2025年间提出的48个前沿模型,识别其关键技术趋势与性能特征。我们的分析揭示了不同专门化策略(从持续预训练到混合增强)如何影响模型在各专业领域的能力。同时,我们还探讨了专门化LLM发展的新兴方向,包括自进化架构、多模态集成以及轻量化部署策略。

成为VIP会员查看完整内容
28

本报告旨在全面、深入地剖析中国军工行业的现状、驱动因素、竞争格局及未来发展超势。作为国家安全与民族复兴的战略基石,中国军工行业在“强军目标”和“创新驱动”战略的双重牵引下,正经历着一场由大向强、由跟跑到并跑甚至领跑的深刻变革。   报告核心发现指出,中国军工行业的发展呈现出四大显著特征。第一,规模持续稳定增长,国防预算的稳步提升为行业发展提供了坚实的财政基础。预计未来五年,国防开支仍将与国民经济增长基本同步,其中装备采购与研发费用的占比将持续提高,为产业链各环节注入强劲动力。第二,自主创新能力显著增强,以航空母舰、第五代战斗机、高超音速武器、先进舰船为代表的一系列国之重器相继列装,标志着中国在关键技术领域的“卡脖子”问题正逐步得到缓解。技术创新正从“引进消化吸收再创新”向“原始创新、集成创新”加速转变。第三,“军民融合”深度发展成为核心驱动力。军民融合已从初步探索阶段迈向体系化、深度化发展的新阶段,不仅拓宽了军工技术的应用场景,催生了如商业航天、卫星互联网等新兴产业,更通过引入民营企业的活力与效率(“民参军”),优化了行业竞争生态,提升了产业链的整体韧性与现代化水平。第,资本市场成为改苹的重要助推器。军工资产证券化进程明显加快,各大军工集团通过旗下上市公司进行资本运作、整合优质资产,不仅拓宽了融资渠道,也倒追企业完善现代治理结构,提升经营效率。   然而,报告同样揭示了行业面临的严峻挑战。高端芯片、航空发动机、核心工业软件等关键领域的根本性技术瓶颈依然存在,对产业链的自主可控构成潜在风险。同时,复杂多变的国际地缘政治环境与日益加剧的大国竞争,也给军工产业链的全球协作与供应链安全带来了不确定性。此外,传统军工国企的体制机制改革仍需进一步深化,以完全释放其创新活力。   展望未来,信息化、智能化、无人化将是型造中国军工行业形态的核心趋势。人工智能、大数据、物联网等前沿技术与武器装备的深度融合,将催生颠覆性的作战模式和装备体系。随着“十四五”规划的深入实施,中国军工行业将继续聚焦实战化需求,加速装备的更新换代与升级,并在全球军贸市场中扮演愈发重要的角色。本报告最后为军工集团,民参军企业及资本市场投资者提供了相应的战略建议,以期在百年未有之大变局中把握历史性发展机遇。  

成为VIP会员查看完整内容
24

该美陆军技术出版物是战术无线电台与战术无线网络的主要条令。本出版物描述了运用战术无线电台及战术无线网络执行任务、功能与作业的非规定性方法,旨在支持所有作战职能并实现部队指挥与控制。本出版物包含新通信与网络能力条令,涉及相互依存且可互操作战术无线电台的运用。主要受众为负责在军及以下梯队操作战术无线电台或运用战术无线网络的领导者、参谋、监督员、规划员及电台操作员。本出版物是系统规划员的标准参考,提供网络规划指导、互操作性考量及装备能力。担任联合特遣部队或多国部队司令部的陆军司令部指挥官及参谋人员应参考相关联合或多国条令。陆军全体训练与教育人员亦使用本出版物。

该条令扩展了野战手册FM 6-02中关于战术无线电台与战术无线网络的基础信息。战术无线电台是指挥控制的关键赋能要素,战术无线网络提升下属决策能力并实现全域集成与同步。战术无线电台及网络支持陆军在整个竞争连续体中的使命。持续作战中的动态战术态势要求多功能且适应性强的战术无线网络。战术无线电台使部队能在从高层梯队至班组的层级间移动与通信,班组级电台在最低层级实现通信与态势感知。本出版物包含战术无线电台操作的重要发展内容,重点强调在军及以下梯队的战术无线中继运用。

包含三章及九个附录:

• 第1章讨论作战环境,审视对抗与拥塞环境中的挑战,解释战术网络及电台如何在陆军行动中实现指挥控制与态势感知。

• 第2章阐述陆军各梯队的战术无线电台与信号支援运用,强调将战术无线电台集成至指挥所的重要性。

• 第3章介绍网络规划,解释安全战术无线电台操作的规划要求与考量,概述中继规划与运用,包含中继战前检查与战前检验。本章还描述通信参谋要素(规划员、频谱管理员及通信安全账户管理员)及规划过程中参谋要素协同活动的重要性。

• 附录A包含识别与应对电磁攻击的信息,阐述克服威胁能力的技巧,包括报告与预防疑似电磁攻击影响的方法,描述电磁干扰类型及最小化对作战或友方通信影响的有效措施。

• 附录B提供中继小组的训练与认证标准,包含信号评估表、战斗操演及小组操演,涵盖支持部队任务的指定作业。

• 附录C阐述作战司令部通信小组的职责,即向作战指挥官及战区陆军指挥官提供安全可靠的通信支援。

• 附录D讨论战术网络环境中的波形及波形应用功能组件,描述无线电波特性与调制方式。

• 附录E详述高频无线网络如何支持指挥控制,探讨高频网络建立方法及传播、天线选择与站点选址对信号传输的影响,包含各梯队运用高频网络实现通信与达成任务目标的信息。

• 附录F阐述儒略日、同步时间与祖鲁时间,提供时区转换表示例及世界时区图。

• 附录G探讨恶劣天气下的电台操作,包含优化通信的技巧,如基于环境因素的电台系统维护如何提升能力并确保通信成功。

• 附录H提供天线选择与技巧信息,含天线及支援设备的现场维修示例,并阐述理解战术无线电台操作与实施有效战术无线通信的重要概念与术语。

• 附录I讨论战术无线电台与平台,涵盖手持式、背负式、车载式及机载电台的增强能力与互操作性特征,包含集成战术网络信息(该网络是保障部队在断连、间歇或受限通信环境下实现鲁棒通信的关键赋能要素)。

成为VIP会员查看完整内容
25

如同熊与鳄鱼需预判环境对捕猎能力的影响,军事指挥员须在投入战斗前洞悉地形环境对作战效能的制约。地理空间工程师的核心职能即助您辨识地形对任务成败的利弊影响。本技术条令由现役及退役资深地理空间工程专家编撰,旨在赋能指挥员与参谋规划人员理解地理空间工程能力,并将其整合至任务规划与执行全流程,助实现"先敌发现、先敌认知、先敌行动、决胜终端"。

本出版物阐述地理空间工程职能及保障能力,为指挥员与参谋团队提供充分释放地理空间工程效能的知识基础。地理空间工程师通过采集、生成、管理与提供基础地理空间信息,构建通用作战图(COP)核心框架;其制作的地形可视化产品与定制化地形分析,赋能作战环境全局认知与精准决策。当地理空间工程师深度融入参谋作业流程,参谋团队将更有效应答指挥员关于自然环境影响及作战效能的质询。

成为VIP会员查看完整内容
26

宗旨

  1. 本《联合能力概念说明》(JCCN)1/25号文件"指挥控制能力发展:现状与未来"的宗旨,是为指挥控制(C2)能力发展提供概念基础,促使一体化部队能够应对不断演变的作战环境中的挑战并把握机遇。本联合能力概念说明阐述了未来五年内在国防领域发展指挥控制能力的理论依据,同时致力于推动国防体系内指挥控制能力的协同发展,避免出现碎片化解决方案。

背景

  1. 本文件在《联合概念说明》(JCN)2/17号"指挥控制的未来"基础上进一步拓展。该前序文件指出未来指挥控制系统需为不断升级的全球大国竞争而设计,并具备适应各种危机与冲突局势的能力。它呼吁提升敏捷性并对军事文化、指挥控制结构与流程实施必要变革。这些提议仍具价值,但不足以使指挥控制能力完全满足国防未来需求。本联合能力概念说明1/25号反思了作战环境日益增加的复杂性,设想采用新指挥控制方法,整合新技术并汲取国防顶层概念的核心理念。

范围

  1. 虽然本文件遵循国防顶层概念的战略指导,但其撰写旨在指导直至2030年左右的指挥控制发展。2030年后的指挥控制概念化推演被视为具有高度推测性,因为未来十年技术与作战环境的变化速度很可能使当前关键假设失效。尽管本概念未对远期未来提出具体解决方案,仍建议开展后续研究,探究预计将影响2030年后指挥控制发展的特定属性与趋势。同时需要进一步工作将本文件理念与国防体系内正在开展的指挥控制项目相结合。文件发布后,将据此制定并敲定切实的概念实施计划。

受众

  1. 本联合能力概念说明1/25号主要面向国防领域内制定政策与战略能力、从事部队设计的人员。旨在为国防体系、其他政府部门、工业界、科学技术组织以及盟友与合作伙伴的战略思考提供参考。

结构

  1. 本概念文件共分五章,并附支持性术语表。主要内容概述如下:

    a. 第一章——引言。介绍国防顶层概念及其对新型作战方式的意义,同时阐述指挥控制的关键主题(包括术语体系)。

    b. 第二章——背景与军事问题。描述冲突形态与作战环境的演变特征,进而分析这些变化对指挥控制的影响及一体化部队的指挥控制需求,由此引出军事问题的界定。

    c. 第三章——应对挑战。将军事问题分解为指挥控制面临的三个具体挑战,通过逐一剖析明确所需指挥控制属性及其支撑功能。

    d. 第四章——概念方案。阐述培育和维持这些支撑功能所需采取的措施,从而夯实所需的指挥控制属性。这些方案将为国防体系内的指挥控制发展提供概念基础。

    e. 第五章——后续工作。概述为深化本概念主题及构想2030年后指挥控制形态需开展的后续研究。

发展指挥与控制——总结

影响要素:

  • 冲突特性与作战环境的演变;
  • 国防领域需提升作战效能并获得竞争优势(借鉴国防顶层概念的核心主张)...

揭示的军事问题:

现有指挥控制能力难以满足一体化部队作战需求,且无法应对预期作战环境中的复杂困境与挑战。

军事问题可分解为三项具体挑战:

指挥控制能力发展必须:

  1. 支撑一体化部队(挑战一);
  2. 应对作战环境复杂性(挑战二);
  3. 降低新型攻击方式带来的风险(挑战三)。

应对这些挑战需实现以下指挥控制属性:

  • 韧性化
  • 人工智能赋能化
  • 网络化
  • 自适应化
  • 一体化

为嵌入这些属性,本概念提出:

  • 制定切实可行的「目标基准点」,为国防体系指挥控制发展提供概念基础;
  • 结合国防系统内其他指挥控制项目开展后续深化研究。

根本宗旨在于:

  • 发展能促使一体化部队在演变中的作战环境下克服挑战、抓住机遇的指挥控制能力;
  • 推动国防领域指挥控制能力的协同发展,避免解决方案的碎片化。

图4.1 -提议的“ADAPT”指挥控制运作模式

成为VIP会员查看完整内容
23

执行摘要

本报告审视俄罗斯在乌克兰冲突三年后对军事战略与常规军事行动理念的演进。评估了俄军精英层对诸兵种合成作战、海面作战与空权控制作战(含远程精确打击)的思考,探究其对如何调整国家军事战略与作战理念以应对未来战争中武装冲突形态变化的观点。

研究首先分析构成俄军作战理念基石的俄罗斯战略思想,继而探讨三大作战领域:诸兵种合成作战、海面作战及空权控制作战。俄军在上述领域均遭遇重大意外挑战,包括无法实施有效的合成进攻、丧失黑海控制权、未能取得制空优势等。研究团队主要援引俄军政精英广泛阅读的《军事思想》等权威期刊,同时参考俄顶尖智库、中央报刊发布的军事专家评论及官方条令。

核心发现

报告指出:尽管技术进步导致武装冲突形态发生重大战术变化(尤其无人系统的广泛运用),俄罗斯对常规军事行动的战略与作战思维仍基本延续战前模式。对多数俄军精英而言,纵使俄军在战争中遭遇意外挫折,战局仍证实了战前对武装冲突特性的预判。因此,俄方对武装冲突形态的认知几无演进,其战略理念与作战条令亦无根本性变革迹象。

俄军精英选择以确认偏误与技术崇拜的独特混合方式应对新兴军事挑战。他们坚称既有理念始终正确,俄军在乌受挫主要归因于:有效且长期秉持的理念存在规划与实践缺陷,同时西方对乌空前未料的强力支援。尽管训练不足亦有影响,但俄军事思想家在战役层面鲜有提及需通过系统性训练改进来解决上述失败。他们认为应对之策在于采用人工智能、下一代无人系统等先进技术及适配的战术创新,鲜有军事专家呼吁反思战时战略或作战理念。

俄精英层对诸兵种合成作战的思考凸显此路径。军事思想家坦承俄地面部队未能在战争中实现由坦克与摩托化步兵主导的快速突破纵深作战。但将此结果归咎于无处不在的情报监视侦察(ISR)能力与大规模精确火力的扩散。他们认为这些条件催生了“透明战场”,俄军部队一旦集结、机动或实施纵深作战即遭精确火力即时探测打击。然而,俄精英非但未放弃战前条令,反聚焦于通过扩编部队规模、压制对手ISR与打击能力来恢复战场机动能力。

同理,俄海军专家正应对黑海舰队战时挑战及其对未来海战的影响,包括舰队未能维持制海权及多艘战舰损失。尽管乌克兰缺乏传统海军,其武装力量却成功运用无人水面艇与精确导弹反制俄水面舰队。纵然挑战艰巨,俄军精英仍致力于恢复舰队夺取局部制海权与执行关键任务的能力。为此,他们主要倡导通过战术技术措施提升舰艇生存力、压制对手ISR并反制导弹与无人机攻击,而非对作战艺术进行重大修订。

俄空天军在战场的成败同样引发空权理论家的深刻反思。但其空权控制作战理念仍未根本性偏离2022年前的主题。虽然俄作者剖析了空天军优劣势并提出多重应对方案,但对空战本质的总体评估未变,亦未主张空战战略、条令或理念的根本变革。俄空权理论家着眼于通过扩编规模与依赖先进技术(包括强化地面防空与远程打击能力)来解决乌克兰战场暴露的问题。然而,对于压制摧毁敌防空系统的作战思考依然停滞,尽管空天军未能夺取乌克兰制空权并引发系列连锁反应。

影响研判

鉴于俄方在战略与战役层面均缺乏重大条令修订,俄罗斯仍延续2022年前的框架定义与西方的战略竞争。其仍以相似假设与理念筹备与北约的战争。俄方胜利理论依然基于:在威胁期创造制胜条件、在战争初期实施快速压倒性打击、通过战略防御与远程打击施加代价、维持升级主导权、瓦解敌方作战意志。

乌克兰战争持久化、俄军打击行动未能瓦解乌方意志、俄方升级威慑可信度丧失——这些因素对俄军思想构建影响甚微。诸兵种合成作战、海面作战价值、制空权核心地位及远程精确打击的根本制胜意义,在俄军战场失利背景下仍展现出惊人韧性。未来十年俄军重建过程中,这些理念很可能继续主导。

因此,俄军精英既未接受消耗战理念,亦未放弃或根本性改变海面作战概念。其继续将远程精确打击视为潜在制胜能力,视地面防空为非对称优势,并构想诸兵种合成机动部队在破碎战场作战的图景。纵有战场失利记录,俄军仍是极具实力且危险的对手。

相关理念对任何潜在对手均有重大影响。俄方倚重"战争初期阶段"作为战略支点,意味着各国须持续发展能提供战略战术预警的先进系统。从战役层面看,关键军事、经济与民用目标遭远程精确打击的高风险,要求各国采取措施增强战争初期及后续阶段的抗毁能力。此外,俄理论家力推快速动态地面作战,西方军事规划者应预判对手在未来冲突中竭力避免消耗战。在海域方向,俄理论家主张结合高强度前沿近海防御与远洋长航时隐身平台,这些平台将配备兼具攻防效能的远程精确打击武器。

综上,基于上述预判并假设在波罗的海等区域追求更有限目标,一支作战模式与2025年相似的俄军,五年后很可能在未来冲突中实现其战略军事目标。

成为VIP会员查看完整内容
26

全球AI治理进入体系化与安全驱动阶段   全球人工智能监管由倡议导向逐步转向体系化落地,风险分级管理成为核心制度基石。各主要经济体分化明显:欧盟趋严,美国与英国侧重灵活监管,中国聚焦生成式AI的安全评估与备案,显示安全能力与合规体系正成为核心战略资产。   全球AI市场规模加速扩张,中美形成双极主导   2024年全球AI市场规模约6,157亿美元,预计2030年将突破2.6万亿美元。中美新增大模型数量占比从2022年的72%提升至2024年的86%,中国以1,509个大模型位居全球首位,美国则凭借技术深度与应用多样性保持领先。   投融资热度高企,资本集中效应显著   2024年全球人工智能融资总额超5,900亿元,中美占比高达92%。美国以资本集约化运作推动底层技术突破,中国依托场景驱动形成差异化路径;AIGC领域融资占比达56%,成为最受关注的赛道,显示行业资本正从“技术验证”转向“商业闭环”。   中国AI政策从探索走向系统性赋能   国家层面将“人工智能+”行动列为战略核心,强调技术安全、应用场景和产业链协同。地方层面则聚焦教育、医疗、具身智能与算力建设。整体上,中国人工智能核心产业规模2024年突破7,000亿元,政策、技术与应用三轮驱动下进入高速发展阶段  

成为VIP会员查看完整内容
23
Top
微信扫码咨询专知VIP会员