图:2025年8月24日,在哥伦布航空展上,一架美国空军F-35A与一架KC-135同温层加油机一起飞行。

美国政府问责局(GAO)发布了一份长达54页的评估报告,针对F-35联合攻击战斗机项目及相关承包商近期表现进行剖析。该联邦机构指出了F-35 Block 4升级计划中延误趋势,包括现代化进程受阻、交付表现不佳以及合同要求未达标等问题。以下为主要重点内容:

  • 2024年交付的全部110架F-35战机平均延迟238天。
  • 2024年交付的全部123台普惠F135发动机平均延迟155天。
  • F-35 Block 4升级项目超支60亿美元,进度延误至少五年。
  • 美国防部向F-35承包商支付数亿美元以改善交付周期,但其交付表现持续不佳。
  • 即使五角大楼已于2024年7月恢复接收战机,完整的TR-3作战能力仍需等到2026年才能实现。

F-35项目是美国防部最具雄心且影响最广的武器系统计划,项目服役周期达77年,总预算估算为2.1万亿美元。美国总体采购计划要求为空军、海军及海军陆战队生产总计2,456架各型号F-35战机。

根据洛克希德公司F35.com网站数据,截至2025年9月已向全球客户交付超过1,230架战机。其中约半数交付国防部客户,占2006年投产以来计划采购总量的四分之一。

近年来,交付问题已成为洛克希德·马丁公司的致命弱点。自2023年7月起,由于技术刷新3(TR-3)的硬件与软件问题导致无法交付具备完整作战能力的新型F-35,交付工作一度暂停。尽管五角大楼一年后恢复接收战机,但美政府问责局发现部分原因是为确保价值约90亿美元的逾100架F-35不致长期滞留承包商设施。

此外,美政府问责局指出,具备完整作战能力且支持部分Block 4功能的TR-3版F-35战机需到2026年才能准备就绪——这意味着2023年中至2025年间生产的新F-35至多仅具备“有限作战能力”,很可能仅能作为非作战训练机型使用。

值得关注的是,美政府问责局未提及影响未来F-35交付的另一个潜在因素:集成新一代AN/APG-85有源电子扫描阵列(AESA)雷达系统。据报告,洛克希德首席执行官于3月致空军领导层的信函中称,制造商正在探索解决方案以规避APG-85雷达可能导致的延误及影响未来F-35生产批次的问题。目前尚不清楚后续生产会否受影响,但该信函本身为F-35交付前景增添了又一重问题。

F-35交付表现问题已成为围绕该机型采购广泛讨论的重要考量因素。在第二届特朗普政府任内,F-35已成为显著的政治焦点:2026财年申请采购47架F-35,较拜登政府2025财年申请68架的数量有所下降。

在7月针对2026财年缩减F-35采购量的回应信函中,17名退役空军将官呼吁国会为该军种拨款采购75架F-35A战机,信中强调:“必须极力强调快速获取F-35A战机对实现空军1,763架装备需求的重要性。”

多年来,美空军领导人一直主张美国必须保持每年72架新战机的稳定采购节奏,以弥补退役老旧战机造成的净损失、威慑对手并加强未来冲突的工业基础。

然而,持续欠佳的交付表现、现代化进程延误以及合同义务履行不力,令人质疑美国战斗机产业能否切实满足当前及未来需求。

对此,美国防部作出回应,同意了政府问责局六项建议中的四项。针对首要且最紧迫的建议,美国防部“将持续评估洛克希德·马丁公司的生产能力是否满足计划交付进度”。除审查激励策略外,此举或有助遏制预付款项问题。但事实在于,美国政府缺乏有效手段来改变F-35的交付进度。

尽管存在合理的财政与承包商绩效顾虑,F-35仍是当前经过实战验证的最先进第五代战斗机,也可能是美国维持空中优势与有效威慑的唯一可行选择。这使得防务决策者陷入两难境地——尤其当F-35项目如政府问责局所言“持续承诺过高而交付不足”之时。

参考来源:dsm

成为VIP会员查看完整内容
3

随着航空自主技术发展,自主空中加油(AAR)日益成为关键能力,尤其对空军打击任务而言,其可显著提升作战半径与续航能力。美军传统依赖全球定位系统(GPS)及专用通信链路的方法在GPS拒止环境中存在局限。本文通过三项互相关联的研究,提出采用卷积神经网络(CNN)与单目相机结合求解N点透视(Solve-PnP)系统的方案,用于估计目标位置与姿态。该整体系统旨在估算图像中目标的六自由度位姿(位置与方向),重点关注美国空军军机及美国海军加油锥套。系统通过合成图像训练CNN以预测目标各组件的边界框(bbox),并借助Solve-PnP算法计算六自由度位姿。

首项研究优化CNN训练流程,证实校正透视畸变及无视遮挡进行训练的重要性。第二研究拓展对不可见组件预测的概念,开发创新技术以检测并训练超出图像边缘的特征,从而提升整体位姿估计效能。第三项即最终研究将这些技术从仿真环境迁移至真实飞行测试图像。该研究利用六自由度位姿估计系统对光电(EO)与长波红外(LWIR)领域的真实图像进行伪标注,展示过滤与创建高质量真实图像伪标注的创新技术。这些发现表明该系统具备作战级自主空中加油应用潜力。

未来工作应聚焦于针对美国空军全机队进行系统训练,并开发过滤技术以降低二维边界框猜测与六自由度位姿估计中的噪声。本研究对自主空中加油领域具有关键性意义,并为机器人技术、计算机视觉及CNN研究作出贡献。通过实现强健的无GPS自主系统,本研究推动了对未来自主航空航天作战至关重要的能力发展。

关键词:实时位姿估计,YOLOv5目标检测,卷积神经网络(CNN),迁移学习,合成图像生成,N点透视(Solve-PnP)算法,伪标注

历史上,空中加油因系统成本高昂、密集编队飞行风险以及军事行动加油需求,主要由军方与政府组织实施。自动化该过程有望消除成本与风险壁垒,使非军事用户得以使用。正如Nangia[1]与Parry[2]指出,这将使轻型民用飞机通过空中加油实现更远航程与更高效率。

自主空中加油的潜在解决方案

自主空中加油(AAR)这一挑战性任务需要 degraded 信号环境中精确定位的鲁棒解决方案。当人工操控员、全球定位系统(GPS)数据与基于距离的传感器不可靠、不可用或存在风险时,这对确保航空器作战安全与效率至关重要。图像传感器若作为主要信息源并机载处理,可为此类 降级环境提供解决方案。本研究中,我们确定了标注与训练目标检测卷积神经网络(CNN)YOLOv5[3]的必要技术,以实现 Solve-PnP 算法所需的精度,将航空器位姿预测误差控制在7厘米与1度以内。这些技术有助于自动化航空器扩展自主航程,减少人工操作员执行高风险任务,从而提升飞行员安全。加油机与受油机均需实现自动化,因未来很可能双方均为自主航空器。

卷积神经网络应用于空中加油的挑战

设计作战系统时,利用典型目标检测器CNN从图像求解六自由度(6DoF)位姿会带来诸多问题:正确标注组件的几何三维中心、补偿遮挡、基于标注真实图像训练,以及权衡时效性、计算能力、传感器精度与神经网络规模。组件三维中心的二维标注失配主要有两个原因。首先是透视畸变导致边界框二维中心与投影至二维图像平面的三维物体几何中心不匹配。其次,标注物体可见部分的内在特性意味着无法保证中心点匹配。这引出了标注被遮挡物体特征(亦称组件)的问题。若未标注,CNN将无法训练以发现被遮挡特征,即使该物体大部分可见。若特征部分可见,会混淆CNN,且难以确定三维特征需可见多少比例才可判定为可见。研究一证明最好无视遮挡标注物体特征,并证实校正透视畸变可行且必要。

研究一的延伸——证明最好无视遮挡标注图像内物体特征——衍生出标注图像边缘外物体特征的概念。研究二展示一种标注技术,使CNN能够学习并检测图像边缘外的特征,提升底层位姿估计系统性能。前两项研究完全基于合成彩色图像进行,其无法完美复现真实条件或准确模拟所有类型传感器(如长波红外(LWIR)相机),造成CNN难以克服的领域差距。因此,研究三采用伪标注技术以弥合此差距。利用2023年12月飞行测试获取的真实彩色光电(EO)与真实长波红外图像,证明伪标注技术可提升CNN效能并弥合领域差距。此研究重要意义在于创造了从真实图像标注与训练CNN的能力。我们的标注技术使得能够基于作战与特定应用图像训练神经网络,无需昂贵传感器套件。

对在信号可能拒止或降级环境中有效运作系统的需求推动了本工作,强调发展替代性定位、导航与授时解决方案的重要性。2022年《国防战略》强调此需求,呼吁发展概念与能力,使军队在反介入/区域拒止环境中可靠保护高风险关键资产与人员的同时管理恶化[4]。为应对此挑战,本研究聚焦发展利用计算机视觉、人工智能(AI)与作战数据的技术,以提升航空器自主性并在降级信号环境中实现更安全高效的作战。

本论文采用与优化的位姿估计系统紧密遵循Lynch[5]的方法论。主要步骤包括:1. 在三维模型上识别组件;2. 生成合成训练图像;3. 基于合成图像训练YOLOv5 CNN;4. 使用训练后CNN推断图像中的组件;5. 应用Solve-PnP算法估计六自由度位姿。为在三维模型上识别组件,将物体的“.obj”文件加载至三维图形引擎AftrBurner[6,7]。在该引擎内,选择三维点云以定义物体上的组件。随后利用图形引擎随机化物体位置、方向、光照、背景天空盒,并生成空图像。每幅图像中,代表物体组件的点云被投影至屏幕以创建边界框(bbox)。各组件的几何中心亦投影至屏幕以校正投影畸变。详见研究一中的图3、4、5可视化这些概念。这些图像用于训练YOLOv5s[3] CNN。训练后的CNN应用于新图像以推断边界框。这些推断的边界框作为Solve-PnP算法的对应点以预测物体位姿。研究一与二展示了图像生成与标注过程的优化,重点处理透视畸变、训练中应用数据增强,并展示基于可见性的组件标注技术。研究三通过使用真实图像估计位姿在其上创建边界框来拓展此系统。

第二章包含简要背景回顾,为三项研究提供技术背景。研究一、二、三作为独立文档分别呈现于第三、四、五章。每项研究均提供针对该研究的引言与背景。

成为VIP会员查看完整内容
1

军事机动能力,即武装部队在欧盟境内快速调动部队与装备的能力,是防务中至关重要却长期被忽视的环节。欧洲历经数十年投资不足与障碍悬而未决,当前亟需在欧盟、北大西洋公约组织(NATO)及成员国层面加强协同整合力度,以增加资源投入,消除持续导致军事力量延误与中断的物理性、立法性及规制性障碍。若不采取行动,将使武装部队面对威胁时准备不足,并危及公民安全。最终可能削弱欧盟展现可信威慑与达成防务战备的能力。

欧盟层面即将推出的倡议为最终采用全面军事机动方案提供了契机。其显著附加值不仅体现在增加对两用基础设施的定向投资与减轻规制负担,更应解决明显影响军事机动决策的相关安全防务领域问题,包括对网络安全、物流枢纽、物资储备及运输创新的投资,以增强军事网络的安全性与韧性。

对于当前防务倡议而言,分配充足预算资源至关重要。本简报着眼于现行框架内外,探讨至2035年间追加750亿至1000亿欧元投资对改善基础设施现状的潜在影响。分析发现:相比成员国各自为政的非协调投资,通过集体投入更大量资金所产生的附加价值可带来近三倍的收益(至2035年实现每年额外210亿欧元GDP增长)。

成为VIP会员查看完整内容
3

《俄罗斯如何实施大规模作战行动》借鉴历史先例、当前乌克兰战争中的作战经验教训以及最新条令发展,全面评估俄罗斯的军事战略、关键作战理念,以及其地面部队在与北约部队发生主要战区冲突时的预期运用方式。俄罗斯对美国及西方仍构成严峻挑战,其已展现出动用武力的意愿、拥有快速动员的强大能力以及庞大的核武库。本文件基于美军《训练与条令司令部手册525-92:2024-2034作战环境——大规模作战行动》及《陆军技术规程7-100.1:俄罗斯战术》所提供的基础材料撰写而成。《训练与条令司令部手册525-92》指明了在可预见的未来将定义大规模作战行动(LSCO)的关键作战环境(OE)条件,而《陆军技术规程7-100.1》则深入剖析了俄罗斯地面部队的战术。这些资源共同为理解俄罗斯的冲突应对方式及其对美国陆军训练与教育的影响提供了全面基础。

俄罗斯将其安全环境视为与西方(尤其是美国)存在永久性战略竞争的环境。克里姆林宫将北约东扩、美军在欧洲的存在以及西方政治影响力视为对俄罗斯政权生存的存亡威胁。莫斯科的军事战略反映了其对战略纵深的追求、对领土防御的重视以及准备动用一切必要手段威慑或击败对手的决心。虽然根植于苏联时代的作战艺术——强调集中兵力、欺骗与消耗——但俄罗斯如今的方略整合了现代能力,如无人系统、远程精确火力、电子战及进攻性网络行动。

地面部队是俄罗斯大规模作战行动理念的核心。诸兵种合成集团军在强大炮兵与防空力量支援下,旨在执行既旨在诱入并消耗敌军的阵地防御,也旨在夺取具有作战意义地形的快速进攻。这些部队在以俄罗斯总参谋部及五大军区为支柱的指挥架构内行动,该架构为在俄罗斯边境附近作战而优化,但同时具备支援多战区作战的能力。

未来十年,俄罗斯地面部队的构成将受到乌克兰战争经验教训的影响。其部队很可能强调以师为基础的机动单位,辅以密集火力、升级后的炮兵及传统装甲力量,同时整合无人机、电子战及改进的指挥控制系统。尽管进行现代化努力,俄罗斯在重建其耗损的军官队伍并为大规模作战行动进行训练时,将继续依赖征兵制。化学武器、温压武器及战术核武器将继续嵌入其升级威慑框架。

俄罗斯的大规模作战行动极可能在其紧邻的边境沿线展开。莫斯科将西部边境的北约部队视为最大威胁,同时也在为其太平洋沿岸及北极地区的突发事件做准备。在西方方向的战役中,俄罗斯可能对北约盟国或伙伴发动突然进攻,采用旨在追求速度的狭窄进攻轴线,并得到航空兵、远程火力的支援,甚至可能首次使用核武器。或者,俄罗斯可能被迫进行防御作战,利用其广袤内陆的地理特征——森林、河流、沼泽及恶劣气候——通过消耗、欺骗及机动防御来迟滞对手。

基于俄罗斯条令及对乌克兰战争的观察,两个假想场景探讨了俄罗斯诸兵种合成集团军在与北约的防御和进攻战役中可能如何实施大规模作战行动。

在阵地防御中,俄罗斯很可能以空间换取时间,利用纵深、炮兵及无人机来消耗和拉伸敌军补给线,从而创造反攻机会。在进攻场景中,俄军将寻求达成突然性,并通过集中炮兵、多轴线快速推进以及针对关键节点的空降渗透来压倒防御。两个场景均强调俄罗斯持续依赖重炮、欺骗及大规模机动,同时也揭示了其在维持进攻势头、协同火力与机动以及在现代战场上保护集中编队方面所面临的挑战。

最终,本评估强化了《训练与条令司令部手册525-92》中的判断,特别是关于作战环境的复杂性以及俄罗斯重视其地面部队保护周边地区的重要性。莫斯科对领土防御、战略纵深及强制性军事姿态的重视持续塑造其部队现代化及不断演变的大规模作战行动方式,这基于历史先例、当前乌克兰冲突的经验教训及其与西方的持久竞争。对美国陆军而言,这意味着要为在这样一个战场的现实做好准备:其特点是电磁环境争夺激烈、炮兵对决实力接近、以及对手凭借动员能力和日益自给自足的国防工业基础所展现的韧性。这项准备不仅对威慑俄罗斯侵略至关重要,也对确保在欧洲战区任何潜在地面冲突中取胜至关重要。

成为VIP会员查看完整内容
3

人类能够轻松地利用先验知识与经验,从二维观测中理解三维环境。在 AR/VR 和机器人等领域,我们希望赋予视觉模型类似的能力,例如识别物体、估计其形状以及确定相机位置。然而,在推理阶段可用的信息往往模糊或不完整。为弥合这一差距,视觉模型可以通过从数据中学习来获取关于物体和环境的先验知识,从而增强其对三维世界的理解,并提升这些任务的性能。

在本论文中,我们探索了多种将学习型先验融入三维视觉模型的方法,从而在多个相关任务中提升了准确性与鲁棒性。我们首先聚焦于物体级三维视觉。针对单目物体重建,我们提出了一种基于射线的先验,该方法能够捕捉多层级特征,有效约束全局形状的同时保留精细细节。结合我们提出的基于射线的三维表示,该模型不仅实现了较高的准确性和泛化能力,还提升了推理速度。接着,我们提出了一种基于扩散模型的框架,利用来自多种来源的视觉先验,实现了类别无关的三维目标检测。该方法在域内任务上表现优异,并在复杂的真实场景中展现了对新类别物体的鲁棒性。

随后,我们将视角转向场景级三维视觉,研究已知与未知相机位姿下的场景结构与相机位姿的联合优化。在位姿信息不可用的情况下,我们引入了来自单目深度估计器的几何先验,以同时正则化几何结构与相对相机位姿,从而提升联合优化的鲁棒性。在可靠的位姿初始化可用时,我们进一步通过一种全局轨迹约束的替代参数化方式,以及结合对极几何损失引入的对应先验,对位姿与场景几何进行细化。最后,我们提出了多种几何先验来增强场景坐标回归,从而在重建与视觉重定位任务中取得了更优性能。

成为VIP会员查看完整内容
1

深度研究系统,即通过协调推理、在开放网络和用户文件中进行搜索、并结合工具使用来解决复杂多步任务的智能体 AI,正在向层次化部署方向发展,包含规划器(Planner)、协调器(Coordinator)和执行器(Executors)。在实践中,端到端训练整个堆栈仍不切实际,因此大多数工作仅训练一个连接核心工具(如搜索、浏览与代码)的单一规划器。尽管监督微调(SFT)能够赋予协议一致性,但其受到模仿偏差与暴露偏差的影响,并且未能充分利用环境反馈。偏好对齐方法(如 DPO)依赖于模式(schema)和代理(proxy),属于离策略(off-policy),在长时程信用分配与多目标权衡方面能力较弱。SFT 与 DPO 的另一局限在于,它们依赖于人工通过模式设计与标注比较来定义决策点与子技能。相比之下,强化学习(RL)与闭环、工具交互式研究天然契合,它通过优化轨迹级策略支持探索、恢复行为与原则性信用分配,同时减少对人工先验和标注者偏差的依赖。

据我们所知,本综述是首个专门聚焦深度研究系统强化学习基础的工作。本文沿三个维度系统化了 DeepSeek-R1 之后的研究:(i) 数据合成与数据整理;(ii) 面向智能体研究的 RL 方法,涵盖稳定性、样本效率、长上下文处理、奖励与信用设计、多目标优化与多模态集成;(iii) 智能体式 RL 训练系统与框架。我们同时讨论了智能体架构与协调机制,以及评测与基准,包括近期的问答(QA)、视觉问答(VQA)、长篇综合生成、以及具备领域约束的工具交互任务。我们总结了反复出现的模式,揭示了基础设施瓶颈,并提供了关于如何利用 RL 训练鲁棒、透明的深度研究智能体的实践指南。 一份精选论文列表可在 github.com/wenjunli-0/deepresearch-survey 获取。

1 引言

深度研究系统(deep research systems)的快速涌现(例如 OpenAI (2025)、Google (2025)、Perplexity Team (2025)),即能够处理复杂多步信息检索任务的智能体 AI 模型,标志着人工智能在推理、执行与综合方面方法的重大转变。在本综述中,我们聚焦于信息检索类用例,因为现有的大多数研究与产品均集中于这一应用。我们将深度研究系统定义为智能体研究者(agentic AI researchers),它们能够自主规划并执行跨开放网络与用户提供文件的多步研究任务,在新证据出现时迭代搜索、阅读与推理,最终要么为客观问题给出简洁答案,要么为主观开放性问题生成结构化、带引用的综合性报告。

学术界(Li et al., 2025f; Jin et al., 2025b; Wan et al., 2025)与工业界(ByteDance & contributors, 2025; LangChain & contributors, 2025; MiroMindAI & contributors, 2025)的一个共同趋势是:从单一体式智能体转向层次化智能体架构用于深度研究。图 1 展示了这一架构:规划器(Planner) 负责逐步分解与反思;协调器(Coordinator) 负责任务分配、委派、聚合与验证;而执行器(Executors)(即专门化的智能体与工具池)则在网络与文件上执行具体操作。这种关注点分离将战略规划与执行细节解耦,既支持并行化与“即插即用”的专业能力(例如替换更好的搜索器或代码执行器,并扩展至更多工具),又提供更细致的过程记录、信用分配与可审计性。同时,它还保持了规划器在长时程中的全局状态简洁且一致,而协调器与执行器则负责委派与落地执行。 尽管层次化架构在部署中颇具吸引力,但目前尚难以实现端到端训练整个工作流。因此,大多数研究集中于训练单一模型(通常是规划器),该模型直接连接少量基础工具(搜索/浏览/代码)。这种方式缩短了展开长度并降低方差,适配现有的 RL/SFT/DPO 基础设施,并能获得更干净的训练信号。训练目标是端到端强化单点(即推理、分解、工具使用、反思与综合)的长时程能力,从而使最终的规划器能够作为更强大的“大脑”嵌入完整层次结构中,而协调与执行部分则保持模块化与可替换。因此,本综述主要关注规划器模型的训练,并将在第 5 节讨论智能体架构与协调设计。

监督微调(SFT; Ouyang et al., 2022; Wei et al., 2022) 是初始化深度研究智能体的有效手段:它稳定、数据高效,并擅长教授协议一致性(例如工具调用模式、响应格式)和基本的逐步推理模式。由于 SFT 优化的是金标准 (x, y) 对,它在教授局部行为(如查询重写模板、引用风格、论证包装)和早期降低方差方面表现优异。然而,这些特性也限制了其在多轮研究任务中的表现。参考轨迹通常冗长、复合且由人工撰写;模仿学习带来模仿偏差(复制特定分解方式)和暴露偏差(教师强制步骤掩盖推理时累积的误差)。此外,SFT 也未能充分利用环境反馈:它无法直接从工具失败、随机检索或非平稳状态(如价格、可用性变化)中学习。简而言之,SFT 是培养能力与接口的宝贵支架,但并不是优化端到端决策质量的最终途径。

基于偏好的方法(如 DPO; Rafailov et al., 2023)可扩展至超越单轮输出,通过将智能体工作流分解为带标签的步骤(如查询生成、检索选择、综合),并在每个阶段学习局部偏好。然而,尽管已有研究探索了利用 DPO 训练深度研究智能体(Zhang et al., 2025c; Zhao et al., 2025a; Asai et al., 2023),我们认为这些方法仍存在若干结构性不匹配。其一,DPO 优化的是文本替代,而非状态-动作回报:成对损失作用于文本字符串,而非环境状态(工具结果、缓存、预算)或动作语义。这使得信用分配先天短视——它只能判断当前片段孰优,却无法将最终成败归因于早期检索或工具使用决策,也无法在部分可观测环境下权衡搜索深度与成本/延迟。其二,逐步 DPO 依赖于模式与代理:必须人工设计过程分解并生成偏好(通常基于启发式或另一个 LLM),这引入了标注噪声,并在遇到需要不同分解的任务时表现脆弱。其三,DPO 基本上是离策略、离线的:它改进的是固定比较,而非在闭环动作-工具空间中探索,因此难以学习恢复行为(如查询返回垃圾结果、网站阻止访问或价格波动时的应对)并适应非平稳环境。最后,多目标需求(准确性、校准、成本、安全性)仅通过标注者偏好隐式进入;DPO 没有提供在长时程上聚合向量奖励的原则性机制。

鉴于 SFT/DPO 方法的局限,我们认为强化学习(RL)是端到端训练深度研究智能体的有前途途径。深度研究最终需要在闭环、工具丰富的环境中进行轨迹级学习:决定如何分解问题、何时及如何调用工具、信任哪些证据、何时停止,以及如何在状态演化中权衡准确性、成本与延迟。RL 将系统建模为状态-动作上的策略,从而能够基于环境信号进行端到端改进,实现跨多步轨迹的信用分配,并探索搜索、工具编排、恢复与综合的替代策略。 基于这种向 RL 转变的趋势,我们提出了据我们所知首个专门聚焦深度研究系统的 RL 基础的综述。本文研究范围聚焦于训练:我们分析构建深度研究智能体的 RL 方法,而非具体应用任务。我们沿三个主轴组织文献: * 数据合成与整理:创建和整理复杂、高质量训练数据的方法,通常通过合成生成,支持多步推理、检索与工具使用; * 面向智能体研究的 RL 方法:包括 (i) 扩展基线流程(如 DeepSeek-R1 风格,Guo et al., 2025)以改进稳定性、样本效率和长上下文处理;(ii) 设计奖励与信用分配机制,在多步轨迹中传播信用(基于结果 vs. 基于步骤、复合评判、回报分解);(iii) 融合多模态,通过多模态大模型 (VLM) 实现迭代感知—推理循环; * 智能体式 RL 训练框架:将训练深度研究智能体视为一个系统性问题,梳理开源基础设施,揭示瓶颈,总结可复现的设计模式,并提供可扩展、可重现的训练堆栈实践指南。

除了训练基础,我们还强调两个跨领域的战略性方向: * 智能体架构与协调:层次化、模块化与多智能体设计,增强组合推理与任务分工; * 评测与基准:评估深度研究系统的框架与数据集,尤其是在任务丰富、工具交互的环境中。

综上,这些研究主轴为 RL 增强的深度研究生态系统提供了统一视角。通过梳理各主轴的进展,本综述为初学者提供概念路线图,并为研究者提供推动智能体 AI 向鲁棒、真实问题求解迈进的技术参考。图 2 展示了本文的分类体系与所综述的关键论文。 定位与贡献。 与同期综述(Huang et al., 2025a; Li et al., 2025a; Xi et al., 2025a; Xu & Peng, 2025; Li et al., 2025g; Zhang et al., 2025d;b)主要罗列系统或泛论 RAG–推理不同,我们采取了“以训练为先、以 RL 为中心”的视角。(i) 解释为何 SFT/DPO 与闭环、工具交互式研究不匹配,并强调在规划器中引入端到端 RL 的必要性;(ii) 首次提出专门针对深度研究 RL 基础的分类体系,涵盖数据合成与整理、面向智能体研究的 RL 方法(稳定性、样本效率、长上下文处理、奖励/信用设计、多目标权衡、多模态)与训练框架;(iii) 将智能体式 RL 训练视为系统问题,揭示基础设施瓶颈并总结可复现的模式以支持大规模展开;(iv) 通过“规划器中心训练 vs. 层次化执行解耦”将训练与部署衔接,并对评测与基准进行了深入综合。相比于同期综述,本文更聚焦于 RL,提供了更深入的数据、算法与基础设施洞见。综上,我们为利用 RL 训练鲁棒的深度研究智能体提供了一份统一蓝图与可操作指南。 时间范围与纳入标准。 我们综述了 2025 年 2 月(DeepSeek-R1 之后)至 2025 年 9 月(截稿前)发表的基于 RL 的深度研究智能体训练研究,涵盖第 3 节的四个训练支柱以及第 5 节的智能体架构与协调设计,用于解释训练后的规划器如何在层次化堆栈中部署。基准与评测亦在范围内:我们引用了近年来开发的经典 QA/VQA 与长文本(报告式、带引用的综合生成)基准,而领域约束的工具交互型基准仅限于 2025 年的工作。我们仅纳入那些在开放网络或类网络工具环境(搜索、浏览、代码执行)中通过 RL 学习策略的研究,排除仅使用 SFT/DPO 而不涉及 RL 的研究。

成为VIP会员查看完整内容
2

宗旨

  1. 本《联合能力概念说明》(JCCN)1/25号文件"指挥控制能力发展:现状与未来"的宗旨,是为指挥控制(C2)能力发展提供概念基础,促使一体化部队能够应对不断演变的作战环境中的挑战并把握机遇。本联合能力概念说明阐述了未来五年内在国防领域发展指挥控制能力的理论依据,同时致力于推动国防体系内指挥控制能力的协同发展,避免出现碎片化解决方案。

背景

  1. 本文件在《联合概念说明》(JCN)2/17号"指挥控制的未来"基础上进一步拓展。该前序文件指出未来指挥控制系统需为不断升级的全球大国竞争而设计,并具备适应各种危机与冲突局势的能力。它呼吁提升敏捷性并对军事文化、指挥控制结构与流程实施必要变革。这些提议仍具价值,但不足以使指挥控制能力完全满足国防未来需求。本联合能力概念说明1/25号反思了作战环境日益增加的复杂性,设想采用新指挥控制方法,整合新技术并汲取国防顶层概念的核心理念。

范围

  1. 虽然本文件遵循国防顶层概念的战略指导,但其撰写旨在指导直至2030年左右的指挥控制发展。2030年后的指挥控制概念化推演被视为具有高度推测性,因为未来十年技术与作战环境的变化速度很可能使当前关键假设失效。尽管本概念未对远期未来提出具体解决方案,仍建议开展后续研究,探究预计将影响2030年后指挥控制发展的特定属性与趋势。同时需要进一步工作将本文件理念与国防体系内正在开展的指挥控制项目相结合。文件发布后,将据此制定并敲定切实的概念实施计划。

受众

  1. 本联合能力概念说明1/25号主要面向国防领域内制定政策与战略能力、从事部队设计的人员。旨在为国防体系、其他政府部门、工业界、科学技术组织以及盟友与合作伙伴的战略思考提供参考。

结构

  1. 本概念文件共分五章,并附支持性术语表。主要内容概述如下:

    a. 第一章——引言。介绍国防顶层概念及其对新型作战方式的意义,同时阐述指挥控制的关键主题(包括术语体系)。

    b. 第二章——背景与军事问题。描述冲突形态与作战环境的演变特征,进而分析这些变化对指挥控制的影响及一体化部队的指挥控制需求,由此引出军事问题的界定。

    c. 第三章——应对挑战。将军事问题分解为指挥控制面临的三个具体挑战,通过逐一剖析明确所需指挥控制属性及其支撑功能。

    d. 第四章——概念方案。阐述培育和维持这些支撑功能所需采取的措施,从而夯实所需的指挥控制属性。这些方案将为国防体系内的指挥控制发展提供概念基础。

    e. 第五章——后续工作。概述为深化本概念主题及构想2030年后指挥控制形态需开展的后续研究。

发展指挥与控制——总结

影响要素:

  • 冲突特性与作战环境的演变;
  • 国防领域需提升作战效能并获得竞争优势(借鉴国防顶层概念的核心主张)...

揭示的军事问题:

现有指挥控制能力难以满足一体化部队作战需求,且无法应对预期作战环境中的复杂困境与挑战。

军事问题可分解为三项具体挑战:

指挥控制能力发展必须:

  1. 支撑一体化部队(挑战一);
  2. 应对作战环境复杂性(挑战二);
  3. 降低新型攻击方式带来的风险(挑战三)。

应对这些挑战需实现以下指挥控制属性:

  • 韧性化
  • 人工智能赋能化
  • 网络化
  • 自适应化
  • 一体化

为嵌入这些属性,本概念提出:

  • 制定切实可行的「目标基准点」,为国防体系指挥控制发展提供概念基础;
  • 结合国防系统内其他指挥控制项目开展后续深化研究。

根本宗旨在于:

  • 发展能促使一体化部队在演变中的作战环境下克服挑战、抓住机遇的指挥控制能力;
  • 推动国防领域指挥控制能力的协同发展,避免解决方案的碎片化。

图4.1 -提议的“ADAPT”指挥控制运作模式

成为VIP会员查看完整内容
21

俄乌军事行动凸显了巡飞弹药的广泛运用,迫使各国军队重新思考火力投送方式与战场生存策略。该技术以低成本实现精确打击,被部分观察家称为“神奇武器”;但其小型战斗部与对电子战的易感性限制了杀伤力。巡飞弹药虽无法取代传统炮兵集群的持续火力覆盖,但其整合应用将决定性重塑炮兵作战理念与部队编成。

巡飞弹药定义

巡飞弹药是一次性使用武器,设计用于在撞毁前搜寻并确认目标。尽管常被标记为自杀式无人机,但更宜将其理解为独特类别,因为弹药本身在撞击时即消耗完毕。

冲突中的巡飞弹药

巡飞弹药于1990年代首次部署,承担压制敌方防空系统(SEAD)任务,针对地空导弹(SAM)设施。随后二十年间,其作用范围持续扩展,至2000年代初,现代巡飞弹药已现身伊拉克、阿富汗与也门战场。

现代巡飞弹药最引人注目的部署见于2020年纳戈尔诺-卡拉巴赫战争,阿塞拜疆使用以色列制造的“哈洛普”巡飞弹药成功压制亚美尼亚防空系统并打击装甲目标,彰显其在常规作战中的价值。在乌克兰,冲突双方均大规模列装此类系统。俄罗斯的“柳叶刀-3”对缓解炮兵弹药短缺制约至关重要,尽管对加固目标杀伤力有限。同样,乌克兰武装部队虽部署数百架“航空环境公司弹簧刀”巡飞弹药并取得局部成功,仍高度依赖传统炮兵。

巡飞弹药对冲突中炮兵运用的影响

作为可大规模部署的传统导弹低成本消耗性替代方案,巡飞弹药拓宽了精确打击的获取途径,为战场人员与装备带来新威胁。其从三方面影响炮兵运用:(1)将精确打击推进至战术边缘;(2)提升对静态炮兵阵地的威胁;(3)加速反炮兵作战节奏。

巡飞弹药将精确打击推进至战术边缘,使小规模单位能绕过传统炮兵后勤限制,打击时效敏感目标,从而提升作战灵活性。对炮兵阵地的威胁相应增加,因为持续空中搜索使任何静态炮群都成为目标。随着巡飞弹药加入冲突,炮兵部队必须通过分散部署、伪装防护与频繁机动来提升生存能力。此外,炮兵阵地需同步配置反无人机与电子战防护系统,既保障己方巡飞弹药存活,又抵御敌方巡飞弹药攻击。同时,巡飞弹药可在潜在射击区域持续巡弋,一旦发现弹道或雷达信号立即攻击,从而压缩反炮兵作战时间线,实现无需等待身管火炮或火箭炮射击周期即可接战。

巡飞弹药的局限性

巡飞弹药虽能提升瞄准精度与灵活性,但存在多重脆弱性。其典型有效载荷远小于155毫米高爆炮弹(例如“弹簧刀600”反装甲型载荷约33磅,而M107型155毫米高爆炮弹载荷约95磅),毁伤效果往往较弱。乌克兰战事表明规模效应依然关键,各国正据此加速炮兵弹药生产。较小载荷限制了对装甲或加固目标的打击效果,而分层反无人机防御体系日益削弱其攻击效能。电子战与天气因素进一步制约其有效性:干扰与欺骗手段普遍存在,低能见度影响传感器性能,风力干扰飞行控制。综上这些限制使巡飞弹药成为传统炮兵的补充而非替代。

巡飞弹药的整合运用

巡飞弹药作为重要火力支援资产,可在武装力量体系内优化运用。通过聚焦编制、采购与防护可实现整合优化:编制层面可在炮兵与机动营内组建巡飞弹药排,并选配让连营级单位能在作战区域产生适当效应的改型;采购方面需涵盖短程、中程与远程巡飞弹药混合配置,包括反辐射选项以覆盖不同目标群;防护上需为每个炮位嵌入反无人机与电子战掩护体系。

巡飞弹药最宜理解为增强炮兵规模效应的精确打击层。能有效融合两者的部队将在未来冲突中占据优势,而试图以其替代传统炮兵的部队必将火力不足。

成为VIP会员查看完整内容
3

本文对智能弹药与第一人称视角(FPV)无人机这两种革命性技术进行对比分析,重点聚焦于成本效益、机动自由度、制造工艺及前线可修复性等关键维度。尽管两项技术初看相似,实则存在多重差异——智能弹药能对敌纵深实施高精度打击,其运用涉及诸多需考量因素,本文已对此重点阐释。相比之下,FPV无人机虽缺乏此种能力,却通过多种其他方式提升作战效能。本文旨在阐明一项技术如何助力战略层面,而另一项技术如何重塑地面战术/亚战术层级。

现代战争在过去二十年发生剧烈演变。随着新一代装备的出现,传统作战技术正逐渐消亡。乌克兰、以色列、纳戈尔诺-卡拉巴赫及印巴地区的最新冲突证明,精确制导弹药、空中武器平台自主性、实时监视与情报收集具有重要战略价值。昔日装甲车辆曾彻底变革作战战略与行动准则,而今战场则由强大自主武器系统实现同样变革——这些系统能依据实时态势自适应调整,且操作人员暴露于敌方的风险极低。此种转型部分源于两项关键技术的快速发展:智能弹药与第一人称视角(FPV)无人机。两项技术虽能达成预期作战效果,但其基本原理在诸多实质方面存在差异。智能弹药(主要指制导炮弹与精确炸弹)代表高度自主化技术,可实现战略性高精度毁伤;而FPV无人机则标志着低层级作战的革命,为地面部队提供增强的空战优势感知。

智能弹药

智能弹药指内置导航与控制辅助系统的武器系统,能使弹药沿特定路径飞行或根据实时态势自适应调整。与传统炸弹不同,智能弹药以极高精度打击目标,并具备飞行中调整弹道的能力。其关键组件包括:

  • 导引机制:可采用全球定位系统/惯性导航系统(INS),或配备激光寻的/末端导引头(如红外或雷达)等先进功能
  • 弹体表面安装用于中途修正的尾翼或鸭翼
  • 用于监测飞行路径的任何数据链软件
  • 可依据作战需求编程设定空爆、碰炸或延时起爆的引信系统

第一人称视角(FPV)无人机

第一人称视角(FPV)无人机是通过摄像机系统实时传输视频信号操控的无人航空系统,其视频传输可采用模拟或数字模式。关键组件包括:

  • 轻量化碳纤维框架、无刷电机及正反转向螺旋桨
  • 模拟或数字摄像机配视频发射器用于传输视频信号
  • 可采用ELRS、PPM或其他协议的无线电发射接收装置;为增强加密可使用光纤通信(OFC)系统
  • 可搭载多种有效载荷,包括爆炸物、生物制剂或电子战模块
  • 续航有限但支持快速部署的锂聚合物电池

成为VIP会员查看完整内容
11

本研究旨在提升军事医疗后送(MEDEVAC)系统性能,降低部署环境中官兵永久伤残或死亡的风险。通过运用整数规划、马尔可夫决策过程(MDP)、近似动态规划(ADP)及机器学习等一系列随机优化技术,深入剖析提升系统效能的关键因素。本研究包含三大核心组成部分。

研究的第一部分着力解决军事医疗后送设施选址-配置问题:医疗后送指挥机构需通过合理确定医疗后送设施(即机动航空医疗中转设施、二级医疗救治机构(MTF)与三级医疗救治机构)的部署位置,并配置相应类型的服务单元(即医疗后送单位、二级病床与三级病床),以实现一小时内最大伤员后送量。成功的后送行动需要同时具备可用的医疗后送单位及具备特定伤情救治能力的医疗救治机构病床。此外,服务单元可用性受工作负荷因素影响。我们开发了近似超立方体排队算法,用于估算考虑不同服务单元之间及同类服务单元间依赖关系的可用服务单元概率。这些概率随后被用于构建提供选址-配置方案的联合覆盖模型。鉴于初始模型高度非线性的特征,我们提出了具有不同模型复杂度的替代性联合覆盖模型,并采用热启动策略提升计算性能的同时确保最优解。本研究结果凸显了在综合医疗后送系统中整合联合服务单元运作对提升系统效能的重要性。

研究的第二部分解决军事医疗后送调度、优先改道、重新部署及送达(DPR-D)问题:医疗后送指挥机构在考虑医疗救治机构能力与容量的前提下,必须有效实施调度、优先改道与重新部署医疗后送单位,同时决策伤员后送(或送达)目标机构。针对该问题,我们构建了折现无限时间域的马尔可夫决策过程模型,并采用集成树型值函数逼近方案的近似策略迭代(API)框架——随机森林(API-RF)与极限梯度提升(API-XGB)——作为近似动态规划求解技术。我们在波斯尼亚-黑塞哥维那高强度作战典型场景中验证了马尔可夫决策过程模型的适用性,并比较了不同近似动态规划求解技术的效能。结果表明,在所有九组测试问题中,API-RF与API-XGB均显著优于当前基准的短视策略(即指派最近可用资源)。此外,API-XGB在所有案例中持续优于API-RF,其中八组案例达到平均2.11%的统计显著优势。

研究的第三部分通过霍克斯过程模拟非均匀到达过程,增强军事医疗后送DPR-D问题的现实性。我们优化了该问题的马尔可夫决策过程建模框架,使其能够捕捉霍克斯过程诱导的到达模式细微特征。具体而言,我们整合了采用多项式狄利克雷分布与滑动窗口策略相结合的预测模型,并通过引入优先经验回放机制(API-XGB-PER)改进前述API-XGB算法以增强学习过程。与研究第二部分类似,我们在波斯尼亚-黑塞哥维那高强度作战典型场景中验证了马尔可夫决策过程模型的适用性,并比较了近似动态规划求解技术的效能。结果显示,API-XGB-PER在所有九组测试案例中均显著优于短视策略,并在其中三组案例中显著优于API-XGB。进一步测试表明,优先经验回放机制的引入稳定了学习过程,并加速收敛至高质量策略。

本研究所构建的模型、求解方法及结论成果可为医疗后送行动的实施与优化提供指导。我们的研究展示了可应用于实践的理论改进方案,能够简化实际场景中的决策流程。

成为VIP会员查看完整内容
7
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员