随着机器学习(ML)与人工智能(AI)模型不断深入高风险领域(如医疗保健与科学研究),模型不仅需要具备高精度,还应具备 可解释性 。在现有的可解释方法中, 反事实解释(counterfactual explanation) 通过识别能够改变模型预测结果的最小输入改变量,从而提供更深入的解释性洞见。然而,当前的反事实生成方法仍存在关键性局限,包括 梯度消失 、 潜在空间不连续 ,以及 过度依赖学习到的决策边界与真实决策边界的一致性 等问题。 为克服上述限制,我们提出了一种基于 条件流匹配(conditional flow matching) 的全新反事实解释算法—— LEAPFACTUAL 。该方法能够在真实与学习的决策边界不一致的情况下,生成 可靠且信息丰富的反事实样本 。遵循模型无关(model-agnostic)的设计理念,LEAPFACTUAL不仅适用于具有可微损失函数的模型,还能处理 人类参与式系统(human-in-the-loop systems) ,从而将反事实解释的应用范围扩展到需要人工标注者参与的领域,如 公民科学(citizen science) 。 我们在多个基准与真实世界数据集上进行了大量实验,结果表明:LEAPFACTUAL能够生成 准确且分布内(in-distribution) 的反事实解释,为模型提供 可操作性洞见(actionable insights) 。例如,我们观察到,所生成的与真实标签一致的可靠反事实样本可作为新的训练数据,用于进一步提升模型性能。总体而言,所提出的方法具有广泛的适用性,不仅促进了 科学知识发现 ,也增强了 非专业用户的可解释性理解。

成为VIP会员查看完整内容
0

在线学习(Online Learning)是学习理论中的一种基础范式,主要研究如何从序列化数据中进行预测的问题。最初,在线学习被提出作为一种可学习性的数学模型,而如今,它已发展成为一个通用而灵活的理论框架,被广泛应用于优化、控制、经济学等多个领域,推动了算法创新与实证研究的进步。本论文系统探讨了在线学习的多方面理论问题,涵盖其基本极限与在优化和控制中的应用。 论文的第一部分聚焦于在线凸优化(Online Convex Optimization)。我们提出了更高效的自适应遗憾最小化算法,在查询效率与投影效率上均实现了改进。同时,我们还针对更具挑战性的在线非凸优化(Online Non-Convex Optimization)问题,提出了一种新的归约方法。 论文的第二部分关注在线非随机控制(Online Nonstochastic Control),这是对经典最优控制理论的推广,放宽了对代价结构与扰动模型的假设。我们提出了一种新的框架,用于控制边界稳定线性动态系统(Marginally Stable Linear Dynamical Systems)——这一类系统历来以分析困难著称。此外,我们设计了一种适用于具有一般损失函数的bandit非随机控制最优算法,并进一步开发了一种能够整合多个基础控制算法的元算法(meta-algorithm)。 论文的最后一部分转向**学习理论(Learning Theory)中的核心问题。我们建立了一种用于归纳推理(Inductive Reasoning)的充要条件——这是流行病学中的一个基础性问题——并揭示了其与在线学习理论之间的新联系。同时,我们还在多模态学习理论(Multimodal Learning Theory)**方面提出了新的结果,展示了在统计与计算层面上均可证明的性能优势。 综上所述,本论文在推进在线学习理论理解的同时,也拓展了其在更广泛领域中的适用性,为研究者与实践者提供了新的洞见与方法工具。

成为VIP会员查看完整内容
0

图:这处美国陆军指挥所,从无人机视角看,装载了现代技术,但使用的却是一个已有数百年历史的结构。(美国陆军斯科特·伍德沃德上校)

尽管经历了两个世纪的演变,现代军事参谋部的结构对拿破仑来说依然会是熟悉的。与此同时,军事组织在适应现代战争中的新领域——空中、太空和信息——的过程中,一直在努力整合新技术。

军事指挥部的规模已经扩大,以适应这些战争新层面所带来的信息流和决策点的扩展。其结果是边际收益递减和协调上的噩梦——即“厨房里有太多厨师”——这危及任务式指挥(mission command)的风险。

人工智能智能体(AI agents)——由大语言模型(large language models)驱动的、面向目标的自主软件——可以使常规参谋任务自动化,压缩决策时间线,并实现更小型、更具韧性的指挥所。它们可以精简参谋人员规模,同时提高其效能。

这项技术带来了机遇以及进行变革的迫切需求。

这种需求源于一个现实,即今天的指挥结构在形式和功能上仍然反映出拿破仑的野战指挥部——为大规模军队建造的工业时代架构。随着时间的推移,这些参谋机构规模急剧膨胀,使得协调变得笨拙。它们还导致了庞大的指挥所,这些指挥所容易被现代精确炮兵、导弹和无人机有效瞄准,也易受电子战干扰。

俄罗斯在乌克兰所谓的“指挥所坟场”(Graveyard of Command Posts)生动地说明了,静态的指挥部在对手能够集中精确炮兵、导弹和无人机的情况下,如何在现代战场上成为负担。

图:这张卫星图像显示了在加利福尼亚州欧文堡训练的一个旅级战斗队(brigade combat team)的电子发射信号。亮红色区域是指挥所的发射信号。

人工智能智能体的作用

军事规划者现在看到了一个世界,其中人工智能智能体——能够主动感知、决策和行动的、面向目标的自主软件——已经成熟到可以部署到指挥系统中。这些智能体有望实现多源情报融合、威胁建模、甚至有限的决策周期的自动化,以支持指挥官的目标。仍然有人参与在回路中(in the loop),但人员将能够更快地发布命令,并接收更及时、更具情境性的战场更新。

这些人工智能智能体可以解析条令手册、起草作战计划并生成行动方案,这有助于加速军事行动的节奏。美海军陆战队大学系列实验证明,即使是基础的大语言模型也能加速参谋评估(staff estimates),并将富有创意的、数据驱动的选项注入规划过程。这些工作指向传统参谋角色的终结。

仍然会有人——战争是人类的事业——并且伦理道德仍将作为因素融入决策算法流中。但那些留下并部署的人员很可能获得在人工智能智能体帮助下驾驭海量信息的能力。

这些团队很可能比现代参谋机构更精简。人工智能智能体将使团队能够同时管理多个规划组。

例如,他们将能够使用更动态的红队技术——扮演对手角色——并改变关键假设,以创建比传统计划更丰富的选项菜单。节省下来的、无需制作PPT幻灯片和更新参谋评估的时间,将转向应急分析——提出“如果……会怎样”(what if)的问题——和构建作战评估框架——即计划在特定情况下可能如何展开的概念图——这为指挥官提供了更大的灵活性。

设计下一代军事参谋机构

为了探索这种由人工智能智能体增强的参谋机构的最优设计,美智库战略与国际研究中心(CSIS)未来实验室(Futures Lab)的一个研究团队探索了各种替代方案。该团队开发了三种基线场景,反映了大多数军事分析家认为的现代大国竞争中的关键作战问题:联合封锁(joint blockades)、火力打击(firepower strikes)和联合岛屿战役(joint island campaigns)。“联合”(Joint)指的是在一个军队的多个军种之间协调的行动。

研究团队发现,最佳模式是让人类保持在回路中并专注于反馈循环。这种方法——称为“自适应参谋模式”(Adaptive Staff Model),基于社会学家安德鲁·阿博特(Andrew Abbott)的开创性工作——将人工智能智能体嵌入持续的人机反馈循环中,利用条令、历史和实时数据来动态调整计划。

在这种模式下,军事规划是持续进行的,永不完成,并且更侧重于为指挥官生成一个选项菜单,供其考虑、完善和颁布。研究团队使用多种人工智能模型测试了该方法,发现它在每种情况下都优于其他方案。

美军前参谋长联席会议(Joint Chiefs of Staff)主席马克·米利(Mark Milley)曾在《60分钟》(60 Minutes)节目中描述了人工智能即将给军事行动带来的巨大变革。

人工智能智能体并非没有风险。首先,它们可能过于笼统,甚至存在偏见。基础模型——在极大数据集上训练并可适应广泛任务的人工智能模型——对流行文化的了解多于对战争的了解,需要经过精炼。这使得对智能体进行基准测试以了解其优势和局限性变得非常重要。

其次,如果缺乏人工智能基础知识和高级分析推理方面的培训,许多用户倾向于将模型用作批判性思维的替代品。再聪明的模型也无法弥补愚蠢,或者更糟,懒惰的用户。

抓住“智能体”机遇

为了利用人工智能智能体,美军需要将构建和调整智能体制度化,将自适应智能体纳入兵棋推演,并彻底改革条令和训练以适应人机编队。这将需要进行多项变革。

首先,军队需要投资增加计算能力,以构建跨军事编队运行人工智能智能体所需的基础设施。

其次,他们需要制定额外的网络安全措施并进行压力测试,以确保由智能体增强的参谋机构在遭受跨多个域(包括网络空间和电磁频谱)攻击时不易受到损害。

第三,也是最重要的,军队需要大幅改变其军官教育方式。军官必须学习人工智能智能体如何工作,包括如何构建它们,并开始将课堂作为实验室,为古老的军事指挥和决策艺术开发新方法。这可能包括改组一些军事学校,专注于人工智能,这一概念在2025年7月23日美国宫发布的《人工智能行动计划》(AI Action Plan)中提出。

如果缺乏这些改革,军队很可能仍将陷入拿破仑时代参谋机构的陷阱:增加更多人员来解决日益复杂的问题。

参考来源:flaglerlive

成为VIP会员查看完整内容
6

无人机(UAV)正被整合到生活的各个领域,广泛应用于室内外环境的民用、商业和军事领域。实现无人机交通管理系统(UTM)与空中交通管理(ATM)的集成,无人机机载智能是至关重要的要求。在GPS使用受到严格限制、需要更复杂的定位技术且交通管理系统支持较少的室内应用中,对无人机机载智能的要求更为迫切。

要使无人机被考虑用于特定任务,其使用效益必须明显优于其他成熟的传统系统。无人机的一个关键特性是能够执行自主的、机载实时路径规划。路径规划定义为:在考虑静态和动态环境及模型约束与不确定性的情况下,自动生成通往预定目标点的可行且最优路径的过程。此功能使得无人机在定义其工作环境和目标后,仅需最少的人工干预。因此,自主且鲁棒的路径规划是无人机被考虑用于工业、商业、军事和家庭室内应用的基础。

对自主路径规划的需求始于几十年前机器人技术引入工业重复应用之时。自那时起,路径规划从二维扩展到三维,走出工厂车间,在静态和动态环境中运行,并应对各种约束和不确定性。自主载具的路径规划算法可大致分为三类:基于图(Graph-based)或基于网格(Grid-based)的算法;基于采样(Sampling-based)的算法和插值(Interpolation)算法。

尽管无人机的使用有所增加,但其潜力远未完全发挥。这主要归因于许多尚未完全解决的挑战,阻碍了小型无人机在室内环境中的使用。本研究将重点关注在室内、障碍物密集且无UTM支持(仅提供目标点定义)环境下的路径规划挑战。在此类场景中,预计无人机仅使用机载设施进行操作。在这方面,确定了三个挑战,可总结如下:

在存在静态和动态障碍物以及不确定性的情况下,仅使用无人机机载资源,实时构建从无人机当前位置到目标位置的无碰撞路径。

为实现无人机在室内环境中的路径规划算法,制定了以下研究目标以应对这三个挑战:

评估最先进的路径规划原理在无人机于存在不确定性的三维实时动态室内环境中运行的性能,并根据应用确定定制的配置。

为应对此研究目标,提出了五个研究问题:

研究问题1:无人机三维路径规划领域的最新技术水平是什么?这些算法如何比较?

为探究不同路径规划算法的潜力,考虑了工程各领域的当前技术水平。文献综述表明,基于图的方法和基于采样的方法是三维无人机路径规划的潜在候选方案。对每类中最常用的算法,即A*算法和快速探索随机树(RRT)算法及其变体(即无步长约束的RRT和多快速探索随机树(MRRT)),在不同复杂度的三维场景中进行了测试。还开发了一种路径平滑插值算法,以优化非最优路径(尤其是基于采样的方法产生的路径)。

对每种路径规划变体使用相同的参数实施相同的路径平滑算法,以进行公平比较。这些算法使用同一台计算机在同一组不同复杂度的三维场景上进行测试。为进行比较,将路径长度和计算时间作为性能衡量指标。

实施了具有一系列分辨率的A算法、具有不同步长约束的标准RRT算法、无步长约束的RRT算法以及具有不同种子的多快速探索随机树(MRRT)算法,并比较了它们的性能指标。对于A算法,测试显示在所有场景中,路径长度随分辨率变化存在固有波动。这是由于A*算法基于网格的特性造成的,该特性会导致这样的情况:分辨率的微小增加(理论上应略微缩短路径长度)实际上可能生成长度更长或更短的路径。通过在所有三个维度上将环境随机平移一个介于零到相邻图节点之间距离一半的距离,可以减轻这种波动。

结果证实,在所有考虑的 resolutions、步长和种子的所有场景中,所有算法都能生成路径。相比之下,A算法相对于RRT算法能在更短时间内生成更短的路径,尽管A算法仅探索路径构建所需的区域,而RRT算法均匀地探索环境。结果表明,在存在静态障碍物的离线情况下,A*算法在路径长度和路径生成时间方面均优于RRT算法,在所有考虑的场景中两者成功率均为100%。

A*允许根据场景不同部分的不同需求对环境进行不同的离散化,从而最优地利用资源。相反,RRT及其变体适用于在均匀分布和聚焦的三维区域探索应用中高效生成路径。基于所得结果及其对无人机路径规划的意义,应对第二个研究问题。

研究问题2:所选路径规划算法能否使用小型无人机机载计算资源在实时静态环境中应用?

此研究问题假设所有路径规划计算、感知和环境建模以及执行器控制都必须在机载实时完成。另一个含义是,路径规划器只能可视化由机载传感系统确定的传感距离内的环境,因此只能(如果可能)构建一条通往中间目标点的路径。

在此研究问题范围内,考虑一个等于无人机传感范围的球体,假设传感系统在所有三个维度上具有360度视场角(FOV)。进一步假设传感范围内的静态障碍物是确切已知的,而其他障碍物是未知的,仅当无人机向其方向移动时才变得可见。为模拟实时路径规划,计算时间必须小于或等于无人机从当前位置移动到新位置所需的时间。使用用于应对研究问题1的相同测试环境和相同的性能衡量指标。

结果表明,在所有考虑的场景中,A算法在路径长度和计算时间上再次优于RRT算法,且差异随场景复杂性增加而增大。只要前瞻距离(look-ahead distance)至少是每次迭代移动距离的两倍,A算法在所有考虑场景的所有测试中成功率达到90%或更高。总体而言,由于构建中间路径所需的计算时间比A算法长,RRT算法的成功率低于A算法。

无人机速度、传感器范围和计算能力是基于分析多种无人机机载这些参数的不同研究[1-3]来定义的。基于这些无人机参数的路径规划结果表明,仅使用无人机机载系统即可实现三维实时路径规划。结果给出了不同参数的最佳经验值。这些参数的设置将配置三维实时路径规划平台,针对每个特定的室内应用优化其性能。

研究问题2仅考虑了静态障碍物,但在实际的无人机应用中,障碍物可以移动和旋转,因此需要考虑动态环境以评估所开发的三维实时无人机路径规划算法的可用性。此要求在下一个研究问题中进行探讨:

研究问题3:如果用动态障碍物替换静态障碍物,对路径规划性能有何影响?

动态环境的纳入是路径规划算法外部因素,但它会影响无人机将遍历的路径。室内环境中的动态障碍物可以用对称形状表示。在本工作范围内,构建了四个不同复杂度的场景。这些场景包含旋转和非旋转的立方体、旋转的V形障碍物以及带窗户的静态二维平面。

在动态环境建模中考虑了障碍物的移动和方向。假设随机障碍物移动速度小于或等于无人机的速度,否则避障将不可能实现。

有限范围的实时环境会产生中间目标点不可用的情况。为此,制定了两种不同的基本原理来缓解这种情况。在“等待”策略中,无人机在其当前位置等待,直到定义的中间目标位置变得可用。在“移动”策略中,中间目标位置被移动到更靠近无人机当前位置的地方,从而增加无人机更接近最终目标位置的机会。这两种策略都集成到A*和RRT路径规划算法中,并在所有具有动态障碍物的场景中进行了测试。

结果表明,对于A和RRT算法,与“等待”选项相比,“移动”选项在路径长度、计算时间和成功率方面产生更好的整体结果。在相对简单的场景中,A和RRT产生相似的结果,但RRT在路径长度、计算时间和成功率方面记录到更好的结果。对于复杂场景,如果时间不受限,RRT更优;而A算法受时间约束的影响较小。此外,在复杂场景中,随着速度增加,由于A和RRT都缺乏路径规划时间,成功率会下降。

结果表明,所开发的包含A*和RRT算法的三维实时路径规划平台有潜力用于低障碍物密度的动态障碍物场景。“等待”变体适用于安全性至高无上的情况。在家庭环境中,通常就是这种情况,因为无人机不能与障碍物碰撞,尤其是当障碍物是人时。“移动”变体在目标达成比安全更重要的情境下是理想的,例如搜索和救援。

到目前为止,假设无人机系统内不存在不确定性。在实际场景中,存在一系列不确定性。在下一个研究问题中,研究了在室内环境中运行的无人机的不确定性。

研究问题4:不确定性是否影响无人机的三维路径规划?如果是,如何对这些不确定性进行建模?

此研究问题探究不确定性是否影响无人机在室内环境中的路径规划。这需要进行彻底的文献调研,进而识别并建模可能影响路径规划性能的不确定性源。

在本工作范围内,仅考虑无人机模型内部的不确定性和环境不确定性(通过无人机机载传感系统感知)。其他不确定性,例如与用户的通信,不在本次分析范围内,故不予考虑。

文献指出需要在实时三维无人机路径规划中考虑不确定性,因为如果忽略不确定性,可能对路径规划性能产生负面影响。不确定性可预测的保真度对于确定所提出路径规划算法的可用性至关重要。此外,文献将边界形状和概率分布方法描述为无人机应用中不确定性建模的关键候选方法。在考虑两种方法的特性后,使用围绕当前无人机位置和障碍物体积的边界形状对不确定性进行建模。

一旦不确定性源被识别、估计和建模,便在存在动态障碍物和不确定性的情况下评估所开发的三维实时路径规划算法。

研究问题5:在存在动态障碍物的情况下,能否减轻不确定性以确保无人机实时进行无碰撞三维路径规划?

使用相同的实时三维无人机路径规划平台,考虑为评估研究问题3而构建的相同测试环境。使用A*和RRT路径规划算法及“移动”方法进行测试。基于文献对不确定性边界进行量化,无人机位置和障碍物的不确定性在2%到20%之间变化。通过向实际相应参数添加偏移量来引入不确定性。将独立地并与动态障碍物共同分析每个不确定性源的影响,以确定实时路径规划算法如何安全运行。

结果表明,对于所有考虑的场景,两种不确定性源(无人机位置和障碍物)都降低了A和RRT算法的路径规划性能,其中RRT表现出更大的影响。同时包含两种不确定性源进一步恶化了路径规划性能。在相对简单的场景中,RRT产生最快和最短的路径,成功率与A大致相同;而在相对复杂的情况下,A表现更好。此外,RRT的碰撞风险高于A,因为RRT比A*更频繁地接近障碍物。

从结果可以确认,必须考虑不确定性,因为它对路径规划性能有影响。不确定性建模的准确性会影响所考虑的两种路径规划原理的性能。

在本论文中,每个研究问题都建立在前一个的基础上,以这种方式达成最终研究目标并应对研究挑战。在评估每种算法的路径规划性能(研究目标的第一部分)过程中,可以独立分析每种方法对每个额外复杂因素的响应。这些知识可用于指导未来的无人机设计者根据其应用选择最佳配置,从而达到研究目标的第二部分。

将所开发的三维实时路径规划算法应用于配置真实无人机,使其在室内、障碍物密集的环境中实现自主三维导航,是最终的未来目标,可推动该系统在家庭应用中商业化。此外,该实时三维无人机路径规划系统可被提议集成到室外无人机中。最后,本论文的最终目标是致力于缩小将无人机集成到家庭环境中仍存在的差距,旨在改进当前和未来依赖无人机的服务,最终目标是提升人们的日常生活质量。

成为VIP会员查看完整内容
4

本指南阐明并整理了美陆军未来司令部(AFC)在参与ACIDS流程中所承担的角色、职责及程序,并将其系统化。本文档的主要读者为参与执行ACIDS流程的AFC体系内工作人员,以及能力开发者(CAPDEVs),可作为其主要参考指南。

成为VIP会员查看完整内容
4

问题定义:在地缘政治不稳定时期,海军陆战队(USMC)可能需要向争议区域快速部署远征部队。本文开发了一种决策支持工具,用于设计支持此类部队在远征环境中流动和持续保障的军事后勤计划。方法论:提出了一种定期服务网络设计模型,用于优化跨多式联运远征后勤网络中各种运输工具(连接载具)和物资的路径规划与调度。该模型表述为一个混合整数规划(MIP),其目标是最小化因部队集结延迟和需求履行延迟而产生的惩罚成本,同时考虑连接载具的容量、速度和航程,以及物资的可获得性。结果与管理启示:通过一个设定在南加州、旨在反映美国海军陆战队训练场景的虚构战争想定来说明模型的应用。结果突显了所提出的混合整数规划(MIP)在创建复杂多式联运后勤计划以确保及时满足远征需求方面的有效性。该框架提供了首个基于优化的远征后勤规划决策支持工具,与军事后勤规划人员目前进行的定性分析形成对比。研究结果为海军陆战队(USMC)提供了关于其后勤网络效率和脆弱性的有价值的细粒度和聚合性见解。

关键词:军事后勤,远征作战,服务网络设计,混合整数规划

近年来,根据2018年美国《国防战略》(马蒂斯,2018;伯杰,2020)的指示,美国海军陆战队(USMC)在“部队设计”计划下进行了广泛的部队结构调整,以增强其能力并为印度-太平洋地区潜在的同等对手竞争重塑其战斗力。该计划的关键目标是让美国海军陆战队(USMC)的部队通过与美国海军更紧密的合作,变得更加敏捷、多能以及两栖化。这些变革旨在确保美国海军陆战队(USMC)仍然是一支有效的远征部队,准备好支持在各种全球场景下的海军和联合行动。

远征作战涉及由部署到外国领土的部队执行的军事行动,通常是在敌对或争议环境中进行。其特点是快速部署经过特殊训练和装备、能够独立于已建立的后勤基地运作的远征部队。这些部队能够执行广泛的任务,包括作战行动、人道主义援助和维和行动(美国海军陆战队,2023)。这种作战形式对于维持全球稳定和有效应对危机至关重要,因为它使军事力量能够迅速应对新出现的威胁、确保战略要地并支持盟友或威慑对手(麦肯锡,2019)。

然而,快速部署和维持远征部队带来了显著的后勤挑战,主要原因是此类部队在远离已建立的供应网络和基础设施的地方运作。关键挑战之一是将基本补给(包括食物、燃料和弹药)协调并及时运输到偏远或争议区域。由于依赖当地资源的能力有限,以及需要长距离运输补给(通常需要空运、海运和陆运相结合),后勤规划的复杂性增加(布拉德福德,2006)。此外,远征作战的动态性质要求后勤规划具有高度的灵活性和适应性。规划人员必须考虑作战环境的快速变化,例如战线移动、威胁演变和多变的天气条件(阿普特,2018)。这些因素可能中断补给线,并使后勤车队的调度和路径规划复杂化,需要制定应急计划并具备快速重新分配资源的能力。

总体而言,维持远征作战的后勤挑战是多方面的,需要能够应对远征作战固有不确定性的迅速而细致的规划。然而,目前由美国海军陆战队(USMC)后勤规划人员在训练演习期间手动进行的分析仍然是定性的和劳动密集型的。尽管已有努力在远征任务中使用模拟和预测分析工具来估算后勤需求,但在对于保证任务成功至关重要的后勤资产路径规划和调度方面,尚未有规范性分析工作(赖斯等人,2016;德卡斯特罗等人,2023)。另一方面,用于后勤规划的定期服务网络设计的运筹学模型并不适用于远征环境,因为它们没有考虑关键特征,如灵活采购和连接载具特性的异质性(克雷尼奇和休伊特,2021)。因此,本研究旨在开发首个规范性分析工具,以协助美国海军陆战队(USMC)进行高效的远征后勤规划。

为设计此决策支持工具,构建了一个混合整数规划(MIP)模型,以优化多式联运远征后勤网络内连接载具和物资的路径规划与调度。该混合整数规划(MIP)旨在最小化因延迟履行需求而产生的惩罚,同时考虑关键特征,如连接载具容量、运输和维护时间、地点容量以及物资可获得性。该混合整数规划(MIP)模型结合了现实的后勤约束和目标。然后,在一个设定在南加州、旨在反映美国海军陆战队(USMC)训练场景的虚构远征想定中测试模型。结果表明了所提出的混合整数规划(MIP)在协调后勤资产以及时满足需求方面的实际适用性和有效性。通过关键绩效指标,本文所述工具为后勤资产的最优利用提供了宝贵的见解。通过进行假设情景实验,还展示了其快速调整后勤计划的能力,同时识别后勤网络中的脆弱性。重要的是,工具已在美国海军陆战队(USMC)进行的保密兵棋推演中得到使用和验证。

成为VIP会员查看完整内容
3

大型语言模型(Large Language Models, LLMs)是一类经过训练以理解和生成自然语言的深度学习模型。在我的博士研究期间,LLMs 已经深刻地改变了机器学习领域的格局。如今,它们被广泛应用于众多商业产品中,例如 ChatGPT。此外,从 LLMs 的开发过程中所获得的原理与经验,也持续塑造着机器学习研究的方向——包括尺度规律(scaling laws)自监督表征学习(self-supervised representation learning)等新范式。 然而,这些快速的进展也可能掩盖了许多关于模型内部机制与行为的基础性问题。随着 LLM 能力的不断增强,超越传统训练与评估流程的严谨科学研究变得尤为重要,它对于深入理解与持续改进这些模型至关重要。 本论文旨在研究以往被忽视的 “大型语言模型的隐性特性(hidden properties)”。这些隐性特性涉及模型的内部权重空间、激活空间以及输出行为等不同层面。 首先,我们发现 LLMs 在其权重空间(weight space)中本质上具有稀疏性(intrinsic sparsity)。为验证这一隐性特征,我们提出了一种基于原理的剪枝方法(principled pruning approach),能够从预训练模型中提取出有效的稀疏子网络。 其次,我们进一步探索了激活空间(activation space),揭示了其中存在结构化异常值(structured outliers)。这些激活数量极少,但其绝对值幅度极高。我们称之为**“极大激活(massive activations)”。研究表明,这些激活与自注意力机制(self-attention mechanism)密切相关。针对这一现象,我们提出了一种不含此类异常激活的替代注意力机制**。 最后,我们聚焦于输出空间(output space),设计了一个概念上简单的分析框架,用于评估和研究 LLM 生成文本中的特异性(idiosyncrasies)。实验表明,不同模型生成的文本可以被以极高的准确率区分开来,我们进一步分析了导致这种差异的特征性“签名模式(signatures)”。 总体而言,本论文希望为现代基础模型(foundation models)提供一种全新的研究视角,以促进对其内部结构与行为机制的深入理解。

成为VIP会员查看完整内容
4

大型语言模型(Large Language Models, LLMs)在诸多领域与应用中取得了显著进展,但仍面临高昂的微调成本、推理延迟、边缘部署受限以及可靠性等问题。相比之下,小型语言模型(Small Language Models, SLMs)具有结构紧凑、高效灵活等优势,为上述问题提供了互补的解决思路。近期研究开始探索大小语言模型协作框架(SLM–LLM collaboration frameworks),旨在融合SLMs的专长与高效性,以及LLMs的泛化与推理能力,从而在不同任务与部署场景下实现多样化目标。 受此趋势启发,本文围绕协作目标对SLM–LLM协作进行了系统性综述。我们提出了一个以四类目标为核心的分类体系:性能提升、成本效益、云边隐私可信性。在此框架下,本文回顾了具有代表性的研究方法,总结了主要设计范式,并探讨了面向高效、安全与可扩展的SLM–LLM协作的开放挑战与未来发展方向。

1 引言

大型语言模型(Large Language Models, LLMs)凭借其庞大的参数规模,已深刻变革了多个领域,包括科学智能(AI for Science)(Luo et al., 2022; Al-Lawati et al., 2025; Wang et al., 2024a)、程序生成与代码智能(Shi et al., 2024),以及以人为中心的人机交互(Zhang et al., 2024c)等。然而,这种大规模特性同时带来了若干挑战:(1)微调成本高昂,导致模型难以高效适应新任务(Thawakar et al., 2025; Liu et al., 2024b);(2)模型规模庞大,引发推理延迟,限制了实时应用(Leviathan et al., 2023; Kwon et al., 2023);(3)边缘设备算力受限,如手机、个人电脑和小型服务器等通常无法部署LLMs,而基于云端的推理又带来了隐私与成本问题(Carlini et al., 2021; Xu et al., 2024b);(4)LLMs存在固有的可靠性风险,包括幻觉生成与越狱攻击等脆弱性(Yao et al., 2024; Farquhar et al., 2024)。 这些问题凸显了对可定制、具成本效益、可边缘部署且可信赖的AI解决方案的迫切需求。 相较之下,小型语言模型(Small Language Models, SLMs)因其结构紧凑、计算成本低且适应性强,成为应对上述问题的有力补充方案。尽管SLMs在通用推理与知识覆盖方面不及LLMs,但通过融合SLMs与LLMs的互补优势,有望构建出高效、可扩展且可靠的智能系统。 研究者提出了多种SLM–LLM协作(collaboration)方法,利用SLMs在定制化、高效性和本地部署方面的优势,结合LLMs在泛化与推理上的强大能力(Xu et al., 2024a; Chen et al., 2024; Wang et al., 2025b)。尽管该方向已取得显著进展,但目前尚缺乏一项系统性综述以协作目标为主线展开的研究。现有工作主要聚焦于四类核心目标: 1. 性能提升(Performance):将特定领域的SLMs与通用LLMs结合,以提升在专业与通用任务上的整体性能; 1. 成本效益(Cost-effectiveness):通过SLMs进行轻量级处理,并在必要时调用LLMs,从而降低计算与API调用成本; 1. 云边隐私(Cloud–edge Privacy):利用设备端SLMs处理隐私数据,而云端LLMs提供更广泛的推理支持,以平衡效率与隐私; 1. 可信性(Trustworthiness):将SLMs作为安全策略编码器,引导LLMs生成更安全、可靠的输出。

本文首次围绕性能、成本效益、云边隐私与可信性四大目标,对SLM–LLM协作进行全面综述。我们提出了系统的协作目标分类体系(taxonomy),总结了具有代表性的研究方法(详见附录表1),并展望了未来的研究方向。 与现有综述的差异

已有综述在LLM时代探讨了SLM的发展。例如,Wang et al. (2024b, 2025a)对SLM的设计、应用及可靠性进行了广泛概述,但仅简要提及协作问题;Lu et al. (2024)、Van Nguyen et al. (2024)与Xu et al. (2024b)则分析了SLM的优势、架构与部署,但对协作机制的讨论较为有限。另一方面,现有的协作综述(如Chen and Varoquaux, 2024; Niu et al., 2025; Li et al., 2025b)主要聚焦于单向或云–边协作场景,而未涵盖更广泛的协作目标。 为填补这一空白,本文从协作目标出发,对SLM–LLM协作进行系统性回顾,旨在提供关键洞见,以指导未来研究与实践。

成为VIP会员查看完整内容
6

最近由计算社区联盟(Computing Community Consortium on Artificial Intelligence, AI)发布的一份白皮书中包含了以下显著段落:“每种范式都被誉为开启了人工智能的新时代,每种范式都产生了一系列变革性应用,并且每种范式最终都被一个或多个建立在先前见解基础上的新范式所取代。这提出了一个明显的问题:人工智能研究的下一步是什么?也就是说,在当前的深度神经网络和基础模型时代之后,什么将到来?”

人们期待,在人工智能领域,新的一天将会到来。

这种期望源于一个历史以狂热期为标志的领域,当一种新技术的成功被认为是实现类人智能的关键时,这种希望却因其未能实现而受挫。正如美国国防分析研究所的罗伯特·里奇堡在2018年所写:“然而,历史表明,被高估的潜力导致了未达预期的挫折和投资回报甚微……现在正是关注这一警告的时候……这些技术的局限性……需要被那些寻求应用‘人工智能’来解决国家安全问题的人更广泛地理解。”

两种主流人工智能方法——符号人工智能(Symbolic AI,在二十世纪更为突出)和机器学习(Machine Learning,包括当今主导的深度神经网络)——中持续存在的局限性:。包括:
• 不可靠性
• 无法稳健地适应新事物
• 缺乏可解释性
• 计算、数据和能源密集型

正是人工智能赋能机器在资源有限的新情况下无法匹配人类稳健灵活性的能力,历史上导致了对其发展轨迹的重新思考。这就是先前讨论的由美国国防高级研究计划局(DARPA)在1980年代赞助的战略计算倡议(Strategic Computing Initiative)的最终结果。

然而,这些缺点并非在真空中被识别,脱离机器的用途。它们是基于机器的应用而被识别的。 因此,“人工智能走向何方?”这个问题取决于另一个问题:“当前人工智能系统在哪些应用上失败,以及它们为什么失败?”

人工智能研究由组织需求驱动

与此相对,DARPA将其理想化的人工智能“第三波”(Third Wave)标记为由上下文适应(Contextual Adaptation)组成。符合这一标准的模型是那些能够稳健处理与先前遇到的情况缺乏相似性的情况的模型。

通过这种方式,第三波人工智能系统将更好地服务于与人类作战人员协作的最终目的;增强人类能力,而非取代它。这是一个组织需求。技术研究服务于这一目的。结果是,无论人工智能研究从此走向何方,它都将参考这样的组织需求。

尽管组织在需求和优先级上有所不同,但任何试图构建适用于敏感或任务关键领域的系统的尝试都必须分配资源用于研究与资源有限情况下的稳健适应性相关的缺陷。

人工智能的可能方向

借鉴计算社区联盟白皮书的思路,人工智能有几种可能的路径。

神经符号人工智能(Neuro-Symbolic AI):最常被引用的例子寻求实现神经和符号传统中算法和架构的深度集成。目标是融合神经网络灵活的学习和模式匹配能力与符号系统的精确性、可靠性和计算效率。此类系统通常被设想为更专业化而非通用,尽管研究人员旨在在那些专业领域内实例化出当今通用系统所不具备的复杂性和可靠性水平。国际预测(Forecast International)最近报道了在DARPA等美国国防机构进行的神经符号研究。形式化方法(逻辑、基于规则的系统)与神经网络的结合也引起了美国陆军一些人员的注意。

神经形态人工智能(Neuromorphic AI):这种方法针对支撑人工智能模型的硬件,寻求构建具有模拟人类和动物神经组织结构的硬件。这借鉴了通过人工神经网络模拟人脑的重点,并将其应用于物理计算基础设施。 具身人工智能(Embodied AI):现有人工智能系统是数字化的;是由具有物理、可控存在的人类利用的软件应用程序。一些研究人员将人工智能系统缺乏物理存在视为一个根本限制,这限制了它们从某些方面进行学习和理解。只有通过直接与物理世界互动,特别是能够操纵物理物体并观察这些原因的效果,人工智能系统才能获得更类似人类的智能,这种方法如此说。

多智能体人工智能(Multi-Agent AI):当今对人工智能的许多关注是关于个体模型,商业趋势直到最近还围绕着一个单一模型越来越能够执行更多任务。然而,一些人看到了在构建一个专业人工智能智能体的协作生态系统方面的前景,每个智能体都带来独特的能力,同时相互协调和互动以实现复杂和集体目标。

注意,这些智能体的技术基础并非预先定义的;它们可能是今天讨论的“智能体”或某些尚未设计的未来技术。

国防观点

哪种人工智能方法最有前途,哪种与国防最相关?

或许神经符号人工智能(Neuro-Symbolic AI)作为领先的竞争者。神经符号人工智能在流行报道中已经获得了一种作为人工智能下一波潮流的地位。

然而,神经符号人工智能的前提是一个与国防组织高度相关的技术议程:它直接关注于减轻在任务关键情况中部署人工智能模型时最有害的障碍。这些主要涉及准确性和可靠性、在资源有限的情况下稳健地泛化到新情况的能力、可解释性(人类可解释性)和计算效率。一些学者确实将神经符号人工智能作为该领域第三波最有前途的表现形式。

此外,它以两种方式服务于国防相关目的。首先,这项研究计划并非基于一种依赖实现“人工通用智能”或类似高大上的方法。它针对的是阻碍可识别应用的具体缺陷。

其次,它利用了两个现有范式,每个范式都已经声称具有独特的能力:符号人工智能在狭窄性能保证、可解释性和计算效率方面的能力,以及神经人工智能(机器学习)在应用灵活性、可扩展性和自然语言处理方面的能力。

像美国“金穹”(Golden Dome)导弹防御计划是一个潜在的案例点。如果人工智能在导弹的(时间紧迫的)助推阶段拦截中发挥作用,它们必须在部署时具备与金穹架构其他组件接口的能力,在3分钟内提供准确的威胁识别,并由足够先进的硬件支持以进行快速数据处理等任务。

人们可以想象,最终支撑如此敏感部署的是不同技术的组合。神经符号人工智能可能赋予模型能力,例如在时间约束内并以所需的精度生成关于给定热信号是否最可能代表导弹发射的建议。

这里神经符号人工智能的一个应用是针对训练数据瓶颈——可能缺乏数据来训练神经网络识别各种类型的导弹发射,特别是在其助推阶段。在一个称为“神经符号循环”的过程中,模型用比神经网络典型数据量更少的数据进行训练,让符号组件从有限数据中提取规则,巩固这些知识,然后将其发送回神经网络进行进一步训练。规则指导学习,减少对数据量的需求。

可以肯定的是,上面列出的可能方法在某种程度上是相互兼容的,选择不是零和的。

例如,构建自主飞机——以协同作战飞机计划为例——可能会看到神经符号人工智能和具身人工智能的混合。此类飞机的飞行可能由集成神经和符号技术以控制物理对象——飞机本身——的软件管理。软件将必须本质上学习(可能带有某些硬编码规则指导这种学习)如何在服务于某些人类定义的目的(例如进行空中侦察)过程中正确操纵飞机的物理存在。所谓的军用“机器狗”是一个类似的例子。

无论如何,这些可能的人工智能方法中的任何一种都可能还需要多年的工作来巩固各自的基础。它们之间的集成,在可能的情况下,既不是可靠的也不是直截了当的。因此,人工智能在国防中的未来需要持续有针对性和长期的关注,永远不要忘记没有任何技术本身可能普遍适用。

参考来源:dsm

成为VIP会员查看完整内容
4

本出版物代表了由乌克兰主要科研机构在2022年至2024年间在太空探索与利用方面的研发主要成果。 本论文集是乌克兰根据乌克兰国家空间研究委员会(COSPAR)和国家科学院空间研究理事会的决定编写的提交给COSPAR的报告。本出版物涵盖2021年至2023年期间,并遵循与以往时期类似的结构。与此同时,在本论文集所呈现的科学综述背后,是乌克兰科学家在其中工作的战时和危急条件下的空前状况。文章作者中包括来自哈尔科夫、敖德萨、利沃夫、第聂伯、基辅、波尔塔瓦的科学家以及外国学者。所有上述乌克兰科学中心都曾是俄罗斯炮击的目标。

综述文章的相当一部分集中于空间信息技术和地球观测卫星数据的使用。乌克兰科学家的重点在于研究敌对行动的后果、陆地和海面污染、土地覆盖退化、损失评估以及俄罗斯侵略的经济后果。特别关注了乌克兰南部卡霍夫卡水电站被毁的影响。

论文集的一个章节致力于近地空间的基础和应用研究,特别是地球大气中的声重波特性、乌克兰上空电离层物理过程的研究、大气和地球空间环境中的物理效应。为先进能量排放监测卫星项目开发的科学基础源于关于电力线路电磁排放对空间影响的研究工作。

空间天文学和天体物理学部分包括一个大型国际团队的综述,该综述致力于在极低频接收天体辐射的低频宽带天线开发成就及其在实际条件下的原型测试,以及确定超新星遗迹仙后座A内外电离气体参数。作者使用古尔特(GURT)、新法拉(NenuFAR)和URAN-2射电望远镜的低频天线阵作为超宽频带干涉仪,并介绍了基于地面射电望远镜和帕克太阳探测器(PSP)航天器在近日点同步观测对太阳爆发现象特性的研究、甚低频射电观测结果中电离层效应的分析;以及为研究宇宙天体而拟放置在月球远端的低频射电天文元件的准备和研制工作。

乌克兰空间生物学家继续为未来的载人任务进行密集研究。论文集中展示了三个研究方向。第一个方向涉及植物细胞信号系统在微重力适应中的作用。另一篇文章描述了致力于行星尘埃神经毒性风险评估的研究阶段。先进生命支持系统可能对有关防止与航天飞行相关的人类健康紊乱的研究途径的结果感兴趣。

空间技术与材料科学部分同样面向未来的空间任务。主要航天中心——南方设计局(Yuzhnoye State Design Office)的综述致力于月球探索的研究活动。巴顿电焊研究所(Paton Electric Welding Institute)展示了用于太空(包括月球)焊接的现代工具及其他一些技术的开发。工程师和科学家团队提出了先进轨道平台和系统的概念设计,这些预计将成为未来空间项目的焦点。

乌克兰空间科学正经历着战争、资金极度匮乏和人才流失的困难时期。但这也是采纳新概念方法、新空间活动模式的时期。确立乌克兰空间研究新质的最重要工具之一是决定性地加强国际合作。

成为VIP会员查看完整内容
3
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员