可解释性已成为深度学习广泛应用的关键挑战,尤其是在那些人工智能决策可能对人类生活产生深远影响的领域(例如医疗、金融)中。本教程将概述两种主要的可解释性方法,并讨论它们各自的优势与局限性:
事后可解释性:解释现有模型的方法。 设计时可解释性:构建本身具有可解释性的模型的方法。
深度神经网络学习丰富且结构化的潜在表征的能力,推动了计算机视觉及其他领域的显著进展。它们在图像分类、语义分割、自然语言处理和生成建模等任务中表现出色。其表达能力背后的一个关键因素是对大量数据的训练,使得这些模型能够捕捉复杂的模式并跨任务进行泛化。然而,当数据稀缺或难以获取时,对大规模数据集的依赖成为一个显著的限制。因此,出现了一个自然的问题:我们如何在数据丰富的领域中利用和调整学习到的表征,以适应那些无法实际收集大量配对数据的场景?有两种一般的解决方法:第一,分析和转换潜在特征空间,以使其与新目标对齐;第二,调整和操作输入空间,以更好地符合模型学习到的先验知识。 本论文探讨了这两种策略在表征学习和生成建模中的应用。关于第一种方法,通过将神经网络中的编码信息视为结构化的特征分布,我们可以使用数学基础技术来对齐这些分布。在本论文中,我们首先在神经风格迁移的背景下探索这一方法,提供了特征对齐的理论基础。与现有方法相比,我们的方法能够实现更一致的风格迁移,并具有理论上的保证。此外,我们还通过一个严格的框架来识别和评估学习到的表征,特别是在深度学习模型中的纹理偏差背景下,部分质疑现有解决方案的有效性。 第二种方法则侧重于调整数据表征本身,无论是通过转换输入域,还是通过修改模型架构。这在某些领域尤为重要,因为传统架构在缺乏规则或高效网格结构的情况下,往往难以应对。在本论文中,我们关注于针对3D和非欧几里得数据的生成建模。为此,我们提出了一种基于扩散的生成模型,利用四面体表示法来实现高质量的3D形状合成,同时保持几何一致性。与现有方法相比,这种方法在保持计算效率的同时,实现了前所未有的3D网格生成分辨率。最后,我们介绍了一种方法,将现有的扩散模型扩展到全景图像生成,同时保持其互联网规模的图像先验。我们的模型不仅提高了图像质量,还实现了比以往更可控的生成。 总之,这些贡献展示了如何通过理解和调整现有模型及表征,将深度学习扩展到新的输入和输出领域,利用适用于广泛计算机视觉任务的原理。
在计算机视觉领域,视觉提示(Visual Prompting,VP)和视觉提示调优(Visual Prompt Tuning,VPT)最近作为一种轻量且有效的替代方法,成为在“预训练-再训练”(pretrain-then-finetune)范式下,适配大规模视觉模型的手段。然而,尽管取得了快速进展,这些技术的概念边界仍然模糊,因为在当前的研究中,VP和VPT经常被交替使用,反映出这两种技术及其各自应用之间缺乏系统的区分。在本综述中,我们从基础原理重新审视了VP和VPT的设计,并将其在统一的框架下进行概念化,命名为基于提示的适应(Prompt-based Adaptation,PA)。我们提供了一种分类法,将现有方法分为可学习提示、生成式提示和非可学习提示,并进一步按注入粒度(像素级和标记级)进行组织。除了核心方法论外,我们还考察了PA在各个领域的集成,包括医学影像、3D点云和视觉语言任务,以及它在测试时适应和可信AI中的作用。我们还总结了当前的基准测试,并识别出主要的挑战和未来的研究方向。据我们所知,本综述是第一篇全面回顾PA方法及应用的综述,聚焦于其独特特性。我们的综述旨在为所有领域的研究人员和实践者提供一条清晰的路线图,以理解和探索PA相关研究的不断发展。在此,我们鼓励读者访问https://github.com/yunbeizhang/Awesome-Visual-Prompt-Tuning,以获取完整的基于提示的适应方法列表。 1 引言 大规模视觉模型,例如视觉变换器(Vision Transformer,ViT)(Dosovitskiy 等,2021)和 Swin 变换器(Liu 等,2021),已经从根本上改变了计算机视觉。这些模型通常在大量数据集(例如 ImageNet-21k(Russakovsky 等,2015))上进行预训练,以获取可转移的表征,然后可以针对特定的下游任务(例如 FGVC(Jia 等,2022),VTAB-1k(Zhai 等,2019))进行微调。这种方法通常被称为“预训练-再训练”(pretrain-then-finetune)范式,可以显著减少对标注数据的依赖(Han 等,2024)。随着这些模型的规模不断增长(Han 等,2023),传统的全量微调(FT)方法,更新所有参数,在计算和存储上变得越来越昂贵,并且可能会侵蚀有价值的预训练知识(Han 等,2024)。对此,一些参数高效微调(PEFT)方法应运而生,旨在通过仅调整少量参数而保持其余部分冻结来对模型进行微调。在这些方法中,基于提示的适应(Prompt-based Adaptation,PA)已经成为一种特别突出且有效的技术(Jia 等,2022)。 在本综述中,我们提供了对最近的 PA 算法及其实际实现的系统回顾和分类。与现有的综述不同,后者主要集中在多模态或视觉-语言设置上,我们的工作专注于视觉模型中的 PA。为了理清当前研究社区中 PA 定义的混乱,本综述的主要贡献是建立了第一个系统化和统一的 PA 概述,专门讨论大规模视觉模型中的 PA。我们提出了一个全面的分类法,首先将大量与提示相关的研究归纳到一个统一的范畴内,然后根据不同的算法设计和用途进行详细分类。 我们的工作结构如下:在第2节中,我们首先定义了 PA 的总体学科,即在不同位置设计输入以微调模型行为的过程。在这个领域中,我们区分了视觉领域中的两个核心范式:❶ 视觉提示(Visual Prompting,VP)和 ❷ 视觉提示调优(Visual Prompt Tuning,VPT)。在第2.2-2.3节中,我们分别介绍了 VP 和 VPT 的算法基础,突出了它们在实现参数效率方面相关但不同的观点。这个分类是通过提示的几何位置来确定的,区分了修改模型输入的提示和在层之前内部集成的提示。在第2.4节中,我们讨论了 PT 和 VPT 所关注的效率范围。在第3节中,我们介绍了 PA 在基础计算机视觉任务中的应用,如分割、恢复和增强、以及压缩。在第4节中,我们探讨了 PA 在高级机器学习问题和各种特定领域背景中的扩展应用,如医学影像和机器人学。在第5节中,我们的综述表明,PA 在各种场景下展现了有效性,且具有可选约束条件。在第6节中,我们讨论了 PA 在可信性方面,特别是将其分类为鲁棒性、公平性和偏见缓解以及隐私和安全。在第7节中,我们深入探讨了 PA 的基础分析和理论基础。最后,在第8节中,我们讨论了关键挑战,并识别了 PA 的未来发展方向。讨论包括 PA 社区中仍需解决的紧迫问题,包括安全性考虑、训练和推理延迟、稳定性以及实际部署的障碍。鉴于 PA 已经在现实场景中得到了应用,这些讨论对于指导未来的研究尤其有价值。
相关工作 现有的与 PA 相关的综述聚焦于有限的范围,因为它们主要集中在多模态或视觉-语言设置上。例如,Wu 等(2024d)集中讨论了 MLLM 中的视觉提示,围绕视觉指令、提示生成和组合推理进行组织,但没有涵盖视觉编码器中的内部像素/标记注入或参数高效调优。(Gu 等,2023)对视觉-语言基础模型(例如 CLIP/Flamingo/Stable Diffusion)中的提示工程进行了系统回顾,强调了文本侧的提示和 VL 流程,而不是视觉骨干中的 PA 机制。(Lei 等,2024)从 AIGC 视角审视计算机视觉中的提示学习,基于 VLMs 和生成模型,但没有按照注入粒度或约束范式进行方法统一。模型重编程:资源高效的跨域机器学习(Chen,2022)通过将像素空间转换框架为可学习的输入重编程层,为跨域迁移提供了 VP 的早期理论基础,为后来的参数高效提示方法提供了灵感。最近,(Ye 等,2025)将讨论扩展到大规模视觉和多模态模型,追溯了 VP 技术从像素级操作到基础层级适应的发展。与此相对,鉴于文本侧和视觉侧提示相关尝试的明显差异,我们专注于视觉模型中的 PA,提出了一个统一的分类法,定义并解开了之前模糊的 PA 定义。我们进一步按生成机制(即可学习/生成式/非可学习)和注入粒度(即像素级与标记级)对方法进行分类。超越方法论,我们系统化了约束学习范式(即少/零-shot、TTA、持续、黑箱、前向仅、联邦),整合了领域应用(即医学、遥感、机器人、工业),并添加了基础分析(即行为证据和效率/理论),提供了前所未有的部署导向指南,这是之前综述未涉及的内容。
引言
在这个行动瞬息万变的现代实时战争场景中,边缘计算的关联性显得至关重要。通过在战场靠近数据源处(例如借助无人机或通过任何军用车辆或飞机的视频成像)处理数据,边缘计算的概念使得军队能够更快地指示目标并进行精确打击。它还能实现本地处理以中继核心数据,帮助地面部队获取情报输入,从而在关键任务场景中迅速行动。
随着全球安全格局在世界各地发生重大转变,当前局势带来了前所未有的挑战。本文将尝试理解如何借助边缘计算等先进技术来维持其军事能力。
现代战争中的边缘计算
边缘计算涉及在战场上的数据收集点(例如通过车辆和无人机)进行数据处理和存储,而非依赖集中式数据中心。这使得能够实时做出更快的决策。这种方法减少了对可能受损的外部连接的依赖,从而在充满挑战的环境中构建了一个弹性且安全的网络,支持自主系统、基于精确度的目标选定以及军事人员、无人机和指挥中心之间的数据共享。
美国国防部于2025年3月发布的一份报告揭示了一个关键现实:在数字时代,硬件运行所依赖的流程仍停留在过时的工业时代。对于涉及视频的应用,边缘计算有助于为广泛的关键军事行动带来显著优势,包括:
该报告还强调,国防部正在迅速更新其软件,并投资于人工智能赋能技术,如数据集或MLOps工具。这也强调通过强制执行MOSA(模块化开放系统方法)、API(应用程序编程接口)和模块化接口来打破集成壁垒,以确保跨平台、传感器和网络的互操作性,使软件定义战争成为有效战略。
为未来战争开发结合人工智能的边缘计算
美国国防部工作的一项重要见解是强调边缘计算在塑造战争未来方面的重要性。在此背景下,美国《年度威胁评估报告》指出了依赖集中式云计算的传统AI战略的一个关键局限性,因为这些战略可能不适用于网络拥堵、带宽有限的现代战场。实时数据处理的需求要求一种分布式的、基于边缘的AI解决方案来应对当代威胁。该报告也直接支持在特定、受干扰、间歇性和有限带宽(DDIL)环境中部署有效的、结合AI的边缘计算。在这种情况下,当通信网络失效时,网络边缘的边缘服务器能提供依赖云端的系统所无法提供的关键优势。这种在没有持续连接的情况下分析数据并做出决策,以及在有限计算资源下运行的能力,是一种战略必需。
战争场景是一种需要保持强大战略和战术方法的现象,而在当前时代,这一点正通过数字平台领域加以审视。现代战争模式要求通过将远端服务器的能力推向前线来实现更快速的决策和边缘计算交付。美军已经在朝着部署支持边缘计算的系统的方向迈进,以证明传感器和网络在战术边缘进行计算从而改变作战模式的特性。 这一点可以通过一个例子来理解,例如利用F-35战机在空中创建融合。它们通过将传感器数据与多功能先进数据链(MADL)融合来创建统一图像,展示了边缘计算的能力,使中队成为力量倍增器。一个例子是,一架F-35传递了实时跟踪数据,使得一艘海军舰艇能够在其射程外摧毁一枚导弹。
结论:前行之路
随着战争不断变化的性质趋向于采用软件定义系统,边缘计算作为一种未来派军事技术蓬勃发展,其呼吁将整合扩展到所有作战领域。但与此同时,一些必要事项确实浮现出来,例如:
以曾孕育现代互联网的ARPANET为例,边缘计算也有助于在数字战场空间内创造变革性的网络效应。总之,未来的冲突将由边缘所提供的速度和精确度来定义,那些整合了AI和强大边缘基础设施的国家将在未来的多域战场上占据强大优势。
参考文献
https://www.boozallen.com/s/insight/blog/how-the-us-military-is-using-edge-computing.html
https://capsindia.org/wp-content/uploads/2022/08/RK-Narang-3.pdf
https://www.newindianexpress.com/opinions/2025/May/12/what-the-regions-first-drone-warfare-taught-us
联合战区级模拟-全球行动(JTLS-GO®)是一个交互式的、支持网络化的联合与联盟兵棋推演系统。JTLS-GO 从全球一体化的作战层级视角,呈现军民决策环境,涵盖空中、陆地、海上、太空、情报、后勤和特种作战。这些环境可以配置和缩放,以检验战略国家(SN)、战略战区(ST)、作战(OP)和战术(TA)级别的联合任务、行动、功能和使命。需要理解的是,JTLS-GO 主要是一个作战层级的模拟。
执行概述描述了模拟的基本操作,包括构成该系统的主要软件程序和众多小型支持程序。这些多样且相互依赖的程序协同工作,以准备想定、运行模拟并分析结果。本概述还提供了运行模拟所需的软件和标准硬件的说明。根据训练或分析环境及想定规模,JTLS-GO 可在一台或多台计算机上同时运行,无论是在单一地点还是多个分布式站点。它是战区无关的,且无需编程知识即可执行。第 iv 页重点介绍了一些新的模拟能力和特性。
JTLS-GO 是一个复杂的模拟系统,专门设计用于研究不断变化的战争形态。来自作战司令部(COCOMs)、各军种、预备役部队、国民警卫队、战斗支援机构(CSAs)、联合参谋部(JS)和联合特遣部队(JTFs)的领导人和主管,包括北约和联盟军事力量,都理解这一点,因为他们必须在国家战略的背景下持续进行规划、计划、预算和财政政策的执行。
机器嗅觉正迅速崛起为一种变革性能力,其应用范围涵盖无创医疗诊断、工业监测、农业以及安全与国防领域。近期在稳定哺乳动物嗅觉受体并将其集成到生物光子和生物电子系统方面取得的进展,已能实现近乎单分子分辨率的检测,从而使机器能力与训练有素的探测犬相媲美。随着该技术与多模态人工智能及蕴含嵌入式人工智能的分布式传感器网络相融合,它为当前由机器视觉和听觉主导的传感生态系统引入了一个全新的生物化学层面。本综述与行业路线图审视了机器嗅觉的科学基础、技术前沿及战略应用,论证了我们正见证一个带来全球化学传感基础设施的新兴产业的崛起。我们涵盖了代表性的工业、军事和消费类应用,并探讨了由此产生的一些伦理和法律问题。我们发现,机器嗅觉有望催生一个覆盖全球的分子感知技术层,并有可能通过气味在健康、安全和环境传感领域催生巨大的新兴市场。
在整个进化过程中,生命一直依赖于通过空气和水交换化学信息。嗅觉,即嗅觉感官,使生物体能够检测微量的挥发性化合物并据此采取行动,引导它们寻找食物和配偶,甚至赋予它们通过嗅闻来检测人类疾病的能力[1]。虽然机器视觉和听觉现已能与人类的眼睛和耳朵相媲美,但我们的技术长期以来一直难以匹敌鼻子[2]。生物嗅觉的核心是一种分子匹配和模式识别的非凡能力:称为气味剂的小分子(通常原子量低于350)以高度特异性与更大的膜结合受体(通常分子量为30,000)结合,触发甚至整个生物体对极其微小的化学线索的行为反应。传统分析系统,如气相色谱-质谱联用(GC-MS)、液相色谱-质谱联用(LC-MS)以及涉及各种传感器的气味指纹图谱方法,常被尝试用作“鼻子”。这些系统传统上使用金属氧化物传感器,以及干涉测量、表面等离子体共振(SPR)、石英晶体微天平(QCM)或太赫兹时域光谱(THz-TDS)平台[3–7],并在实验室条件下长期实现了卓越的灵敏度,但无一能造出具有情境细微差别、特异性、泛化能力或速度的机器嗅觉仪,以真正模仿生物嗅觉感官及使用它的神经系统的能力。
两个关键障碍阻碍了机器嗅觉加入机器视觉和听觉的行列:1) “检测极限”,即机器嗅觉仪无法可靠响应单分子事件;2) “识别极限”,即在动态波动的背景噪声中解码混合气味羽流中复杂气味特征的能力。这两个障碍正在被克服。一项突破是成功将稳定的哺乳动物嗅觉受体集成到光子和电子器件中[8–11]。这些系统与现代人工智能(包括深度神经网络和大语言模型[12–15])相结合,在实际气味识别方面展现出前景。诸如DARPA的“狗鼻子”和“真鼻子”项目[16–18]推动了这一转变,证明了将生物受体嵌入设备是有效的。近期的进展有望使生物机器鼻子能够检测尿液中的疾病特征、在野外嗅出化学威胁,并能快速准确地分辨出由飘散气味剂带来的数千种气味[1, 19–21]。
随着这些系统的成熟,基于受体的传感器、传感器阵列和人工智能分类器正汇聚成可部署的平台。经过同行评审的研究证实了在工程膜中实现单分子检测、强大的嗅觉分类以及在医疗保健、农业和国防领域的应用[22, 23]。因此,机器嗅觉正迅速从一个被忽视的领域转变为智能传感的基础层,有望在下一代传感器、人工智能和机器人技术中补充并在某些方面超越光和声传感。
自主机器人正日益部署于复杂且有人类参与的环境中。为了在这些环境中实现高性能与高可信度,机器人不仅需要能够从数据中学习并适应环境中的动态不确定性,还必须能够对人类相关的安全问题进行稳健推理。传统方法往往将学习与安全相互割裂,或依赖过于简化的假设——例如假定人类意图或行为在交互过程中保持静态——从而增加了从社会性僵局到灾难性安全失效的风险。 本论文提出了一个统一的博弈论框架,用于在人本机器人学中融合安全与学习,重点探讨能够在高风险、多智能体环境中实现可扩展且可验证决策的算法方法。具体而言,论文论述了如何在物理状态与信息状态(如信念)的联合空间中进行规划,使机器人能够在人本场景中做出安全且自适应的决策。 首先,论文引入了一种通用安全过滤器框架(universal safety filter framework),该框架将稳健安全分析与概率推理相结合,实现可信的人机交互。通过闭合交互—学习回路,机器人能够在不牺牲安全性的前提下降低过度保守性。 随后,研究探讨了**博弈论强化学习(game-theoretic reinforcement learning)如何在可计算的条件下为高维人类参与系统合成安全过滤器,既能保证训练收敛性,又能在存在对抗性输入的情况下减少策略的可被利用性。 从更宏观的层面看,论文进一步研究了如何将博弈论式的协调机制扩展至大规模多智能体系统,以优化整体协同性能。通过结合机器人学习与基于模型的博弈论规划思想,作者展示了如何融合两者优势——既利用模型先验知识对安全与交互进行显式推理,又发挥学习行为模型的强泛化能力——从而合成兼具安全性与适应性的机器人策略。 论文最后展望了下一代人本自治系统(human-centered autonomy)**的发展愿景:这些系统不仅能通过物理干预保障安全、增强信任,还能在部署于真实物理环境中时,主动与人类伙伴进行价值对齐,并提供可验证的安全保障。
摘要——随着大语言模型(LLMs)的兴起,具备自主推理、规划与复杂任务执行能力的LLM智能体正成为人工智能领域的前沿方向。然而,如何将通用智能体的研究成果转化为推动产业变革的生产力,仍是一个重大挑战。为此,本文系统回顾了基于LLM的产业智能体的核心技术、典型应用与评测方法。基于产业智能体能力成熟度框架,本文描绘了智能体在产业场景中的演化路径——从“流程执行系统”迈向“自适应社会系统”。首先,我们梳理了支撑智能体能力演进的三大关键技术支柱:记忆(Memory)、规划(Planning)与工具使用(Tool Use),并探讨了这些技术如何从早期支持简单任务的形式,发展到支撑复杂自治系统与群体智能的高级形态。其次,本文综述了产业智能体在现实世界中的典型应用,包括数字工程、科学发现、具身智能、协同商业执行与复杂系统仿真等领域。此外,我们回顾了智能体基础与专用能力的评测基准与方法,并指出当前评测体系在真实性、安全性与行业特异性方面所面临的挑战。最后,本文聚焦产业智能体的实践难题,探讨其能力边界、发展潜力与治理议题,并展望未来研究方向。通过结合技术演进与产业实践,本文旨在厘清当前研究现状,为理解与构建下一代产业智能体提供清晰的路线图与理论支撑。 关键词—— 大语言模型(LLMs),产业,智能体,真实世界。
近年来,大语言模型(Large Language Models, LLMs)取得了突破性进展。通过在海量数据上的预训练,它们展现出前所未有的语言理解、生成与推理能力 [1]–[3]。然而,作为静态、无状态的预测模型,LLMs 主要局限于处理文本输入并生成相应输出,难以主动与外部世界交互,或执行需要长期记忆与多步推理的复杂任务 [4], [5]。为克服这一局限,研究者开始将 LLM 作为“智能体的大脑(brain)”,构建能够感知环境、规划、执行与交互学习的自治系统 [6]。这些基于 LLM 的智能体集成了记忆模块、规划算法与工具调用接口,将 LLM 的认知能力与环境中的动态交互相结合,从而形成了能够自主实现开放性目标的通用智能体原型。 随着通用智能体从理论走向实践,其应用场景不可避免地从简单、通用的数字环境扩展到复杂、知识密集且高风险的产业领域 [7]。这催生了“产业智能体(Industry Agent)”的概念。产业智能体是指部署于特定业务场景中的自治或半自治系统,能够利用领域知识与专用工具解决真实产业问题。例如,Xia 等人展示了基于 LLM 的智能体如何通过任务规划、底层控制接口调用与数字孪生交互来编排模块化生产系统 [8]。与通用智能体相比,产业智能体面临更严峻的挑战:它们不仅需要具备通用认知能力,还必须应对行业特定需求——如金融领域的高时效与高风险 [9],医疗领域的权威知识与安全合规性 [10],以及制造业中的物理约束与流程复杂性 [11], [12]。关键问题在于,如何将通用智能体框架与深层行业知识、复杂业务流程及严格的安全标准相结合,从而将智能体的潜能真正转化为现实生产力。 与此同时,随着基于 LLM 的智能体研究的快速发展,已有大量优秀的综述工作从不同维度为我们理解该领域提供了重要视角。一类综述聚焦于智能体的核心技术模块,例如 [13] 系统性回顾了智能体的记忆机制;[14] 对智能体的规划能力进行了分类与分析;[15] 则全面总结了工具学习的范式与实现方式。此外,[16] 从上下文工程的角度优化了 LLM 推理过程中的信息负载,为高效智能体交互提供了理论支撑。这些工作为深入理解智能体的技术细节奠定了基础。 另一类综述则聚焦于通用智能体的体系结构与能力。[6], [17] 提出了通用智能体框架并对现有架构进行了分类,同时 [18], [19] 探讨了推理与自进化等高级能力的实现路径。值得注意的是,[20] 从类脑认知视角提出了智能体的感知、认知与操作模块化模型,并进一步讨论了自增强进化、多智能体系统与安全部署等关键议题。 还有一些综述聚焦于特定应用领域或前沿范式。例如 [21], [22] 研究了智能体在科学发现与金融交易中的应用;[23], [24] 探讨了多智能体系统与智能体化 RAG(Agentic RAG)范式;[25] 则全面回顾了基于 LLM 的智能体建模与仿真研究,涵盖信息、物理、社会及混合系统等场景。[26] 聚焦于自治科研智能体,提出了系统化的构建方法与评测蓝图;而 [27] 则从数据与模型协同演化视角,给出了科学 LLM 与智能体发展的数据中心化系统综述与路线图。 尽管这些研究贡献卓著,但仍缺乏一个能够结合技术演进、应用实践与能力层次的系统化框架,尤其是面向产业落地的视角。为弥补这一空白,本文对基于 LLM 的产业智能体进行了全面综述。具体而言,本文围绕三个核心方向展开:技术基础、应用实践与真实世界评测。首先,我们深入剖析支撑智能体能力的三大核心技术——记忆、规划与工具使用,并探讨其演进过程;其次,我们基于五级能力成熟度框架,系统呈现产业智能体在各行业的应用全景;接着,我们梳理了基础与行业专用能力的评测基准与方法,并指出其局限性;最后,我们聚焦产业智能体在实践中面临的深层挑战,探讨其瓶颈、未来发展方向与应对策略。 综上,本文的主要贡献包括: 1. 提出产业智能体能力成熟度框架:本文创新性地提出了产业智能体的能力成熟度框架,为评估与理解智能体在不同行业中的角色与价值提供了清晰指标。 1. 构建技术与应用的关联:本文将三大核心技术——记忆、规划与工具使用——的演化与能力层级相结合,展示技术进步如何驱动应用实践的提升。 1. 聚焦产业实践与评测体系:本文系统回顾了智能体在关键行业中的应用与专业评测基准,紧密结合真实产业需求与挑战。
通过这一独特视角,本文旨在打通智能体跨领域应用的壁垒,促进智能体在真实世界中的成熟化与繁荣发展。
近年来,基于大语言模型(LLMs)构建的智能体取得了显著进展。它们在处理复杂任务方面不断增强的能力,正推动人工智能的研究与应用迈向更高层次的认知智能。早期的智能体研究往往局限于特定任务场景;而新兴的 LLMs 凭借其强大的通用语言理解、推理与交互能力,极大地促进了能够应对开放域复杂任务的通用智能体的出现。 目前,一个完整的通用智能体框架通常依赖于三大核心技术支柱:记忆(Memory)、规划(Planning)与工具使用(Tool Use)。其中,记忆负责信息的编码、存储与检索;规划涉及目标分解及行动序列的制定与优化;工具使用则体现智能体调用外部 API 或程序以扩展自身能力的能力。这三大核心模块相互交织、协同工作,构成了智能体感知环境、形成认知与采取行动的基础,使其能够从被动的指令执行者演化为能够持续与环境交互、并自主实现复杂目标的自治实体。 然而,随着智能体研究逐步走向真实世界,其核心架构中的认知瓶颈愈发显现,这些问题集中体现在记忆、规划与工具使用三大能力的局限性上。
在**记忆(Memory)**方面,有限且单一的上下文窗口使智能体难以维持长期且连贯的交互历史,从而导致“长上下文遗忘”等问题。同时,如何从庞大、噪声丰富、结构化程度低的动态环境信息中筛选、提炼并形成结构化且有效的记忆,以避免信息过载与认知偏差,仍是重要的技术瓶颈。
在**规划(Planning)方面,真实世界的高度动态性与不确定性使基于静态世界假设的简单规划方法难以奏效。智能体必须具备在执行过程中动态调整计划、应对异常并从失败中学习的能力,这对其长期目标分解与高效推理提出了极高要求。 在工具使用(Tool Use)**方面,随着工具库规模与复杂度的增加,如何精确选择、组合与调用合适的工具以解决问题,以及如何应对工具执行失败或异常结果,成为制约智能体能力上限的关键因素。
这些现实的技术挑战共同构成了智能体从理论框架到实际落地之间的“能力鸿沟”。 为系统分析产业智能体如何从简单的流程自动化工具演化为能够解决复杂领域问题的核心系统,本文提出了一个面向产业应用能力成熟度的五级框架(L1–L5)。该框架旨在揭示产业智能体在不同能力层级间的跃迁,实质上是由三大核心技术——记忆、规划与工具使用——的演进所驱动的。例如,L1 级的“流程执行系统”(Process Execution System)仅需具备瞬时记忆与固定的线性规划,而 L5 级的“自适应社会系统”(Adaptive Social System)则要求智能体具备跨代进化的群体记忆积累能力,并能在复杂博弈中自主生成目标。
接下来的章节将深入探讨这三大核心技术模块,分析其技术演进如何支撑产业智能体能力的持续升级,从而为产业智能体的发展实践奠定理论基础。
2025年美国陆军协会(AUSA)华盛顿特区年会展示了陆军从装甲车辆到下一代指挥技术的下一波现代化系统。这些产品凸显了美国陆军在一个竞争日益激烈的世界中为保持战场主导权所投资的方向。
美国华盛顿特区,2025年10月24日 - AUSA 2025展览会再次成为美国陆军最具影响力的防务技术展示活动,吸引了主要行业参与者和军事领导人齐聚华盛顿特区。从具备高超音速能力的防空系统到自主地面作战平台,本次活动凸显了陆军向高科技、多域战备状态的快速转变。基于现场的独立报道,此精心挑选的十大创新榜单确定了最有可能塑造近期作战力量和作战效能的项目。
图:美国防务工业在AUSA 2025上展示了突破性创新,包括下一代无人机、自主地面战车和先进导弹发射器,标志着陆军现代化战略向多域敏捷性和致命精确性的决定性转变。(图片来源:《陆军认可》集团)
上述创新反映了陆军现代化优先事项的决定性转变。从自主无人机和机器人车辆到轻型火炮和数字化火力,美国防务工业正在提供为高节奏、多域、同级别威胁作战量身定制的系统。这十项技术体现了陆军对未来战场上作战敏捷性、生存能力和快速能力优势的重视。
在人工智能(AI)系统于战场上扮演日益重要角色的时代,确保负责任的瞄准决策需要对潜在的附带效应进行严格评估。在此背景下,本文引入一种用于军事行动中AI系统目标接战的新型附带损伤评估模型。该模型采用设计科学方法论,将时间、空间和力量维度整合到统一的知识表示与推理(KRR)架构中。其分层结构捕捉了待接战的AI系统的类别与架构组件,以及相应的接战向量和背景层面。同时,模型考虑了扩散性、严重性、可能性和评估指标,以便通过透明的推理机制提供清晰的表征。此外,通过对模型进行实例化来演示和评估,该实例化可作为进一步专项工作的基础,旨在构建负责任且可信赖的智能系统,用于评估军事行动中接战AI系统所产生的效果。
人工智能(AI)系统及基于AI的能力,如AI决策支持系统(AI-DSS)和AI赋能作战工具,正日益广泛应用于军事领域[1, 2]。这些系统被整合应用于从情报收集与监视到后勤、规划和目标获取的各个环节[3, 4]。预测性AI系统的开发与部署使得能够快速识别并应对诸如高超声速导弹和智能网络武器等威胁,而AI驱动的决策支持能力则在复杂且时间紧迫的条件下,在优化情报收集、目标优先排序和资源分配方面展现出进步[5, 6, 7, 8]。此类系统提升了精确性,加快了作战节奏,并为人类决策者提供支持,反映了AI对军事战略、决策周期和战场协同产生的变革性影响。
通过融入军事工作流程,AI系统自身也成为军事行动中的潜在目标。破坏或削弱对手的AI赋能基础设施——无论是数据驱动型、知识基础型还是神经符号型——都可能带来显著的作战优势[9, 10, 11, 12]。这一情况凸显了在以合法且负责任的方式规划和执行对此类目标的攻击时,严格评估框架的重要性。军事行动必须同时考量任务相关方面以及国际人道法所产生的法律义务,例如区分原则和比例原则[13, 14, 15]。在目标选择、接战和附带损伤评估中构建AI解决方案,增加了合规的复杂性和不确定性,这使得智能且自适应的评估模型变得至关重要。
附带损伤是指在攻击合法军事目标期间对平民和民用物体造成的偶然、非故意的伤害。这包括平民伤亡和财产损失,根据《第一附加议定书》第51条第5款第2项和第57条第2款第3项的规定,此类损害相对于预期的军事优势而言不得是过分的[16, 17]。平民伤害必须既是非故意的,也是合比例的;预期的过度伤害会使攻击行为非法[18]。指挥官在计划和执行攻击时必须采取所有可行的预防措施,包括在情况变化时中止攻击[19]。对于新兴技术而言,附带损伤的范围扩展到受偶然影响的民用基础设施和数据完整性[20]。
尽管在动能和网络环境中存在附带损伤评估方法[21, 22, 23, 24],但仍需要针对AI系统接战的相应方法。本研究开发了一种用于军事行动中AI系统目标接战的附带损伤评估模型,该模型考虑了时间、空间和力量维度,以及对平民和民用物体造成非预期影响的严重性和可能性。该模型是遵循设计科学研究(DSR)方法论[25]并尊重知识表示与推理(KRR)原则[26]而开发的计算本体。这使得模型能够涵盖所有类型的AI系统——数据驱动型、知识驱动型和神经符号模型——及其关键系统组件、作战关系和平民关联。这种形式化体系支持对技术属性和以人为本的属性进行细粒度标注,从而能够对数据集、模型、推理引擎、民用基础设施、文化背景及其依赖关系进行编码。
本研究通过为AI驱动战争中的附带损伤评估提供一种自适应、透明的计算模型,推动了军事和AI领域的进步。它引入了一种结构化的方法,桥接动能和非动能要素,同时将法律、伦理和社会考量嵌入负责任的AI目标决策中。该模型对系统架构、可解释性、验证和风险缓释的整合,为负责任的AI解决方案(尤其是两用系统)奠定了基础,有助于在军事背景下将AI系统视为社会技术系统。
本文结构如下。第二部分讨论相关研究。第三部分概述研究方法。第四部分介绍模型设计与开发。第五部分通过一个用例对模型进行实例化。第六部分讨论结论性意见和未来研究展望。