LLM扮演着认知核心,也就是“大脑”的角色。它负责处理所有与“思考”相关的任务: 理解意图:当用户用自然语言提出复杂需求时,LLM负责精准地理解其背后的真实意图。 规划任务:它能将一个模糊的目标(如“分析销售数据”)分解成一系列清晰、有序的步骤。 AIAgent赋予了LLM“手和脚”,让“思考”得以转化为“行动”。如果说LLM负责“思考做什么”,那么AIAgent则负责“如何去完成”: 工具调用:这是AIAgent最关键的能力。它可以根据LLM的规划,去调用各种外部工具来执行任务,例如查询数据库、调用公司内部系统的API、访问互联网、读写文件等。 任务执行与编排:Agent负责管理整个任务流程,确保LLM规划的步骤被逐一、准确地执行。 与环境交互:它能将执行结果(如数据库查询返回的数据)反馈给LLM,供其进行下一步的思考和决策,形成一个“思考-行动-观察-再思考”的闭环。 MCP的出现,很好的解决了构建AIAgent技能系统的痛点问题: 规范化了多者的协同关系:MCP协议规范约束了用户、AIAgent、LLM、后端服务四者之间的系统关系。 AIAgent和后端服务快速对接:无需后端服务改造,也无需AIAgent改造,无需了解和解析后端服务接口的返回格式。 MCP服务是企业AI应用的基石。它将企业零散的IT资产和服务,转化为AI可以理解和调用的标准化能力,从而为上层的AIAgent源源不断地输送技能。
扩散模型作为一类强大的深度生成模型,已在多种数据生成任务中实现了最先进的性能。从高层次来看,它们通过逐步去噪高斯噪声来学习数据分布,模仿非平衡热力学扩散过程。尽管在实践中取得了显著成功,其背后的理论基础仍然理解不足。这种缺乏理论理解限制了扩散模型在更广泛领域(尤其是那些需要可解释性、高效性和安全性的关键应用)中的采用。
针对生成式 AI 模型在可靠性与透明性方面日益增长的关注,本教程(基于主办方在 CPAL'25(斯坦福)举办的联合教程)及时地介绍了扩散模型所依赖的理论原理。我们将重点聚焦于三个核心方面:泛化能力、采样效率和科学应用。借助近期的研究进展,本教程将展示如何利用数据与模型中的低维结构来应对泛化、快速采样收敛和可控性等关键挑战。 具体而言,我们将探讨扩散模型如何自适应地学习潜在的数据分布、如何加速采样过程中的收敛速度,以及如何刻画所学习去噪器的内在属性。这些理论洞见将进一步与实际进展相结合,展示其在现实科学应用中的可用性与潜力。
内容结构图示与主题概述
本教程将具体涵盖以下三方面内容:
(i) 泛化能力(Generalization): 我们将首先介绍扩散模型的基本原理,随后深入探讨其泛化能力:在何种条件下、为何它们能够学习到低维的目标结构;样本复杂度如何随数据的内在维度而变化;以及模型如何从记忆化逐步过渡到泛化。我们还将引入一种基于概率流的度量指标来量化泛化表现,并强调训练过程中观察到的一些有趣现象。
(ii) 采样效率(Sampling Efficiency): 我们将构建一种精确的、非渐近的收敛理论,用于分析主流的基于扩散的采样器,并基于这些理论洞察,设计可理论保证更快收敛的高阶扩散采样器(包括基于 SDE 与 ODE 的求解器)。此外,我们还将研究扩散采样器适应未知低维数据结构的能力,并通过自适应并行计算进一步提升训练与采样效率。
(iii) 科学应用(Scientific Applications): 我们将推动扩散模型在科学成像领域的发展,提升其在高维、高分辨率逆问题求解中的灵活性、效率与稳健性。重点内容包括高效的潜空间方法与基于图块的策略、在挑战性 3D 任务中增强的数据一致性机制,以及在保持样本质量的同时满足特定约束的可控采样技术。
| 时间 | 09:40 – 10:25 a.m. | 主讲人 | Qing Qu | 1. 可复现性与泛化能力 1. 记忆化与泛化的理论及相变 1. 基于概率流距离的泛化量化方法
| 时间 | 10:25 – 11:10 a.m. | 主讲人 | Yuxin Chen | [PDF] | 1. 非渐近收敛理论 1. 低维结构的自适应能力 1. 基于高阶近似的加速方法
| 时间 | 11:10 – 11:15 a.m. |
| 时间 | 11:15 – 12:00 p.m. | 主讲人 | Liyue Shen | [PDF] | 1. 高效求解逆问题的方法 1. 学习到的图像先验的泛化能力 1. 可控生成
人工智能作为战略性的通用目的技术,正在重构生产要素配置方式,催生新型产业形态,其引发的“人工智能+”效应已从技术范式创新上升为驱动经济高质量发展的核心动能,其发展水平直接关系到国家竞争力强弱与现代化经济体系建设进程。全球主要经济体纷纷将人工智能纳入国家战略体系,2024年我国也首次将“人工智能+”写入《政府工作报告》,2025年政府工作报告进一步指出,要持续推进“人工智能+”行动,支持大模型广泛应用。 人工智能技术正呈现多点突破、交叉融合的发展态势。算法层面,大模型技术突破推动生成式AI实现质的飞跃,深度推理、多模态融合等技术不断突破认知边界;算力层面,AI芯片能效比持续提升,极致的工程优化让算力持续释放;数据层面,高质量行业数据集以及合成数据为模型训练以及应用构建提供新动能。技术迭代催生AI产业化,并推动各行业智能化应用全面开花:在文化传媒领域,AIGC大幅提升创作效率;医疗领域,人工智能加速药物研发创新,并提升辅助诊断的精确度;制造业中,人工智能助力产品设计、生产排程优化、提升质量检测与缺陷识别效率等,推动制造的全流程智能化升级。当前,人工智能技术正加速“创新-转化-应用”的迭代过程,为各行各业注入新质生产力,促进技术经济系统的协同进化,重构产业价值网络。 2025年,是全球人工智能应用加速落地的一年。为积极响应“人工智能+”国家重要战略,中央广播电视总台与杭州市人民政府联合主办纪实创投类节目《赢在AI+》,致力于推动技术创新与产业融合,展示全国各地人工智能技术创新和应用的优秀创业企业,汇集院士、专家、投资者、优秀企业家等不同维度的精粹观点,为未来的企业,寻找企业的未来。
近日,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合中国信息通信研究院及多家行业头部机构,正式发布《人工智能知识工程指南(1.0)》(以下简称《指南》)。《指南》系统梳理了知识工程的技术框架、管理体系及行业应用路径,旨在为各行业提供从知识沉淀到智能赋能的系统性解决方案,助力“人工智能+”行动落地,推动新质生产力发展。
《指南》中强调:“知识是机构无形资产的核心组成部分,也是大模型垂直领域落地的关键要素。”通过知识工程,企业可解决知识获取难、加工难、服务难等痛点,实现知识从“分散管理”到“资产化、服务化”的跃迁。
大语言模型(LLM)的对齐问题已成为当代人工智能研究中日益重要的话题,特别是在LLM不断扩展并融入到现实应用中时。确保LLM生成的输出与人类的价值观、偏好和伦理考虑保持一致,对于其安全有效的部署至关重要。本教程旨在为LLM对齐方法提供全面的介绍,提供一个结构化且易于理解的入门路径,供研究人员和从业人员参考。教程将介绍关键概念和挑战,介绍基础方法,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),并在这些基础上回顾一系列的精细化方法和变种。此外,还将涵盖游戏理论在对齐中的最新进展以及为理解对齐方法提供更深层次的理论框架。除了理论见解,本教程还将强调LLM对齐的实际应用,展示这些技术如何在实际场景中应用,并引导参与者建立对对齐策略的直觉。通过本教程,参与者将掌握LLM对齐的基础知识,具备批判性地参与该领域的能力,理解当前的研究趋势,并探索未来的发展方向。
为什么对齐很重要
从人类反馈中学习
通向RLHF的道路
深入探讨RLHF
RLHF的挑战
直接对齐算法
直接对齐算法的局限性
在线直接对齐算法
如何选择:RLHF还是DPO
回顾语言模型训练的阶段
解决方案概念
解决最小最大赢家问题
经验时代
测试时的扩展法则
可验证奖励
过程奖励
讲者:
在过去十年中,人工智能(AI)取得了显著突破,尤其是在深度学习和基础模型(foundation models)领域——这类模型属于次符号(sub-symbolic)机器学习方法,依赖于拥有数百亿参数的深度神经网络。由于这类模型的可解释性和可理解性非常有限,它们通常被称为“黑箱”模型。这项技术在提升交互能力、感知能力以及自然语言处理方面发挥了关键作用,有时甚至超越了人类的表现。因此,一些研究者开始将AI等同于深度学习和基础模型。然而,我认为这是一个重大的误解。 AI的内涵远不止于次符号机器学习;它还包括符号化(即人类可理解的)建模、搜索算法和推理技术——这些都是超越机器学习、体现人类智能的重要方面,同时也可以结合机器学习,以提升算法性能与模型准确性。 规划(planning)与行动(acting)是人类与生俱来的能力。即使是年幼的儿童,也会自然地进行规划和行动,从环境中学习其行为的后果,并在成长过程中不断精进这些能力。而机器在规划与行动方面尚未达到人类水平,尤其是在将其与学习过程相结合方面仍有很大提升空间,这也为自主智能系统的进步留下了广阔的发展余地。 本书在“规划、行动与学习”研究领域中是一个重要的里程碑,探讨了如何有效地将这些智能特征融合与集成,以提升智能系统的整体性能。作者Malik Ghallab、Dana Nau 和 Paolo Traverso 是三位在国际学术界享有极高声誉的杰出科学家与研究者。本书是他们在该领域撰写的第三本著作:第一本聚焦于规划,第二本则探讨了行动与规划之间的交互,而这第三本则更进一步,系统地涵盖了行动、规划与学习三者的结合。 书中讨论了诸如确定性状态转换(Deterministic State-Transitions)、分层任务网络(Hierarchical Task Networks)、概率模型、不确定性模型、分层细化模型(Hierarchical-Refinement)以及时间建模(Temporal Models)等内容,同时也涉及机器人运动与操作(Robotic Motion and Manipulation)。此外,书中还探讨了大语言模型(Large Language Models)的新兴能力及其在该领域的应用,这一主题正处于次符号AI与符号AI交汇的前沿。 本书不仅是该研究领域科学家的重要参考资料,也可作为研究生课程的教科书,清晰、全面且结构严谨地梳理了领域建模、计划生成与执行,以及如何将学习过程融入上述各个环节的技术与算法。我毫不怀疑,这本书将会被我在课程中推荐,并作为个人的重要参考资料使用。 对于一个智能体而言,实现智能行为依赖于三项基本的认知功能:行动(acting)、规划(planning)和学习(learning)。本书的主题正是如何实现这三种功能的自动化与集成。本书是我们前两本著作《自动规划》[409] 以及《规划与行动的结合》[410] 的延续,涵盖了自这些书出版以来在该领域取得的一系列研究进展。 本书涵盖了多种模型、方法与算法——包括确定性、概率性、分层结构、非确定性、时间性与空间性等类型——并探讨了如何将这些模型应用于行动、规划与学习的过程。关于这些主题的已有文献庞杂且分散于多个相互割裂的研究领域,不可能在一本书中面面俱到。因此,我们在内容选择上坚持以“行动、规划与学习的集成为核心目标”这一主线来组织材料。 全书共包含24章。第1章为引言,其余章节分为八个部分。前七个部分聚焦于不同的表示模型,每一部分均包括关于该模型下的行动、规划与学习的相关章节: * 第一部分 使用“经典的”确定性状态转换模型,基于状态变量进行建模。本章中的若干核心概念贯穿全书始终。 * 第二部分 在第一部分的状态转换模型基础上,引入了分层任务网络(HTN)。 * 第三、四部分 对第一部分的状态转换模型进行扩展,分别引入了概率性和非确定性。 * 第五部分 描述了一种分层细化(hierarchical refinement)方法,它结合了第二部分中的HTN概念与第三部分中的概率模型。 * 第六部分 使用chronicle表示法对时间与并发进行建模。 * 第七部分 引入了机器人运动与操作模型,并探讨了其与更抽象任务的结合。
最后,第八部分包含两章,讨论了一些尽管不属于本书核心关注点但仍非常重要的主题:大语言模型以及感知、监控与目标推理(goal reasoning)。
本书既可作为科学研究与工程实践中的信息参考来源,也可作为研究生层次的教材使用。大多数章节的参考文献被集中放在章节末尾的讨论部分;多数讨论部分后还附有习题。我们将提供配套的幻灯片与其他辅助材料,供读者在线获取[^1]。 在书中的伪代码中,所有变量默认为局部变量,除非明确声明为全局变量。我们假设读者已具备本科阶段计算机科学课程中算法与数据结构的基本知识。附录中补充了一些超出该背景范围的数学与技术内容。 除了对当前技术状态进行系统性的整合外,本书还包含了大量全新的内容,这些内容大多经过详尽的阐述,以便于教学使用。其中部分章节提出的新方法尚未被实现或实证评估,旨在激发未来进一步的研究探索。 读者可以根据自身的需求与背景知识,选择不同的阅读路径来学习本书。图1给出了各章节之间的依赖关系,希望能帮助读者与授课教师合理规划本书的学习路径,获得最大收益。
摘要: 大型语言模型(LLMs)的性能从根本上取决于推理过程中提供的上下文信息。本综述介绍了“上下文工程”这一正式学科,它超越了简单的提示设计,涵盖了对LLMs信息负载的系统化优化。我们提出了一个全面的分类法,将上下文工程分解为其基础组件和将这些组件整合进智能系统的复杂实现。首先,我们审视了基础组件:(1)上下文检索与生成,包括基于提示的生成和外部知识获取;(2)上下文处理,解决长序列处理、自我优化以及结构化信息整合;(3)上下文管理,涵盖了记忆层次、压缩与优化。接着,我们探讨了这些组件如何架构化整合,形成复杂的系统实现:(1)检索增强生成(RAG),包括模块化、智能体化和图增强架构;(2)记忆系统,实现持久交互;(3)工具集成推理,用于函数调用与环境交互;(4)多智能体系统,协调通信与编排。通过对超过1400篇研究论文的系统分析,本综述不仅为该领域建立了技术路线图,还揭示了一个关键的研究空白:当前模型与上下文工程的增强使其在理解复杂上下文方面表现出色,但在生成同样复杂的长篇输出方面仍存在明显限制。解决这一空白是未来研究的核心任务。最终,本综述为研究人员和工程师提供了一个统一的框架,推动上下文感知AI的发展。
关键词: 上下文工程、大型语言模型、LLM智能体、多智能体系统
1. 引言
大型语言模型(LLMs)的出现标志着人工智能的范式转变,展示了前所未有的自然语言理解、生成和推理能力【103, 1059, 453】。然而,这些模型的性能和效能从根本上受到它们所接收的上下文的支配。这个上下文——从简单的指令提示到复杂的外部知识库——是引导其行为、增强其知识并释放其能力的主要机制。随着LLMs从基础的指令跟随系统发展为复杂应用的核心推理引擎,用于设计和管理它们信息负载的方法也相应演变成了正式的上下文工程学科【25, 1256, 1060】。
上下文工程的领域以爆炸式的速度扩展,导致了大量专门但零散的研究领域的涌现。我们将这一领域视为由基础组件及其后续实现所组成。基础组件代表了上下文工程的系统化流程,涵盖三个关键阶段:上下文检索与生成,包括基于提示的生成和外部知识获取【25, 591, 48】;上下文处理,涉及长序列处理、自我优化机制以及结构化信息整合【196, 735, 489】;上下文管理,涉及记忆层次、压缩技术和优化策略【1362, 1074, 813】。
这些基础组件作为构建更复杂、面向应用的实现的基石,桥接了LLMs与外部现实。这些系统包括检索增强生成(RAG),它已经发展为模块化和智能体化的架构,用于动态知识注入【591, 312, 965, 311】;模仿人类认知功能的显式记忆系统,用于持久信息保持【1182, 935, 1362】;以及整个智能体系统生态系统。后者代表了上下文工程的巅峰,在这些系统中,智能体利用函数调用和工具集成推理与外部世界互动【931, 858, 663】,并依赖于复杂的智能体通信协议和上下文编排,在多智能体配置中实现复杂目标【356, 246, 894, 128】。
虽然这些领域各自产生了大量创新,但它们主要是孤立研究的。这种碎片化的发展掩盖了技术之间的基本联系,并为研究人员理解整体领域以及实践者有效应用这些方法创造了巨大的障碍。该领域急需一个统一的框架,系统地组织这些不同的技术,澄清其基本原理,并揭示它们的相互依赖性。
为了解决这一关键问题,本综述提供了首个关于LLMs上下文工程的全面且系统的回顾。我们的主要贡献是提出了一个新颖的、结构化的分类法,分类了用于设计、管理和优化上下文的多种技术。该分类法将该领域组织为连贯的类别,区分了基础组件及其在复杂系统实现中的整合。通过这一框架,我们:(1) 提供了每个领域最新技术的清晰且结构化的概述;(2) 分析了不同方法的核心机制、优点和局限性;(3) 确定了全局性挑战,并为未来研究指明了有前景的方向。此工作既是导航复杂上下文工程领域的技术路线图,也是促进更深入理解和催生未来创新的基础。
本文的其余部分组织如下:在讨论相关工作并正式定义上下文工程之后,我们首先审视该领域的基础组件,涵盖上下文检索与生成、上下文处理和上下文管理。然后,我们探讨其系统实现,包括检索增强生成、记忆系统、工具集成推理和多智能体系统。最后,我们讨论评估方法、未来研究方向,并总结综述。图1提供了我们的分类法的全面概述,展示了技术的层级组织及其在上下文工程领域内的相互关系。
随着大型语言模型(LLMs)从简单的指令跟随系统发展为复杂多面应用的核心推理引擎,与它们互动的方法也必须随之演变。尽管“提示工程”这一术语是基础性的,但它已不足以涵盖设计、管理和优化现代AI系统所需信息负载的全貌。这些系统并非仅依赖单一的静态文本串,它们利用的是动态、结构化且多面的信息流。为了解决这一问题,我们引入并正式定义了“上下文工程”这一学科。
上下文工程建立在三个基础组件之上,这些组件共同应对大型语言模型中信息管理的核心挑战:上下文检索与生成通过提示工程、外部知识检索和动态上下文组装来获取适当的上下文信息;上下文处理通过长序列处理、自我优化机制和结构化数据整合来转化和优化获取的信息;上下文管理通过解决基本约束、实施复杂的记忆层次结构和开发压缩技术,处理上下文信息的高效组织和利用。这些基础组件为所有上下文工程实现奠定了理论和实践基础,形成了一个全面的框架,在这个框架中,每个组件都解决了上下文工程流程中的不同方面,同时保持协同关系,从而实现全面的上下文优化和有效的上下文工程策略。
短短25天内接连发生的两场重大行动——印度次大陆的"辛杜尔行动"与欧亚战场的"蛛网行动",共同昭示着同一教训:无论目标纵深、距离或性质如何,低成本无人机的威胁已呈无孔不入之势。反无人机系统(C-UAS)网格由此不再是尖端技术的展示品,而成为保护军事、政府及民用关键资产的绝对必需品。C-UAS威胁在2023年俄乌战争期间随着易组装的"第一人称视角(FPV)无人机"问世呈几何级放大。这些近乎手工制造的巡飞弹药支持者自2023年起不断重申同一信条:"大不再美"。然而全球多数军队既未读懂亦未准备接受这一新威胁的复杂性。当俄军战略空军基地针对大型空中威胁严阵以待时,乌军却以低成本小型无人机创新性规避所有现役防御手段,对三年来造成数千乌克兰伤亡的战略轰炸机群实施精确打击。
本简报将深入剖析代号"蛛网行动"——这场基于FPV无人机、最具不对称性与技术复杂性的精确打击突袭行动——的策划与执行过程,系统梳理普适性经验教训,并着重研判其对印度反无人机网格建设的启示。本简报对"蛛网行动"的详细分析获反无人机专家帕万·卡卡尔(Jugapro公司首席执行官兼创始人)及苏霍拉科技公司地理空间情报(GEOINT)团队的技术支持。
国际机器学习会议 ICML(International Conference on Machine Learning),是全球范围内人工智能领域的顶级学术会议之一,由国际机器学习学会(IMLS)举办,与 NeurIPS、ICLR 并列为 AI 三大顶会。本届 ICML 为第四十二届,于 7 月 13-19 日在加拿大温哥华举行。
今年的 ICML 大会共获得 12107 篇有效论文投稿,其中 3260 篇被接收,接收比例为 26.9%。相比 2024 年的 9653 篇投稿数量持续大幅增长,展示了 AI 领域的火热。 来自亚马逊研究人员Leena Chennuru Vankadara · Volkan Cevher 深度学习的变革性影响的核心概念是规模——涵盖了数据和计算资源,以及它们与神经网络架构的相互作用。 然而,规模带来了关键挑战,例如训练过程中的不稳定性增加和模型特定调优的高昂成本。鉴于训练这些模型所需的大量资源,制定基于严格理论研究的高置信度扩展假设变得至关重要。教程的第一部分将概述深度学习扩展理论的重大进展,涵盖其历史基础、最近的突破以及对大规模模型训练的实际意义。 为了弥合理论与实践之间的差距,教程还探讨了扩展的另一个关键数学组成部分:深度学习中常用的数值求解算法,这些算法涵盖了从视觉到语言模型等多个领域。我们将这些算法统一在一个共同的主模板下,使其基础原理更加透明。通过这种方式,我们揭示了通过在线学习适应平滑结构与通过非欧几里得范数利用优化几何之间的相互作用。 我们的阐述不仅仅停留在构建更大模型上——它强调战略性的扩展,提供了有望推动该领域发展的洞察,同时节省资源。
在俄乌战争背景下,三年间,乌克兰培育出以无人系统为核心的敏捷创新型国防科技生态。本报告基于对乌官员、企业家及军官的数十次访谈,揭示这场战争高压下的转型历程。它为美国及其盟友提炼核心启示:任何备战未来的严肃举措,都必须将"彻底去中心化、自下而上创新、竞争性活力"纳入国防工业基础建设选项。乌克兰案例虽非定论,却为自由社会如何以速度、敏捷性与技术智慧改造防务体系应对现代威胁提供了关键范本。
乌克兰制度化构建独特"商业优先"防务市场:在国防预算中开辟独立并行资金池,大幅简化和削减该市场的繁重采办规制,重点聚焦无人平台等创新系统。该国摒弃传统军工复合体研发模式,转向商业领域寻求创新力,通过设立专项国防预算采购商业领域技术能力,并建立新监管框架实现非传统供应商无人技术的快速采办集成。转型措施包括建立精简电子采购流程,将采购权下放至独立军事单位层级(详见第7点)。
乌克兰商业优先市场专注无人系统与软件密集型军事技术。该市场最初几乎完全聚焦商用无人机,实战证明其成效惊人,自全面入侵后市场范围显著扩展。当前核心领域涵盖无人系统(如第一人称视角FPV无人机、远程打击无人机、地面/海上无人载具)、电子战与电子侦察平台、先进传感器、安全通信系统,以及支持自主导航与目标识别的AI软件模块。
商业技术(主要为无人系统)已占乌克兰防务采购支出近半份额。仅国家预算分配显示,商业领域采购占武器系统总支出的三分之一。若计入地方预算调拨资金与志愿者采购支持,该比例接近防务采办总支出的一半——印证现代高强度冲突中商业开发技术可发挥重大积极作用。
乌克兰将无人能力采办流程与商业产品开发生命周期深度适配。乌政府在产品开发生命周期各阶段着力消除冗余程序、决策节点与监管机制,使采办流程更契合商业环境无人机研发采购模式。通过调整法规与资金机制支撑该模式,确保政府与产业界在时间线、术语体系及预期目标上基于作战需求达成统一。
乌克兰确保无人系统军事需求由终端用户根据实战问题定义,而非依赖自上而下规划的僵化技术指标。经验表明:前线驱动的问题识别能催生更快速、更贴合的解决方案。乌军单位通过私人关系链或黑客马拉松等非正式渠道,直接向工程师传递需求与经验,取代官僚化需求预测。将需求定义为作战挑战而非技术蓝图,有效激发产业界创造性响应并扩大潜在供应商池。
乌克兰将早期研发(R&D)完全外包商业领域:无人机厂商独立资助技术开发至原型阶段(通常达最小可行产品MVP或技术就绪水平TRL 6-7级),军方方介入技术验证。乌军不参与新无人机最初研发阶段,私营公司自筹资金设计建造技术初版。军方接触时产品已是可实战测试的工作原型。此举使军方聚焦测试应用潜力技术,而非资助管理初期开发。该模式将早期实验与资金负担转移至私营领域,通过终端用户直接反馈加速创新,并让军方资源集中于测试、集成与快速部署优势方案——确保仅成熟技术进入防务评估流程。
乌克兰强力推行无人能力防务采购去中心化:赋予军事单位采购权与预算,使其可直接从国防部(MOD)核准清单采购所需系统。变革使部队绕过传统年度采购计划,利用账户可用资金(国家预算直拨或地方政府资源调拨)获取急需技术。此转向实现更快速、更响应前线实时作战需求的采办,增强作战适应性并降低对集中式官僚流程依赖。相较而言,美国防部(DOD)作战部队虽获人员薪资、运维等预算,却无军事系统装备采购权——该职能区隔于各军种或国防部长办公室。
安全加密数字通信工具通过精简军需传递流程(纸质文书替代为快速数字流程)、直连军事终端用户与无人机开发者,彻底变革军事能力发展模式。依托数字政务成功经验,乌克兰正将相同模式应用于防务领域。尽管统一数字采办系统仍在演进,数字化已加速原型开发、精简评估流程并促成军民实时协作。这些工具使军队能快速安全传递战场需求、评估解决方案并直接采购技术,为构建更敏捷响应的防务创新体系奠定基础。
本综合研究项目探讨如何将人工智能(AI)与机器学习(ML)技术融入联合部队规划流程,重点研究如何通过技术增强联合规划中的通用作战视图(COP)与行动方案(COA)制定。通过分析AI/ML技术应用的技术、组织、资源和伦理维度,本研究识别出优化态势感知与决策能力的关键机遇。这些AI/ML技术能够处理海量数据、精简规划任务并提供可操作见解,同时强调健全的数据采集、结构化与管理体系的必要性。研究剖析了组织架构层面影响(包括角色转换、分工调整及外部供应商引入机制),并探讨作战限制条件下资源需求与系统可持续性面临的挑战。伦理考量及“负责任人工智能”原则贯穿整个分析过程,确保技术应用与社会价值观及军事准则保持一致。
研究采用非结构化访谈与次级数据审查方式,评估军队内部自上而下与自下而上整合AI/ML技术的实践效果。研究识别出数据标准化、跨密级数据访问、组织实践与新兴技术适配性等多重整合障碍。核心发现强调建立集中化且具备适应性的框架机制至关重要,在此基础上提出推进军事规划中AI/ML能力的具体建议。该研究为运用AI/ML保持战略优势的宏观目标提供支撑,并为在复杂动态军事环境中开发、应用及优化相关技术贡献洞见。
技术挑战:成功的AI整合需要获取海量经专业处理且适配AI/ML模型的结构化数据。尽管AI能自动执行重复性任务(如数据过滤与目标识别),但其效能依赖于结构化数据格式与强健的数字基础设施。MAVEN智能系统(MSS)及STOMRBREAKER等新兴工具证实,AI可通过提升传感器数据融合与异常检测能力来优化COP生成。
组织影响:AI整合要求文化与架构的双重变革。规划人员需提升技能以有效运用AI工具,军事组织需将私营供应商纳入规划流程。AI的应用将重塑指挥部运作模式,重新分配职责并减轻人员负担。
资源需求:AI系统需要稳定云基础设施、带宽资源及强大算力支撑,其在作战环境中持续运维面临挑战。当前自下而上的实践常缺乏长期资金支持,而自上而下的战略部署亟需提升与作战需求的契合度。
伦理考量:对AI输出的可信度决定作战成败。AI系统必须遵循“可靠、透明、可监管”的负责任人工智能原则,同时规避数据偏见、过度依赖及幻觉(AI生成错误)等风险。
尽管AI为优化规划流程带来巨大机遇,但其成功应用取决于技术挑战的突破、组织架构的重塑及可持续资源的投入。通过负责任地部署AI技术,美军有望提升决策质量、保持作战优势,并在日益复杂的战场环境中掌控主动权。
态势感知(SA)是通过感知、理解与预测环境要素的连续过程,构成复杂系统的重要组件。环境信息接收具有持续性与多模态特性,人工智能技术通过将SA目标拆解为数据融合、表征、分类及预测等任务,提供更高效稳健的支撑。本文系统综述应用于各类环境与场景中构建、增强及评估SA的AI与多模态方法,重点聚焦感知完整性与持续性提升。研究表明人工智能与多模态方法的融合显著增强了复杂系统的感知与理解能力,但在未来态势预测与多模态信息有效融合方面仍存研究缺口。本文总结AI与多模态技术实现SA的应用案例与实践经验,并提出未来展望与挑战,包括更全面的预测能力、更强的可解释性及更先进的视觉信息处理技术。
图1所示。基于人工智能和多模态技术的态势感知系统概述。
本文阐述评估加拿大武装部队(CAF)在拉脱维亚国家指挥控制(C2)能力适配性的方法论。分析团队运用加拿大联合作战中心(CJWC)的C2评估框架(C2AF),结合"方法空间"与"任务空间"C2理论架构,聚焦部队运用、部队生成、部队保障、部队发展与部队管理五大领域。通过对现役C2能力的评估,获得推动能力未来发展的实践路径及C2理论演进的学术启示。
2024年3月,加拿大联合作战中心(CJWC)受命分析"安心行动"(Operation REASSURANCE)中驻拉脱维亚加军的指挥控制(C2)机制。基于Alberts等(2014)的C2理论模型、Leslie(2011)的5F模型及CJWC自研C2评估框架(C2AF),旨在评估驻拉C2能力适配性。本文总结CJWC分析团队的评估方法,提炼关键结论、最佳实践及同类研究启示。分析聚焦"安心行动",重点关注支撑加拿大在拉核心军事力量——前方地面部队(FLF)旅的指挥体系。尽管专项分析C2技术要素(网络接入质量/数据流分布等)具重要价值,但超出本研究范畴。
C2AF作为分析基础框架,其概念模型将C2视为复杂社会技术系统,核心功能是跨域领导、协调、计划、组织与控制。该框架定义C2能力为"人员-流程-结构-技术"四要素赋能的组织决策-行动循环,将C2分解为组件、维度、属性与度量四级结构。通过度量指标测定,C2能力被归入四象限之一,对应其最适配的外部环境复杂度层级。C2AF框架的四大组件包括:
- 人员:人力资源要素,涵盖个体与集体的行为模式、文化认知、教育背景、知识储备、技能水平、训练状态及认知能力。 - 流程:同步协调机制,实现组织内部(子单元与参谋机构间)及外部(与其他行为体)资源与信息的冲突消解与管理。 - 结构:人力资源配置体系,含物理布局、组织层级、决策权等治理机制,以及权责界定(问责、职责、权限,简称ARA)。 - 技术:网络与信息管理系统,支撑内外协同伙伴的C2相关信息管理、通信保障与行动协调。
各组件均含"敏捷性"与"互操作性"两个维度。C2AF属动态演进文件,目前未公开发布。
AI智能体在开放环境中进行规划和执行交互。例如,OpenAI的Operator可以使用网页浏览器进行产品比较并购买在线商品。
关于使智能体既有用又安全的研究大多集中于直接修改它们的行为,例如通过训练它们遵循用户指令。直接的行为修改虽然有用,但并不能完全解决异质智能体如何相互交互以及与其他参与者互动的问题。相反,我们需要外部协议和系统来塑造这些交互。例如,智能体需要更高效的协议来相互沟通并达成协议。将智能体的行为归因于特定的个人或其他法律实体,可以帮助建立信任,并且也可以防止滥用。基于这一动机,我们提出了智能体基础设施的概念:技术系统和外部共享协议,旨在调节并影响智能体与其环境之间的交互及其影响。就像互联网依赖于像HTTPS这样的协议一样,我们的工作认为,智能体基础设施同样对于智能体生态系统至关重要。我们确定了智能体基础设施的三个功能:1)将行为、属性和其他信息归因于特定的智能体、其用户或其他行为者;2)塑造智能体之间的互动;3)检测并纠正智能体的有害行为。我们提供了一个不完全的研究方向目录,涵盖了这些功能的相关研究。对于每个方向,我们分析了用例、基础设施的采纳情况、与现有(互联网)基础设施的关系、局限性和未解问题。推进智能体基础设施的研究可以为社会准备采用更先进的智能体技术奠定基础。
人工智能研究社区的一个基本目标是构建AI智能体:能够在开放环境中规划和执行交互的AI系统,例如拨打电话或在线购买商品(Maes, 1994; 1995; Lieberman, 1997; Jennings 等, 1998; Johnson, 2011; Sutton & Barto, 2018; Russell & Norvig, 2021; Chan 等, 2023; Shavit 等, 2023; Wu 等, 2023; OpenAI, 2018; Gabriel 等, 2024; Kolt, 2024; Lazar, 2024)。智能体与其他计算系统的不同之处有两个显著方面。首先,与用作聊天机器人的基础模型相比,智能体不仅仅与用户交互,还直接与世界进行交互(例如航班预订网站)。其次,与传统软件(例如排序算法的实现)相比,智能体能够适应不完全指定的任务指令。尽管人工智能社区已致力于开发智能体数十年,但这些智能体通常只执行狭窄范围的任务(Wooldridge, 2009; Mnih 等, 2013; Silver 等, 2018; Badia 等, 2020)。相比之下,最近基于语言模型构建的智能体可以尝试(尽管可靠性有所不同)(Kapoor 等, 2024; Liu 等, 2023; Mialon 等, 2023; Lu 等, 2024; Zhang 等, 2024)更广泛的任务,例如软件工程(Jimenez 等, 2024; Wu, 2024; Chowdhury 等, 2024)或办公室支持(Gur 等, 2024; MultiOn, 2024)。更通用的智能体可能会自动化一系列既有益又有害的任务。个性化的智能体可以帮助个人做出各种艰难的决定,例如选择购买何种保险或选择就读哪所学校(Van Loo, 2019; Sunstein, 2024; Lazar 等, 2024)。智能体在经济中的部署可能会带来生产力增长(Korinek & Suh, 2024)。然而,诸如缺乏可靠性、无法维持有效的监督或缺乏追责机制等障碍,可能会阻碍其有益的采用。另一方面,这些障碍对于有恶意动机的行为者来说可能并不关键。潜在问题包括诈骗(Fang 等, 2024b; Chen & Magramo, 2024)和大规模破坏数字服务(Fang 等, 2024a; Bhatt 等, 2023; 美国司法部, 2024)。
为了促进有益任务并减轻有害任务,许多AI研究集中于系统级干预,这些干预作用于AI系统本身,以塑造其行为。主要的研究方向包括目标指定与跟随(Hadfield-Menell 等, 2016; Christiano 等, 2017; Leike 等, 2018; Bai 等, 2022; Hua 等, 2024; Wang 等, 2024a;b; Kirk 等, 2024; Huang 等, 2024; OpenAI, 2024)、对抗性鲁棒性(Greshake 等, 2023; Tamirisa 等, 2024; Zou 等, 2024; Anil 等, 2024; Wallace 等, 2024)和合作(Lerer & Peysakhovich, 2019; Hu 等, 2020; Leibo 等, 2021; Dafoe 等, 2021)。如果采纳这些系统级干预(Askell 等, 2019),它们可以帮助提高智能体的可靠性,但可能不足以促进其有益采用或减轻风险。例如,实现对抗性鲁棒性的困难可能意味着公司在采纳智能体来完成具有经济价值的任务时,需要更多的保证。特别地,潜在的保证机制包括智能体认证、保险或身份解决方案,它们可以在不同方之间建立信任。此类工具塑造了智能体与机构(例如法律和经济系统)及其他行为者(例如网页服务提供商、人工智能智能体等)之间的交互。
鉴于系统级干预的不足,我们提出了智能体基础设施的概念:外部技术系统和共享协议,旨在调解并影响智能体与其环境之间的交互及其影响。这些系统和协议可以是新颖的,也可以是现有系统和协议的扩展。智能体基础设施的例子包括智能体之间的通信协议(Marro 等, 2024)、智能体的ID(Chan 等, 2024b)、智能体属性或行为的认证系统,以及回滚智能体行为的方法(Patil 等, 2024)。我们在表1中列出了更多的例子。我们的智能体基础设施概念并不涉及使智能体能够基本操作的技术系统(例如内存系统、云计算),尽管它通常会基于或修改这些系统。此外,虽然我们的讨论将以基于语言模型的智能体为基础,但智能体基础设施的核心思想大多不依赖于架构,并且扩展了现有的计算科学、经济学和社会科学的研究(Wooldridge, 2009; Perrier, 2025)。 为了进一步理解智能体基础设施与系统级干预之间的区别,可以将交通安全作为类比。如果我们将人类驾驶员类比为AI智能体,系统级干预包括驾驶员培训计划。基础设施则包括交通信号灯、环形交叉路口、应急车道和摄像头监控的限速。我们在表2中提供了更多的比较。
就像互联网依赖于TCP(Eddy, 2022)、HTTPS(Fielding 等, 2022)和BGP(Rekhter 等, 2006)等基础设施一样,我们认为智能体基础设施可能对于解锁智能体的好处并管理其风险至关重要。以解锁好处为例,将智能体的行为与用户绑定的协议可以促进问责,从而降低智能体采用的障碍。类似地,能够通过HTTPS进行安全的金融交易使得数万亿美元的电子商务市场成为可能(Statista, 2024)。作为管理风险的例子,智能体基础设施可以支持系统级干预。例如,智能体认证系统可以警告其他行为者(例如其他智能体),不要与缺乏某些保障措施的智能体互动,就像浏览器标记非HTTPS网站一样。通过这种方式,智能体基础设施可以利用智能体的交互作为杠杆点来提高安全性:限制智能体的交互也限制了智能体的潜在负面影响。 本文识别了智能体基础设施可以发挥的三项功能:1)将行为、属性和其他信息归因于特定智能体或其他行为者;2)塑造智能体的互动;3)检测并纠正智能体的有害行为。我们提出了可以帮助实现每个功能的基础设施,包括用例分析、采用情况、局限性和未解问题。我们的建议主要针对可能希望构建智能体基础设施的研究人员和开发者。这些建议对于可能希望支持其建设的政府或资助机构也可能有用。
强化学习(RL)已成为教导机器人在复杂环境中学习与适应的强大范式。本文探讨强化学习技术在机器人领域的最新进展。传统机器人控制方法在处理动态不确定环境时面临挑战。强化学习通过让机器人积累经验、自主决策并持续优化行动,为这些问题提供了解决方案。文章概述强化学习的核心概念,包括策略学习、价值函数及探索-开发权衡。策略学习涉及建立状态到行动的映射关系,使机器人能判定不同情境下的最优行动方案;价值函数评估行动质量,引导学习过程趋向最优行为;探索-开发权衡则指在尝试新行动与利用已知知识之间取得平衡以最大化奖励。深度强化学习、模型强化学习等算法的突破性进展显著提升了机器人系统能力:深度强化学习将强化学习与深度神经网络结合,可处理高维状态与行动空间,使机器人能直接从原始传感器数据学习复杂任务;模型强化学习则借助环境预测模型提升样本效率并加速学习进程。
文章重点阐述强化学习在机器人领域的三大应用:自主导航、精准操控及任务学习。该技术使机器人能适应动态环境、处理不确定性并通过与世界交互持续学习。当前研究聚焦提升算法样本效率、扩展性与泛化能力,以适应实际机器人应用需求。综上所述,本文强调强化学习通过赋能机器人适应多元挑战性环境,具有颠覆机器人技术的潜力。未来研究方向包括融合模仿学习、元学习等范式,进一步拓展机器人系统能力边界。
强化学习(RL)已成为训练自主智能体通过试错机制、环境反馈与交互来学习复杂任务的重要范式。近年来,强化学习技术在机器人领域的应用取得重大突破,为解决现实环境中导航、操控与交互难题开辟了新路径。本研究报告系统综述机器人强化学习的最新进展,着重阐述推动该领域发展的关键技术、算法与应用。强化学习与机器人技术的融合具备多重优势:能够基于高维传感输入学习复杂任务,适应动态环境变化,并在不同场景中实现知识迁移。通过强化学习,机器人可自主获取传统编程难以实现的技能与行为,从而灵活高效地执行多样化任务。本文评述专为机器人应用优化的前沿强化学习算法,包括深度Q网络(DQN)、深度确定性策略梯度(DDPG)、近端策略优化(PPO)及柔性演员-评论家(SAC)。我们探讨这些算法如何应对机器人领域的探索困境、样本效率及泛化能力等挑战,并分析其在不同场景中的优势与局限。
此外,深入探究机器人强化学习的最新研究趋势与创新方向: • 迁移学习与领域自适应技术实现跨任务跨环境的知识迁移
• 融合激光雷达、惯性测量单元及本体感受传感器技术,增强感知导航与操控能力
• 结合计算机视觉实现精细控制、目标检测及场景理解
• 仿真环境与硬件平台创新推动基于强化学习的机器人系统训练与部署
通过综合文献研究与实证分析,本文旨在明晰机器人强化学习的发展现状,指明未来研究方向与挑战。依托强化学习的强大能力,机器人研究者与实践者将持续突破自主机器人在工业自动化、物流运输、医疗健康及服务领域的应用极限。
i. 强化学习(RL)作为人工智能领域的变革性方法,赋予机器人通过与环境交互学习适应行为的能力。相较于传统编程需预设所有场景指令的模式,强化学习使机器人能够通过经验积累,基于试错机制进行决策以最大化累积奖励。这种范式转变为机器人系统解锁了全新可能,使其能够自主学习技能并持续提升性能。
ii. 近年强化学习与机器人技术的融合在多领域取得重大突破。从机器人运动控制到自主导航决策,强化学习技术显著增强了机器人在真实场景中的能力。借助强化学习算法,机器人可以更高灵活性、鲁棒性与适应性处理复杂任务,为开发智能多用途机器人系统铺平道路。
iii. 本研究报告聚焦机器人强化学习的技术进展,深入探讨其应用场景、现存挑战及未来发展潜力。通过对尖端技术的系统综述,我们旨在揭示强化学习对机器人领域的变革性影响,并探索该方法在塑造未来自主机器人系统过程中的机遇与局限。
软件质量标准要求严苛,因其驱动全球众多系统且需确保安全稳健。软件开发意味着需遵循高标准并适应需求与依赖项的变更。所幸软件工程的繁重任务可实现部分自动化,尤其随着生成式人工智能的最新进展。本论文探索自动化代码维护方法,聚焦"基于大型语言模型的软件工程"(LLM4SE),通过模型内部优化与模型间通信推进转换器模型在检测修复软件缺陷中的应用。此处"缺陷"涵盖执行故障与源代码错误,"源代码"指软件产品的原始代码或程序。核心贡献包括:开发轻量级转换器变体用于代码分类;提出两套自动化程序修复框架;反思LLM4SE研究的可持续性与透明度。研究首先开发编码器层组合方案(编码器属转换器类型)用于代码分类。实验发现轻量剪枝版CodeBERT变体微调耗时减少至1/3.3(微调指在领域数据上训练模型),且性能更优——缺陷检测准确率最高提升2个百分点(满分100),优于全尺寸模型常规用法。该结果推动语言模型在软件工程中的能效应用,证明全尺寸模型的"通用方案"对代码正确性分类等简单任务并非必需。
除错误检测外,本文呢聚焦生成代码与人写代码的缺陷修复。所提SEIDR框架包含"合成-执行-指导-调试-排序"模块,实现生成代码的实时修复,彰显LLM在"生成-修复"循环中的价值。此循环中,LLM通过代码执行、失败测试用例及错误日志获取反馈,最终生成全功能代码。采用Codex(基于代码训练的GPT-3)的SEIDR在程序合成基准测试中解决25项任务的19项,优于前沿遗传编程算法。论文还提出新型"循环翻译"(RTT)修复管线。与SEIDR不同,RTT专为修复已存在缺陷的生成/人写代码设计,通过将缺陷代码转译至其他编程语言/自然语言再回译至原语言实现修复。其理论依据是:转译过程可能因"均值回归"现象消除缺陷("均值"指模型训练数据中普遍存在的无缺陷代码)。实验证明:LLM驱动的RTT管线在多个基准测试中解决46个微调模型未能修复的独特缺陷。此能力使RTT成为多智能体程序修复体系的候选方案——各智能体以不同方法协同维护无缺陷代码。论文还综述LLM4SE文献,反思能效与模型复用可能性:仅27%的论文共享代码、模型及估算训练能耗所需完整细节,凸显遵循开放可复现研究准则的重要性。鉴于LLM存在随机性等局限,本研究提供实证结果而非理论保证,并讨论过度使用LLM的风险(如工具依赖、生成代码漏检、基准测试数据污染等)。整体而言,本研究推动LLM适配软件工程任务,为多智能体系统与多模态模型的自动化代码修复指明方向。
论文结构
第二章从软件开发生命周期视角综述软件工程自动化背景;第三章概述自然语言处理及LLM架构进展;第四章总结LLM4SE方法、进展与挑战;第五章阐明研究范围与机遇(5.3节详述研究问题、挑战及对应出版物关联,5.4节汇总出版物与问题解答);第六章讨论有效性威胁、局限、科研与产业影响及未来工作;第七章总结核心结论。为提升可读性,各背景小节均附框内摘要,研究问题答案与关键发现亦作相同标注。
本训练通报《行动后评估》为美陆军领导者提供规划与实施行动后评估(AAR)的基本流程与程序。本通报使用者须熟悉ADP 7-0和FM 7-0阐述的陆军训练条令。本文主要受众为全体军事专业人员。担任联合特遣部队或多国部队总部的陆军司令部指挥官及参谋人员亦须参考适用于各类军事行动及联合或多国部队的相关条令。全陆军范围的训练人员与教育工作者均使用本出版物。指挥官、参谋及下属应确保决策与行动符合美国适用法律、国际法规及特定情况下东道国法律法规。各级指挥官须确保士兵遵循战争法及交战规则行动(参见《野战手册》FM 6-27)。
《行动后评估》(AAR)深化了行动后评估的基本概念——该评估是领导者在规划与实施有效训练评估时使用的主要工具,相关论述详见ADP 7-0和FM 7-0陆军训练条令。指导领导者开展行动后评估,引导参训者主动发现提升任务执行成效的方法。本出版物适用于所有陆军领导者及全陆军三大组成部分:正规陆军、陆军国民警卫队和陆军预备役部队。
包含四章内容:第一章阐述行动后评估的目的与共性特征,建立四步流程指导领导者成功实施行动后评估,并论述在战斗情境中如何运用行动后评估流程快速有效应用经验教训以提升作战效能。第二章介绍领导者规划与准备行动后评估的程序,探讨部队评估规划的整体方案,以及如何通过行动后评估持续保持优势并改进薄弱环节。第三章提供领导者实施行动后评估的指南,涵盖开场陈述、宣布所有参与者须遵循的规则及评估整体议程。第四章概述行动后评估结束后必须采取的后续行动,确保评估结果持续推动部队效能提升,并将经验教训在全军共享。
本出版物已更新指挥控制作战职能内容,而先前版本依据条令中仍称"任务式指挥作战职能"的时期编写。指挥控制系指经正式任命的指挥官为完成任务对所属配属部队行使的指挥权与领导权(参见联合出版物JP 1)。陆军将任务式指挥定义为实施指挥控制(亦称C2)的陆军方式,旨在根据具体情境赋能下属决策与分散执行(陆军条令ADP 6-0)。为辅助指挥部队与控制作战行动,指挥官建立其指挥控制系统——即人员编组、流程规范、网络架构及指挥所体系的组合,使指挥官得以实施作战行动(ADP 6-0)。高效指挥官运用本出版物提升指挥控制系统战备状态,确保部队做好实施联合地面作战的准备。
本出版物阐述的指挥控制训练策略适用于作战域内所有三大军种、各层级(营至军级)及各类单位。执行此策略的指挥控制训练表通过聚焦特定指挥控制任务与操练,在营级以上有限集体训练机会中补充陆军新型"区域化战备与现代化模型"(ReARMM)。本出版物着重强调指挥官及参谋团队贯穿《训练通报》TC 6系列执行指挥控制系统时的训练路径。与多数训练通报不同,本文件不涉及具体训练活动,而是提供指挥官、领导者及士兵训练指挥控制与任务式指挥方法的基础信息。假定读者已熟悉《野战手册》FM 7-0《训练》内容。任务式指挥能力中心作为指挥控制作战职能主管机构,提供涵盖单兵、集体及操练任务的综合训练与评估大纲(T&EOs),明确C2任务规范、条件标准与评估准则。各级指挥官可据此确立从军士训练到外部评估(EXEVAL)或作战训练中心(CTC)轮训等各类演训活动的指挥控制系统训练目标(见附录C)。这些训练评估大纲构成指挥控制训练表的基本模块,按"渐进式训练"策略分层植入,为领导者规划训练管理周期内设定与优化训练目标提供路线图。
第一章“训练与指挥控制作战职能”详述指挥控制系统,阐释指挥官在训练士兵运用该系统过程中的职能,明确训练原则如何适用于指挥控制训练,并论述其他训练考量要素:可用训练资料、支撑指挥控制训练的关键人员、指挥所生存能力训练等。
第二章“指挥控制训练表”(C2TT)将指挥控制系统划分为需训练达标的四类人员群体:指挥官、参谋团队、指挥所操作人员、指挥控制网络数字机组。
第三章“指挥控制训练管理”阐述如何参照标准射击训练表模式,面向四类受训对象应用指挥控制训练表,以及指挥官如何通过训练表核验指挥控制系统效能。本章说明指挥官如何将训练表整合至部队训练日程的其他演训活动,贯穿训练管理周期最终衔接部队外部评估(EXEVAL)。
附录A“机构域指挥控制训练策略”阐述生成部队实施的指挥控制训练与教育策略。
附录B“作战域指挥控制训练策略”概述全军种在作战域的指挥控制作战职能。
附录C“自我发展域指挥控制训练策略”明确士兵及领导者在增强指挥控制能力所需技能、知识、素养方面的自我发展职责。
附录D“指挥控制训练保障体系”列编部队可用的指挥控制训练资源。
国际机器学习会议 ICML(International Conference on Machine Learning),是全球范围内人工智能领域的顶级学术会议之一,由国际机器学习学会(IMLS)举办,与 NeurIPS、ICLR 并列为 AI 三大顶会。
ICML 2025 为第四十二届,于 7 月 13-19 日在加拿大温哥华举行。
ICML 2025 共收到 12107 篇有效论文投稿,比去年(9653篇)大幅增长了 25.4%,最终有 3260 篇论文被接收,总体接收率为 26.9%。 今年获奖论文共计 8 篇,其中包括 6 篇杰出论文奖和 2 篇杰出立场论文奖。
自大语言模型(LLMs)问世以来,AI 安全领域便受到了广泛关注。相关研究致力于制定一系列最佳实践,包括评估协议、防御算法以及内容过滤器,旨在推动 LLM 及相关技术的伦理、安全与可靠部署。在 AI 安全中,一个核心议题是模型对齐(model alignment),即通过算法优化 LLM 的输出,使其符合人类价值观。然而,尽管已有大量研究努力,近期研究仍发现了多种失败模式——统称为“越狱(jailbreak)”——这些攻击手段可绕过模型对齐机制,诱导目标模型生成不安全内容。 最初的越狱攻击主要针对生成有害信息(如侵犯版权或违法内容),而当代攻击则更具针对性,聚焦于特定领域的风险,例如让数字智能体侵犯用户隐私,或操控由 LLM 控制的机器人在现实世界中执行危险行为。更严重的是,未来的攻击可能会瞄准模型的自我复制或权力寻求等高风险行为。越狱攻击的隐蔽性与破坏性构成了 LLM 广泛应用的重大障碍。因此,机器学习社区亟需深入研究这些失败模式,并设计出有效的防御策略加以应对。 在过去两年中,学术界与工业界不断推动越狱攻击与防御机制的双向演化:一方面开发新的攻击方法以测试模型安全性,另一方面强化模型的防护能力。这些持续努力在整体上提升了模型的安全性。例如,OpenAI 的 o 系列模型与 Anthropic 的 Claude3 系列在应对多种越狱攻击方面展现出显著的鲁棒性。然而,越狱与防御之间的“军备竞赛”仍在持续,这也表明当前的安全水平尚未达到最终理想状态。 为系统呈现该领域的最新进展,本文教程旨在对越狱研究的演化图景提供一个统一视角。我们的主要目标如下:
回顾越狱攻击的前沿进展,涵盖新兴的算法框架与数学基础,重点关注攻击方法、防御机制、评估技术及其在机器人与智能体系统中的应用; 1. 讨论该领域的未来方向,指出越狱攻击研究仍处于起步阶段,由其带来的新挑战、新机遇与研究方向值得关注; 1. 展示一系列开源 Python 实现,涵盖当前最先进算法的实际应用与演示。
近日,大数据技术标准推进委员会(CCSA TC601)组织编制的《高质量数据集实践指南(1.0)》正式发布。
下载链接 高质量数据集实践指南(1.0).pdf
核心要点解读
随着人工智能技术迈入以大模型为核心的新纪元,数据已成为驱动模型能力跃迁与产业智能化升级的战略资源。DeepSeek的横空出世颠覆了“高算力和高投入是发展人工智能唯一途径”的固有认知,引领从业者高度重视数据质量与规模,高质量数据集成为人工智能发展的关键要素。
然而,当前产业界面临着高质量场景数据供给不足、建设路径模糊、标准规范缺失、技术工具需提升、数据价值难以释放等多重挑战。
为推动高质量数据集建设,明确建设和运营方法论,加速赋能场景应用,总结未来发展趋势,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)组织,联合众多行业专家共同编制《高质量数据集实践指南(1.0)》。
本指南适用于从事数据管理、人工智能研发、数据产品运营的企业管理者、数据工程师、算法科学家及相关从业人员,旨在为其提供一套可参考、可落地的方法论与操作指引,助力业界构建并用好高质量数据集。
以下为解读PPT
报告节选