摘要——大语言模型(Large Language Models)与自主AI智能体(Autonomous AI Agents)发展迅速,催生了多样化的评估基准、框架和协作协议。然而,该领域仍较为碎片化,缺乏统一的分类体系与全面的综述。因此,本文对2019年至2025年间构建的评估这些模型与智能体的多个领域的基准进行了并列比较。此外,我们提出了一个包含约60项基准的分类体系,涵盖通用与学术知识推理、数学问题求解、代码生成与软件工程、事实依据与信息检索、领域特定评估、多模态与具身任务、任务编排以及交互式评估等方面。 我们还综述了2023年至2025年间提出的AI智能体框架,这些框架通过将大语言模型与模块化工具包集成,实现了自主决策与多步推理能力。进一步地,我们展示了自主AI智能体在材料科学、生物医学研究、学术创意生成、软件工程、合成数据生成、化学推理、数学问题求解、地理信息系统、多媒体、医疗健康与金融等多个真实应用场景中的实际应用。接着,我们综述了关键的智能体间协作协议,包括Agent Communication Protocol(ACP)、Model Context Protocol(MCP)以及Agent-to-Agent Protocol(A2A)。最后,我们针对未来研究提出建议,重点关注高级推理策略、多智能体大语言模型系统中的失败模式、自动化科学发现、基于强化学习的动态工具集成、集成搜索能力以及智能体协议中的安全漏洞。

关键词:大语言模型,自主AI智能体,Agentic AI,推理,评估基准

一、引言

大语言模型(Large Language Models, LLMs),如 OpenAI 的 GPT-4 [1]、Qwen2.5-Omni [2]、DeepSeek-R1 [3] 和 Meta 的 LLaMA [4],通过实现类人文本生成和高级自然语言处理,极大地推动了人工智能的发展,促进了对话智能体、自动内容创作和实时翻译等应用的创新 [5]。近年来的进展进一步扩展了其在多模态任务中的应用,包括文本生成图像和视频,从而拓宽了生成式人工智能的应用边界 [6]。然而,这些模型对静态预训练数据的依赖可能导致输出内容过时或产生虚构信息 [7][8]。为应对这一问题,检索增强生成(Retrieval-Augmented Generation, RAG)通过引入来自知识库、API 或网页的实时数据,提升了生成结果的时效性与准确性 [9][10]。 在此基础上,结合反思、规划与多智能体协作的智能体系统不断演进,催生了“Agentic RAG”系统,这类系统可动态编排信息检索与迭代优化,从而高效处理复杂任务流程 [11][12]。 近年来的大语言模型进步为高度自主的人工智能系统铺平了道路,这些系统可独立完成复杂的科研任务。通常被称为“Agentic AI”的系统能够提出假设、执行文献综述、设计实验、分析数据,从而加速科学发现并降低研究成本 [13][14][15][16]。一系列框架如 LitSearch、ResearchArena 和 Agent Laboratory 被开发出来,以实现科研任务的自动化,包括引用管理与学术综述生成 [17][18][19]。尽管如此,执行领域特定的文献综述及确保自动化流程的可复现性与可靠性仍面临诸多挑战 [20][21]。 在科研自动化发展的同时,基于大语言模型的智能体也开始变革医疗领域 [22]。通过集成临床指南、医学知识库与医疗系统,这些智能体被广泛应用于诊断辅助、患者沟通与医学教育。然而,这些应用仍面临重大挑战,如可靠性、可复现性、伦理治理与安全性等问题 [23][24][25]。解决这些问题对于确保基于LLM的智能体能够有效且负责任地纳入临床实践至关重要,也凸显了建立可靠评估框架以衡量其在不同医疗任务中性能的必要性 [26][27][28]。

基于LLM的智能体正成为人工智能发展的新前沿,能够结合推理与执行,处理复杂的数字环境 [29][30]。因此,研究者提出了多种方法以增强此类智能体,例如通过 React [31] 与蒙特卡洛树搜索(Monte Carlo Tree Search)[32]等方法结合推理与行动,或采用 Learn-by-Interact [33] 等技术生成高质量数据,以规避状态可逆性等假设。其他策略还包括使用人类标注或GPT-4蒸馏数据进行训练,如 AgentGen [34] 与 AgentTuning [35],以生成任务轨迹数据。同时,强化学习方法结合离线算法和基于奖励模型的迭代优化,在真实环境中提升系统的效率与性能 [36][37]。 基于LLM的多智能体系统通过多个专用智能体的集体智能,超越了单智能体系统的能力,能够在模拟复杂现实环境中执行协作规划、讨论与决策。这一方法充分发挥了LLM在沟通与专业知识方面的优势,使不同智能体能够像人类团队一样有效协作,解决复杂问题 [38][39]。近期研究已展示其在多个领域的广泛应用,包括软件开发 [40][41]、多机器人系统 [42][43]、社会模拟 [44]、政策模拟 [45] 和游戏模拟 [46]。 本文的主要贡献如下:

我们提供了2019年至2025年间构建的、涵盖多个领域的大语言模型与自主AI智能体评估基准的比较表; * 我们提出了一个包含约60项基准的分类体系,涵盖通用与学术知识推理、数学问题求解、代码生成与软件工程、事实依据与信息检索、领域特定评估、多模态与具身任务、任务编排、交互式与智能体评估等方向; * 我们整理了2023年至2025年间提出的主流AI智能体框架,这些框架通过模块化工具包集成LLM,实现了自主决策与多步推理; * 我们展示了自主AI智能体在材料科学、生物医学研究、学术创意生成、软件工程、合成数据生成、化学推理、数学问题求解、地理信息系统、多媒体、医疗健康与金融等多个领域的应用; * 我们综述了智能体之间的协作协议,包括Agent Communication Protocol(ACP)、Model Context Protocol(MCP)以及Agent-to-Agent Protocol(A2A); * 我们提出了未来在自主AI智能体研究中的重点方向,包括高级推理策略、多智能体LLM系统中的失败模式、自动科学发现、基于强化学习的动态工具集成、集成搜索能力与智能体协议中的安全漏洞。

图1展示了本综述的结构安排。第二节介绍相关工作;第三节以表格形式比较当前LLM与Agentic AI的前沿评估基准;第四节系统回顾AI智能体框架、应用、协议与训练数据集;第五节聚焦关键研究方向;第六节为全文总结。

成为VIP会员查看完整内容
41

推理是智能的核心,塑造了做出决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统日益在开放、不确定且多模态的环境中运行,推理能力对于实现稳健且具适应性的行为变得至关重要。大型多模态推理模型(Large Multimodal Reasoning Models, LMRMs)作为一种前景广阔的范式应运而生,融合了文本、图像、音频和视频等多种模态,以支持复杂的推理能力。其目标在于实现全面的感知、精准的理解和深入的推理。

随着研究的不断推进,多模态推理已从早期以感知驱动的模块化流程,快速演化为以语言为中心的统一框架,从而实现更具一致性的跨模态理解。尽管指令微调和强化学习在提升模型推理能力方面取得了进展,但在全模态泛化、推理深度以及代理性行为等方面仍面临重大挑战。

为了解决上述问题,我们提出了一项全面且结构化的多模态推理研究综述,围绕一个四阶段的发展路线图展开,反映了该领域设计理念的演变和新兴能力的出现。首先,我们回顾了早期基于任务特定模块的研究工作,在这些系统中,推理通常隐式地嵌入在表示、对齐和融合等各个阶段。接着,我们探讨了近期将推理统一于多模态大语言模型(Multimodal LLMs)中的方法,其中诸如多模态思维链(Multimodal Chain-of-Thought, MCoT)和多模态强化学习等进展,支持了更丰富且结构化的推理链。

最后,基于OpenAI O3和O4-mini在挑战性基准测试和实验案例中的实证见解,我们讨论了原生大型多模态推理模型(Native Large Multimodal Reasoning Models, N-LMRMs)的概念发展方向,其目标是在复杂的现实世界环境中支持可扩展、具代理性和适应性的推理与规划。通过整合历史趋势与新兴研究成果,本综述旨在阐明当前的发展格局,并为下一代多模态推理系统的设计提供参考。

1 引言

在哲学与人工智能领域,推理被广泛认为是智能行为的基石(Kahneman, 2011;Su 等,2024;de Winter 等,2024;Bi 等,2025)。它不仅使智能体能够适应性地响应环境,还能够进行逻辑推断、知识泛化及在复杂情境中作出决策。随着人工智能系统越来越多地与动态、不确定且多模态的环境交互,能否在多变情境下进行正确推理,已成为实现稳健且具适应性智能的关键(Yang 等,2025a;Christakopoulou 等,2024)。 在此背景下,大型多模态推理模型(Large Multimodal Reasoning Models,LMRMs)作为一个前沿方向逐渐显现出其潜力(Wang 等,2024k;Zhang 等,2024c;Yin 等,2023)。这类模型融合文本、图像、音频与视频等多种数据模态,展现出包括逻辑演绎、因果推理、类比映射与长程思维等在内的复杂推理能力。其核心目标是实现全面的感知、精准的理解与深层的推理,从而支撑多样化环境中的决策过程。 多模态推理研究发展迅速。早期研究依赖于以感知驱动的模块化流程,而近期进展则利用大语言模型统一多模态理解与推理(Huang 等,2023b;Driess 等,2023)。指令微调(Liu 等,2023a)与强化学习(DeepSeek-AI 等,2025)进一步提升了模型的推理表现,使其更接近类人的深思熟虑行为。尽管如此,多模态推理仍是大型多模态模型的核心瓶颈,其在泛化能力、推理深度以及类代理行为方面仍存在明显限制(Yue 等,2024;Zhang 等,2024f;Liu 等,2024f)。 已有综述主要聚焦于多模态大语言模型或以语言为中心的推理方法分析,尚缺乏对近期强化学习增强的多模态推理技术及LMRMs技术前景的系统分析。因此,多模态推理领域亟需一个连贯的框架,以理解其发展演变及未来方向。本文正是为填补这一空白,提供了一份涵盖从早期模块化设计到先进LMRMs的完整技术路线图的全面综述与分析。 具体而言,我们提出了一个结构化的多模态推理发展路线图(见图2),分为三个阶段: * 感知驱动的模块化推理:推理隐含在任务特定模块中; * 以语言为中心的短程推理(System-1):借助提示工程与结构化的短程思维链(CoT),实现初步的多模态推理; * 以语言为中心的长程推理(System-2):通过扩展的推理链与强化学习,支持长期思维、规划与类代理行为。

在此发展路径的基础上,我们提出了“原生大型多模态推理模型(Native Large Multimodal Reasoning Models,N-LMRMs)”的概念,这一前瞻性范式不再依赖于将推理能力附加在语言模型之上,而是使推理能力自然而然地从全模态感知、交互以及目标驱动的认知中涌现。 基于统一表示、训练数据合成、从世界经验中学习与基准构建等方面的最新进展,我们进一步探讨了突破当前架构限制、推动多模态智能发展的可能路径。 我们的主要贡献如下: * 本文系统梳理了大型多模态推理模型(LMRMs)的研究全貌,涵盖540余篇相关文献,并分析了当前模型在推理方面的主要限制(第2节); * 我们提出了一个三阶段的发展路线图,从模块化推理到多模态思维链(MCoT),再到支持长程推理的System-2模型,并对各阶段进行了详细的分类分析与代表方法归纳(第3节); * 我们首次引入并分析了“原生大型多模态推理模型(N-LMRMs)”的概念,对其体系结构、学习方法、数据集与基准进行了深入探讨,为未来多模态代理性推理提供了方向(第4节); * 我们重组并更新了至2025年4月的多模态理解与推理数据集和评测基准,明确其分类与评估维度(第5节)

2 多模态推理范式的演进与讨论

多模态推理的发展经历了一系列重要的范式转变,体现了感知输入与结构化认知过程之间的日益深度融合。在本节中,我们将梳理多模态推理系统发展的四个关键阶段,每一阶段都代表着不同的模型设计理念、能力表现与技术挑战。这一历史视角不仅定位了该领域的当前状态,也明确了后续章节所探讨方向的研究动因。

阶段一:感知驱动的模块化推理 —— 面向任务的推理系统设计

在初期阶段,多模态推理能力通过模块化推理组件构建(Andreas 等,2016;Yang 等,2016;Xiong 等,2016)。这些系统通常采用卷积神经网络(CNN)和循环结构(如长短期记忆网络 LSTM),并运行于监督学习框架中。由于早期阶段存在多模态数据匮乏、神经结构不成熟和学习方法欠完善等问题,研究者往往采用模块化设计,将推理过程拆解为表示、对齐、融合与推理四个独立组件(§3.1.1)。 随着预训练–微调范式的兴起(Devlin 等,2019;Radford 等,2018, 2021),大规模多模态数据集与深层神经网络的出现推动了视觉–语言预训练模型(VLMs)的快速发展(Chen 等,2020;Li 等,2020;Yu 等,2022, 2021),其目标是统一表示、对齐与融合等多个阶段(§3.1.2)。 然而,这种统一主要集中于视觉表示与跨模态融合,对语言的深层语义建模相对薄弱,导致推理过程仍以分类为主,缺乏上下文意识与泛化能力。此外,该阶段的多模态推理系统仍依赖额外模块或任务特定增强机制,总体而言,推理更多是隐含在基础感知处理与神经计算中。新兴的多模态语言模型将通过引入强大的语言建模能力与大规模视觉数据,进一步增强这种隐式推理。

阶段二:以语言为中心的短程推理 —— System-1 式推理

多模态大语言模型(MLLMs)的出现(Liu 等,2023a;Bai 等,2023;Chen 等,2024j;Zhang 等,2023c)标志着多模态推理从模块化系统迈向端到端语言中心框架的重大转折。这些模型在视觉常识推理(VCR)(Zellers 等,2019;Yu 等,2024c)、视觉问答(VQA)(Goyal 等,2017;Singh 等,2019)和视觉定位(Peng 等,2023;Rasheed 等,2024;Liu 等,2024f;Lai 等,2024;Ren 等,2024)等任务中取得了显著成果。 但早期 MLLM 主要依赖于浅层模式匹配和静态知识检索,难以完成动态假设生成、多步逻辑推理及上下文适应。这一限制推动了思维链(Chain-of-Thought, CoT)推理的提出(Kojima 等,2022),通过将隐式推理转化为显式中间步骤,实现了推理过程的语言化、可解释化。 研究者将 CoT 推广到多模态领域,提出了多模态思维链(MCoT)(Zhang 等,2023g;Fei 等,2024;Shao 等,2024)。初期方法主要依赖于提示驱动的生成(§3.2.1),使模型可通过精心设计的提示产生逐步的多模态推理轨迹。后续研究进一步优化了推理本身,或通过结构化分解(§3.2.2),或通过引入外部工具与检索增强机制扩展模型推理能力(§3.2.3)。 尽管如此,该阶段的推理仍以短程、反应式为主,典型特征是快速、直觉式的 System-1 推理。模型适用于熟悉或边界明确的任务,但在抽象性、组合性和规划能力上表现不足。这些挑战推动了更具结构性和思维深度的新一代推理范式的发展。

阶段三:以语言为中心的长程推理 —— System-2 式思考与规划

尽管 MCoT 明显提升了 MLLMs 的推理能力,但仍无法应对复杂的现实世界多模态任务(Zhang 等,2024f;Yu 等,2024c;Yue 等,2024)。大多数 MCoT 方法生成的是短程、快速反应型的推理链,难以胜任具备抽象性、组合性、长时序和适应性规划要求的任务(DeepSeek-AI 等,2025)。 为弥补这一差距,研究逐步转向受 System-2 启发的推理机制(Yao 等,2023b;Kahneman, 2011),强调更慢速、深思熟虑、方法论驱动的认知过程。在这一视角下,推理不再是附属功能,而是智能行为的核心组成部分。 沿三条关键路径扩展 MCoT,正在成为推动 LMRMs 向更高阶智能发展的核心轨迹: 1. 推理模态维度:仅依赖文本限制了模型对模态特有知识的捕捉能力。近期研究提出跨模态推理链,融合视觉、听觉与语言信号作为联合推理基础,实现更丰富的语义锚定与信息整合(§3.3.1)。 1. 推理范式维度:研究者提出更长、更高质量的推理链,并引入可泛化、方法论指导的推理策略,使模型可自主分解复杂任务并迁移推理路径(§3.3.2)。例如 GPT-4o(Hurst 等,2024)代表了当前认知任务中近人类水平的多模态推理表现。 1. 学习方法维度:强化学习增强的多模态推理研究日益升温。通过引入代理式数据、反馈机制与长期优化目标,模型如 DeepSeek-R1 提升了规划能力、鲁棒性与泛化能力(§3.3.3)。

这些进展共同标志着多模态推理范式从“反应式”向“深思熟虑式”转变,推动 LMRMs 向适应性、系统级智能迈进。

阶段四:走向“原生”大型多模态推理模型(N-LMRMs)

尽管当前 LMRMs 已展现出处理复杂任务的潜力,其语言中心架构仍存在关键制约(Kumar 等,2025;Pfister & Jud,2025)。一方面,目前模型多聚焦于视觉与语言模态(文本、图像、视频),难以胜任现实中需处理音频、触觉、传感器流与时序数据等多模态深度交互场景;另一方面,语言驱动的推理难以胜任生成性思考、自我反思与交互控制。 此外,当前模型在交互性、长时序推理和适应性规划方面仍有明显短板。在静态任务中虽可生成推理链,但在动态环境中进行实时交互与策略调整的能力仍显不足。 为解决这些问题,我们提出“原生大型多模态推理模型”(Native LMRMs, N-LMRMs)的前瞻性架构设想(§4)。与传统 LMRMs 将推理能力附加于语言模型的方式不同,N-LMRMs 将从底层架构设计上原生集成多模态理解、生成与代理性推理,实现真正端到端的统一系统。 此类系统通过统一表示空间(如 VideoPoet, Kondratyuk 等,2024)编码真实世界数据,同时利用大规模合成数据在各种模态交互环境中进行推理与规划学习。 N-LMRMs 将具备两大关键能力: 1. 多模态代理性推理:具备主动、目标驱动的智能体行为,例如长时序规划(任务分解与记忆增强推理)、动态适应(基于环境反馈的策略调整)、具身学习(通过物理或虚拟交互实现泛化)。 1. 全模态理解与生成性推理:跳出传统模态特定编码器/解码器设计,转向统一的跨模态表示空间,支持异构数据融合、上下文生成与模态无关的推理路径,从而应对任务无关、模态开放的多样输入。

综上,从模块化、感知驱动系统到原生多模态推理模型的演进,构建了一条通向统一、适应性、高层次AI系统的发展路径。接下来的章节将详细分析各阶段代表模型及塑造多模态推理未来方向的前沿研究趋势。

**

**

成为VIP会员查看完整内容
35

众多系统需在分布式智能体间分配任务,并要求各参与者优化有限资源以高效完成任务。在智能体数量少、环境稳定的场景中,存在搜索最优任务与资源分配的算法。此类系统可通过集中式策略规划与智能体协调实现优化。但在智能体数量庞大或环境高度动态、不确定的复杂场景中,传统方案效能下降。现实系统(如无线传感器网络、智慧城市车辆协同、无人机集群编队)往往兼具复杂性与环境扰动敏感性。本论文针对动态多智能体系统的任务与资源分配挑战做出贡献,开发可扩展的去中心化算法——基于智能体局部知识优化任务与资源分配,提升系统在真实场景中的效用。我们通过三项递进式创新解决该问题:首先开发基于强化学习的任务分配算法(根据任务完成质量优化分配,并基于历史绩效动态调整探索策略);其次提出资源分配算法(通过强化学习评估任务价值,优化有限资源在受托任务中的配置);最终整合前两项成果形成动态环境下的综合解决方案,并增强其对通信中断、恶劣天气等扰动的鲁棒性。通过代表性系统仿真验证各模块性能,并以海洋环境监测系统为案例评估整体方案。

为实现研究目标,我们分步研究并整合解决方案:

贡献1:任务分配算法
提出四类协同算法,使智能体通过强化学习优化任务分配策略,并根据经验动态调整系统探索程度。算法支持智能体评估他者任务执行能力、分配任务,并基于当前认知与能力探索需求采取行动。

贡献2:资源分配算法
引入结合时间维度资源需求函数近似与强化学习的资源优化算法,适用于共享资源竞争与任务优先级排序场景。

贡献3:层次化多目标任务与资源分配综合算法
开发整合前两项贡献的算法,适应动态系统中智能体构成与能力变化,解决多竞争目标优化难题,并支持智能体自组织角色分工。

三项贡献共同应对1.3节所述挑战,达成1.2节定义的研究目标。

论文结构
第一部分:概述多智能体系统相关概念、理论与既有成果。
第二部分:详述核心研究内容、算法设计及海洋监测案例评估。
第三部分:总结成果、展望未来研究方向与应用潜力。

章节安排
• 第2章:解析多智能体系统核心概念、运作环境与分布式系统应用。

• 第3-5章:分别探讨任务分配难题(第3章)、有限资源优先级分配(第4章)、多智能体强化学习应用及现实挑战(第5章)。

• 第6章:剖析分布式智能体系统组织结构、特征与自组织行为。

• 第7章:以无线传感器网络(特别是海洋监测案例)贯穿概念阐释。

• 第8章:形式化定义智能体系统,确立任务与资源分配问题框架。

• 第9章:聚焦任务分配算法开发。

• 第10章:设计任务优先级驱动的资源分配算法。

• 第11章:整合任务与资源分配方案,实现1.2节全局问题求解,并增强智能体间协同自组织能力。

• 第12章:基于海洋环境传感器网络的案例研究(恶劣动态环境中验证算法可靠性)。

• 第13章:总结研究成果与目标达成度,探讨应用场景及未来扩展方向。

图1.3:智能体系统中的任务分配。智能体𝐴持续接收类型𝑇的任务集(需执行类型𝑋与𝑌的子任务)。首幅图示中,其将𝑋类任务分配给最优智能体𝐵,但将𝑌类任务分配给非最优智能体𝐶。次幅图示显示𝐴通过学习确认𝐷为𝑌类任务最优执行者,遂调整邻居关系(剔除𝐶并纳入𝐷)。

图1.4:多智能体系统中的行动优化。两图展示智能体学习优化行动以响应任务请求的进程。首幅图中,𝐴将𝑋类子任务分配给𝐵、𝑌类分配给𝐷,但𝐵与𝐷均未优化资源配置以优先处理对应任务。次幅图中,𝐵与𝐷通过资源重配置分别优化执行𝑋与𝑌类任务的价值(针对𝐴的需求)。

图1.5:多智能体系统中的邻居关系。首幅图中,𝐴将𝑋类任务分配给未优化的𝐵,而专精𝑋类任务的𝐷虽存在却不在𝐴的邻居范围内。处于𝐴邻居范围的𝐶虽无法直接执行𝑋类任务,但可连接至𝐷。次幅图示显示𝐶通过学习承担任务中继角色,使𝐴间接扩展邻居范围至𝐷,实现𝑋类任务的最优执行。

成为VIP会员查看完整内容
33

人工智能(AI)中的知识推理与表征对推进威胁识别的预测性研究至关重要。大规模数据的快速增长催生了自动化解决方案的部署,但当前机器学习接口仍难以可靠预测异常行为——这限制了其在关键决策中的适用性。为应对此挑战,图神经网络理论与动态系统现代库普曼理论的最新进展,推动了结合知识图谱构建的深度图表示学习技术发展。该方法通过学习捕捉异常威胁评分的图嵌入,提升威胁分类精度。通过预测生成图与真实图谱间的图相似性度量进行迭代对比,进一步优化预测结果。利用库普曼方法对新闻文章中的暴力事件信息进行降维处理。提出的"基于库普曼学习演化的半监督预测自编码器表征(SPARKLE)"方法,为动态情报构建提供可扩展、自适应的框架,最终在未来威胁监控系统中实现实时态势感知。建议未来研究将此创新方法与多源权威数据整合,以推进AI驱动的现代威胁分析。

图:俄乌冲突每周时间序列数据

数据量的持续激增常导致信息过载,这迫使人们采用自动化工具实现高效利用。然而,当前机器学习接口难以满足威胁识别与分类所需的精准可靠预测,使其无法胜任关键决策流程。基于图的方法与现代库普曼理论的最新进展,增强了人工智能技术从复杂数据集中提炼关键信息的能力。快速制定明智决策的迫切需求,推动着威胁识别方法的改进。

传感器及其能力在融入复杂互联战场环境后日益精密。空间、平流层气球、浮标与山顶部署的系统,可在动态复杂网络中同时充当数据生产者与消费者。聚合、格式化与综合海量数据以提供预警、推断意图并列举应对建议,需具备对作战环境的深刻认知、复杂传感器数据本体论,以及精细而全面的对抗行为模型。此外,传感器数据产出效用与数据分析深度常受显著制约。本研究通过多层次方法评估预测能力:(1)应用机器学习模型压缩数据;(2)构建知识图谱捕捉对抗行动与意图的关联线索,并借助海军研究生院"哈明"高性能计算环境创新应用库普曼算子实现图谱动态演化;(4)通过检索增强生成(RAG)最大化分析效用以优化结果。研究框架始于理论与领域概述,涵盖知识图谱、机器学习方法、生成式动态图、库普曼算子预测及RAG技术,最终通过"基于库普曼学习演化的半监督预测自编码器表征(SPARKLE)"展示威胁分类精度的显著提升。研究结果表明,SPARKLE迭代框架的应用有效增强预测能力并改善威胁分类成效。

传感器已遍布从海底到太空的全域。"新闻文章中的暴力事件信息(VIINA)"时间序列数据集用于评估多种方法的性能。全球部署的庞大传感器网络产生的观测数据,已远超人类未经自动化辅助处理信息与语境的能力。此环境为结合知识图谱构建与机器学习塑造战场空间感知提供了理想的实验场。

A. 问题陈述

当前面临的问题在于亟需对海量数据实施自动化预处理以提升威胁环境中的态势感知能力。"数据丰富但信息贫乏(DRIP)"凸显了现有缺陷——分析人员当前无法在目标监视要求时限内处理侦测信息以支撑识别任务。2022年成立的"全域异常现象解析办公室(AARO)"需就限制空域与敏感空域内的"未识别异常现象(UAP)"活动向国会提交报告(AARO,2022年)。全球范围内(包括AARO等机构)迫切需要通过改进异常检测与威胁识别方法提升预测能力。问题核心在于:现有技术与有限专业分析人员难以有效识别未明现象,导致空天优势丧失。需开发高效自动决策辅助系统实现异常检测与威胁识别,分析目标威胁以制定明智交战决策。当前威胁识别预测方法无法满足实时高风险决策需求。

B. 研究目标

表征、推理与持续学习是智能人工系统的关键要素。本研究采用多路径方法(聚焦图技术),旨在通过不同数据表征与多种图谱技术测试,探索知识表征与预测推理间的关系,以异常检测支撑识别任务解决DRIP问题。核心目标是理解基于图谱的自动化如何整合知识图谱构建(KGC)与机器学习模型实现增量信息获取,及其对推理预测效能的影响。

C. 研究问题与假设

引入基于图谱的解决方案可提升自动化预测在人机协同中的作用。概率建模技术、图神经网络与聚类算法可应用于图结构数据,此类系统可产生增强模式分析、异常检测与威胁识别的新兴特性。

• 研究问题1:当信息表征以知识图谱形式构建时,机器学习模型能否实现可靠预测?
• 假设1:知识图谱构建(KGC)能提升异常检测的预测能力以支持威胁识别,通过捕捉强弱关联提升预测精度。

• 研究问题2:图结构数据集(知识图谱)能否用于训练机器学习模型,通过增量更新改进人机预测系统?
• 假设2:知识图谱构建(KGC)可利用概率图机器学习从数据中提取信息,创建实体与关系,作为训练数据集对知识图谱实施增量持续更新。

• 研究问题3:当库普曼算子与图技术结合机器学习模型时,能否有效检测并精准预测威胁以支持识别任务?
• 假设3:生成式与基于图的技术可弥补当前技术缺口,使预测结果更具可靠性。

D. 研究目的声明

日益增长的图谱分析与表征研究,或为决策者利用预测评估制定高置信度决策提供新路径。海量作战可用数据需自动化预处理,知识图谱构建与实体抽取自动化至关重要。需理解机器如何利用图谱表征实现知识图谱实体的动态构建与关联预测。本研究旨在证明:在数字化时代数据激增背景下,知识图谱构建与图谱表征支持学习模型持续更新,可有效处理大规模数据。

E. 普适性

有效利用海量数据需深刻理解作战环境,包括识别威胁或目标的潜在可开发行为与异常活动。联合目标选定学员指南将目标定义为"可能需实施打击或其他行动的实体与对象"(美国防部[DoD],2017年)。其他考量因素包括机密情报收集需求、可用通信链路及数据处理能力以实现数据流动与运用。由于这些多样化能力构成复杂互联战场环境的一部分,必须全面捕捉其二元关联。图论技术的应用为管理此能力网络、从海量数据中提取有效信息以优化处理与融合提供了理论基础。

F. 研究框架

本研究通过分析俄罗斯入侵乌克兰相关新闻文章中的暴力事件文本预测潜在威胁。在决策者需及时获取可操作预测信息的情境下,此类能力关乎生死存亡。支撑本研究的各要素模块将在文献综述部分深入剖析。

方法论章节阐述SPARKLE迭代应用框架,展示知识图谱在机器学习增量更新中的重要性,并描述流程输出。后续分析通过模型对比与相似性分析开展预测精度比较评估,在讨论环节提出复杂度测量方法以证明其在异常检测中的表征能力超越传统方案。

G. 研究意义与未来方向

当信息以知识图谱形式结构化时,机器学习模型可实现更可靠预测。知识图谱构建(KGC)通过捕捉强弱关联提升预测精度。图结构数据促进人机预测系统的增量更新,概率图机器学习通过动态提取实体与关系实现持续学习,构建自适应演进的知识图谱。库普曼算子与图谱技术的整合强化威胁识别能力,图相似性度量与模型对比证明SPARKLE框架在复杂模式检测中的预测提升。此概念可扩展至信号分类等其他领域(未来研究部分探讨)。本研究核心贡献在于提出AI驱动的现代威胁分析创新方法。

成为VIP会员查看完整内容
34

Al Agent:AI时代的软件革命。AI Agent是软件革命的关键,解决了生成式AI模型的应用局限,推动AI技术向实用、智能方向发展。1)从技术原理上看,AI Agent由模型、工具和编排层构成,是一种可以自主实现目标的应用;2)从商业化路径看,MCP到Manus,基于类MCP协议的底层数据互通+Agentic-based决策路径定义AI Agent范式,在C端AI Agent更强调通用性和拓展性,按tokens付费更适合;在B端AI Agent更强调任务的完成度和准确性,按结果付费更适合;3)展望未来,类似芯片的“摩尔定律”,AI Agent的任务长度或每7个月翻一倍,最终实现Agent开发Agent的闭环飞轮。   十年未见的“无限战争”:互联网巨头争夺Agent超级入口。AI Agent作为必经之路,互联网巨头同时发力C端与B端已成为行业共识,虽然客户结构有异同,但在战略方针上殊途同归:   1)C端场景下,互联网巨头打造多元化的AI Agent产品,打响围绕入口、流量和平台的争夺战;   2)B端场景下,互联网巨头依托自身生态体系,开拓结果导向的商业模式。   AI Agent打开万亿企业级数字劳动力市场,AI Agent走入千行百业。   1)在企业级市场,AI Agent渗透率快速提升,可通过升级套餐、提升渗透率及单独付费等方式增加企业收入。结合黄仁勋与Salesforce CEO的观点,本质上AI Agent的目标市场就不再是传统的IT预算,而是真人劳动力市场,市场规模可以达到数万亿美元。   2)通用SaaS有望成为AI Agent基础设施,垂类应用也将借助AI实现市场规模倍增,AI Agent在工业、教育、金融、零售、司法等多个行业率先落地。  

成为VIP会员查看完整内容
33

美海军作战部长《导航计划》确立五大核心能力:远程火力;非传统海上拒止;对抗性指挥、控制、计算机、通信、网络、情报、监视、侦察与目标定位(C5ISRT);末端防御;以及对抗性后勤。支撑这些能力的基础是构成"公认信息图景(RIP)"的信息战能力,涵盖电磁频谱、空间态势感知、指挥控制、情报及信息战与海上作战的战术整合。本论文探究"海军战术应用中的公认信息图景为何"。为在不涉密层面达成此目标,采用研究综合法并限定于官方权威政府信息。通过整合200项政府权威信息源,形成理解美国防务知识体系的入门指南,阐释军事作战概念与海军兵力结构,并描述空中、水面/水下战术图景及支撑规划、提升决策、部署资产/传感器、扩展态势感知与破坏对手技术能力的信息图景。最终成果可作为海军初级军官培训框架及情报界强化海上作战态势感知的参考依据。

海上战术图景​​

对美军而言,"全球指挥与控制系统(GCCS)"是指挥控制(C2)与战术通用作战图(COP)的传统项目,其通过单一共享视图提供近实时战场态势感知。GCCS拥有空军、陆军、海军陆战队及海军版本,国防信息系统局(DISA)还开发了联合版本(GCCS-J)[111]。随着联合全域指挥与控制(JADC2)的发展实施,新一代态势感知工具与通用作战图正逐步部署,以支撑JADC2集成架构与联合作战构想(JWC)。陆军指挥、控制与通信-战术(C3T)项目执行办公室的"任务指挥"项目管理部门已列装"指挥所计算环境(CPCE)"作为"聚合工程"组成部分,该环境提供可定制通用作战图套件,实现与联合部队及"五眼联盟"伙伴的战场信息共享[112]。

图. 多域ISR能力

输入通用作战图的信息来自多个来源与多域。在反介入/区域拒止(A2/AD)环境中,战术通用作战图可能仅限于平台固有能力。完整版通用作战图则由建制(平台固有)与非建制(战区、区域与战略级)情报监视侦察(ISR)能力共同支撑。全球ISR系统体系(图20,注:PAI代表公开可用信息,情报界称之为OSINT)整合美军与盟友的军事及情报资源(含平台与传感器),实现"跨多作战域数据、信息与情报的收集、分析与共享"[17]。

图:海战架构

空间能力属于非建制共享战略资源,服务于政府、军方及情报界任务。其支撑全球通信、导弹预警、空间态势感知(SSA)、遥感与天气预报,以及提供信号情报(SIGINT)与地理空间情报(GEOINT)的ISR能力。在打击群作战中,应用"合成作战指挥官(CWC)"原则管理各作战领域传感器与火力能力(图22)。CWC框架下的主要海军作战领域包括:防空与导弹防御(AMD)、信息战(IW)、打击作战(STW)、水面战(SUW)与水下战(USW)。这些作战领域在战术层面实施,兼具战役级功能(图21)[113]。

图:复合作战指挥官组织

防空与导弹防御作战指挥官(ADC/AMDC)负责管理区域空中巡逻(RAP),并通过综合防空与导弹防御(IAMD)应对空中与导弹威胁。水面与水下作战通常由海战指挥官(SCC)统筹,其管理区域海上巡逻(RMP),负责摧毁或压制敌方水面舰艇、商船、潜艇及水雷。信息战指挥官(IWC)管理公认信息图景(RIP),在信息环境开展作战行动,负责战场态势感知、可靠指挥控制与综合火力线协同[113]。现有通用作战图经JADC2集成与联合传感器/数据网络融合大幅增强。由于通用作战图取决于作战区域(AO),海上通用作战图范围限定于海上行动(含部署兵力与作战目标)(图23)。在打击群层级,海上通用作战图范围界定为作战区域(OA),由区域空中巡逻(RAP)、区域海上巡逻(RMP)与公认信息图景(RIP)构成,用于管理监视区、分类识别交战区(CIEA)及要害区域[113]。

成为VIP会员查看完整内容
33

数据已成为现代军事行动决策的基石。随着作战复杂性与节奏的加剧,指挥官与参谋人员必须在日益增长的信息流中导航,做出及时、明智且有效的决策。解读、分析与应用数据的能力,已从专业技术转化为各级领导者的核心技能。本指南旨在为指挥官与参谋人员提供简明数据素养入门,弥合技术专长与作战需求间的鸿沟,助力军事领导者理解如何将数据转化为战略资产。本指南并非旨在培养数据科学家,而是赋予读者与分析师高效协作、自信实施数据驱动决策的基础知识。

本指南重点聚焦数据素养在军事行动独特场景中的实践应用。从情报分析到作战规划,数据在增强态势感知、评估风险与检验战果方面发挥关键作用。通过理解数据基础及其应用潜力,指挥官与参谋人员可解锁获取战场决胜优势的新机遇。各章节内容环环相扣,从基础概念递进至实战应用。读者将学习如何解析多类数据、识别常见误区、有效运用数据工具,并探索在团队内培育数据驱动文化的策略,确保每名士兵都为任务成功贡献力量。

在技术突飞猛进与制信息权主导的时代,驾驭数据的能力已非可选,而是制胜必需。本指南为军事领导者提供起点,助其发展在这个数据驱动格局中蓬勃发展所需的技能、思维与战略。

成为VIP会员查看完整内容
31

超视距空战(BVR)作为现代空战的核心形态,依赖先进雷达、导弹系统与决策支持技术。本文系统综述仿真与机器学习(ML)工具在BVR空战分析中的应用,涵盖方法论、实践场景与技术挑战。研究聚焦机器学习如何赋能自适应战术以提升行为识别与威胁评估能力,从而增强态势感知效能。本文追溯BVR空战的历史演进,解析探测、导弹发射与战后评估等关键交战阶段,重点探讨仿真环境在构建实战化空战场景、支撑飞行员训练及验证AI驱动决策策略中的作用。通过对比前沿仿真工具的多智能体协同与实时适应性研究能力,分析其优势与局限。本综述的核心贡献包括:阐述机器学习在BVR空战中的具体应用、评估仿真工具效能、识别研究缺口并指明未来方向,为传统仿真方法与人工智能在动态对抗环境中融合构建先进人机决策体系提供全景式解析。

超视距空战(BVR)作为现代空战的核心要素,其典型特征为飞行员目视范围外的远程交战。该作战模式高度依赖先进雷达系统、远程导弹与探测跟踪技术,旨在实现目视接触前摧毁敌方目标。随着空战形态演进,BVR交战重要性日益凸显,需创新性方案应对远程对抗挑战。BVR的战略价值在于其能赋予兵力先发制人能力并维持战术优势,但其复杂性要求跨学科技术整合——包括传感器融合、目标跟踪、决策算法与导弹制导系统——以提升交战效能、确保任务成功并增强飞行员态势感知(SA)。

视距内空战(WVR)发生于较短距离,常依赖机动性、速度与瞄准精度进行近距格斗。相比之下,BVR通过先进传感器与远程导弹压制对手。尽管存在差异,BVR可能随战机逼近转为WVR交战,因此需兼备两种域作战能力。

本文全面综述BVR空战前沿方法与技术,聚焦最新进展与战略路径。首先追溯BVR历史沿革,从早期空对空导弹(AAM)系统演进至现代多传感器平台,解析关键技术突破及其对战法的影响。其次剖析BVR交战核心阶段(探测、导弹发射、支援与规避机动),阐释本文所述方法如何提升作战效能。随后评述关键方法论,包括动态环境自适应决策的机器学习(ML)算法与人工智能(AI)在交战及自主战术中的作用,其应用涵盖飞行员决策支持系统至无人机(UAV)作战。最后强调仿真工具在战术开发、飞行员训练与算法验证中的价值,讨论通用与专用平台在复杂作战场景建模中的适用性。

据所知,此为首次针对BVR空战中仿真与ML应用的专题综述。现有空战综述多泛化论述或将BVR作为次要议题。多数远程交战ML研究仅见于论文相关章节,缺乏方法论与应用的系统整合。本文突破既往研究局限,跨多领域文献提供ML与仿真增强决策与交战策略的全景视角,分析现有仿真工具能力边界及适用场景,识别未解挑战与研究缺口,为未来研究指明方向。

本综述核心贡献包括:系统梳理BVR中ML方法体系及其在自主战术决策中的作用;对比仿真工具在实战化场景建模中的能力与局限;揭示ML与仿真技术融合提升战术决策的瓶颈问题;展望研究趋势,提出开放性问题并规划领域发展路径。

超视距空战研究的多维应用

BVR空战研究涵盖自主决策、多智能体协同与飞行员训练等多元领域。本节分类梳理近期进展,聚焦新兴技术与方法如何提升战术效能、适应性与任务成果。

A. 自主决策

自主决策涉及分析、选择与执行可增强态势控制与作战效能的行动。研究提出多种方法支撑该能力,重点探索智能体如何建模战术行为、执行目标推理(GR)并在复杂场景中辅助或替代人类飞行员。

文献[61]提出基于粒计算的战术特征降维方法;文献[15][52]在计算机生成兵力(CGF)与GR框架下研究行为建模,使自主系统能在动态场景中作出适应性战术决策。此类能力支持开发可分担威胁应对或支援机动等任务的自主空战智能体,与人类飞行员形成互补。文献[48]开发了生成战术对抗策略的飞行员辅助系统。

文献[49]提出遗传规划(GP)框架以发掘空战场景中的新型行为模式,赋能更具适应性与不可预测性的战术;文献[50][51]利用文法演化生成自适应CGF与人类行为模型(HBM),提升训练仿真的真实性与适应性。

文献[12]解析无人机空战决策流程,将其划分为态势评估、攻击规划、目标分配与机动决策四阶段;文献[2]基于飞行员知识构建分层框架,将空战拆解为多个子决策系统。

文献[17]综述深度强化学习(DRL)在BVR空战中的应用;文献[57]在高保真空战仿真环境中探索新战术的自主学习;文献[53]开发基于DRL的智能体,通过自博弈模拟战斗机战术并生成新型空战策略,使人类飞行员可与AI训练体交互以提升决策与适应性;文献[58]构建强化学习(RL)环境以实现空战战术自主学习与机动创新。

多篇研究将RL应用于一对一空战场景。例如,文献[54]提出自博弈训练框架以解决长时域交战中的动作控制问题;文献[55]设计基于DRL的决策算法,通过定制化状态-动作空间与自适应奖励函数实现多场景鲁棒性;文献[59]通过改进Q网络使智能体能从优势位置接近对手以优化机动决策;文献[56]提出基于真实武器仿真的DRL智能体构建方法;文献[60]开发混合自博弈DRL智能体,可维持对不同对手的高胜率并提升适应性与性能。

B. 行为识别

行为识别对理解与预测敌方行动、支撑决策与战略规划至关重要。多项研究探索了复杂不确定作战条件下识别与预测敌方行为的方法。

文献[62]提出集成规划与识别算法,证明主动观测收集可加速行为分类;基于案例推理(CBR)框架,文献[63][64][65]开发案例驱动行为识别(CBBR)系统,通过时空特征标注智能体行为,提升GR控制无人机的识别能力;文献[66]结合对手建模与CBR识别敌方编队行为。

针对数据不完整问题,文献[70]提出基于多粒度粗糙集(MGRS)的意图识别方法;文献[68]将Dempster-Shafer理论与深度时序网络融合以优化分类效能;文献[71]采用决策树与门控循环单元(GRU)实现一对一空战状态预测;文献[1]提出基于级联支持向量机(CSVM)与累积特征的分层方法进行多维度目标分类。

为识别战术意图,文献[69]开发注意力增强型群体优化与双向GRU模型(A-TSO-PBiGRU)检测态势变化;文献[67]应用动态贝叶斯网络(DBN)推断飞行状态与战术动作的因果关系,提升编队识别与态势感知能力。

C. 制导与拦截

制导与拦截机制对提升导弹命中率(尤其针对高速机动目标)具有关键作用。

文献[72]通过对比制导策略,识别可最小化拦截时间与机动负载的配置方案,优化不同作战条件下的交战选项;文献[73]通过增强导弹特定攻角命中能力改进高超音速目标拦截效能,优化终段交战条件;文献[74]在无人作战飞行器(UCAV)中采用自主制导技术提升瞄准精度,实现对机动空目标的有效打击。

文献[75]优化导弹飞行中的机动决策以支撑交战规划并提升模拟作战成功率;文献[76]通过动态攻击区(DAZ)概率建模实现实时航迹修正,确保环境不确定性下的打击精度;文献[77]通过协同制导模型提升雷达与导弹协同效能,增强防空体系整体精度。

文献[78]量化数据链质量对导弹效能的仿真影响,揭示更新延迟与误差对导引头激活及整体成功率的作用机制;文献[79]改进双脉冲发动机导弹点火控制与弹道修正技术,强化远程目标拦截能力。

D. 机动规划

机动规划旨在计算运动基元序列以获取战术优势。

该领域早期研究侧重结构化评估与决策模型。文献[80]提出包含态势评估模型、机动决策模型与一对一对抗评估模型的框架;文献[81]基于环境条件、威胁分布、武器性能与空战规则开发战术决策系统;文献[82]整合战术站位与武器能力的多维度要素,探索提升资源分配效能的目标分配(TA)策略。

近期研究聚焦学习驱动方法。文献[83][84][85]应用深度强化学习(DRL)进行机动规划,增强动态场景下的威胁规避与目标打击能力,通过多初始交战条件训练提升智能体适应性;文献[86]采用双延迟深度确定性策略梯度(TD3)算法开发一对一对抗中的自主导弹规避策略;文献[87]基于敌我相对方位与距离设计机动决策方法;文献[88]结合DRL与蒙特卡洛树搜索(MCTS),探索无需先验飞行员知识或价值函数的机动规划路径。

E. 导弹交战

导弹攻防需优化发射时机与机动策略以最大化攻击效能与生存概率。

进攻方面:文献[38]采用监督学习(SL)估算最优导弹发射时机以提升任务效能;文献[89]提出雷达盲区机动控制方法实现隐蔽接敌;文献[92]通过分析导弹捕获区与最小规避距离,确定编队空战协同场景下的最佳发射距离与防御策略。

防御方面:文献[90]为无人作战飞行器(UCAV)设计基于分层多目标进化算法(EA)的自主规避机动策略以提升生存能力;文献[91]将导弹规避问题建模为双团队零和微分博弈,其中一架战机需在远离来袭导弹的同时逼近非攻击性目标。

协同作战领域:文献[93]提出基于武器有效区(WEZ)的协同占位方法;文献[94]解决空对空导弹(AAM)发射后信息盲区难题。

F. 多智能体协同

多智能体协同作战通过自主平台间的协作决策、联合战术执行与响应优化,赋能协同攻击策略、动态编队重构及人机协同等应用场景。

文献[95]将多无人机战术策略应用于空对空对抗分解,将复杂交战拆解为一对一单元案例以提升机动效率与作战成功率;文献[96]将协同站位分配与目标分配(TA)建模为零和博弈,采用混合双Oracle算法与邻域搜索在时限约束下优化解质量。

文献[97]扩展战术战斗管理器功能,构建分布式系统检测跨智能体任务数据差异以强化协同效能;文献[98]通过面向角色的框架推进目标推理(GR)技术,增强通信受限自主智能体的协同能力;文献[99]提出AlphaMosaic架构,将人类反馈整合至作战管理系统(BMS),实现动态任务中基于信任的人机协作。

文献[100]将群体智能适配固定翼无人作战飞行器(UCAV),实现编队飞行、自主重组与战损后动态调整等行为;文献[101]采用集中式AI规划系统协调全态势可观测与可验证的多智能体任务方案;文献[102]通过兵棋推演验证舰队协同行为,优化战术参数以提升均势对抗任务成效。

文献[42]利用仿真评估优化无人机战术编队应对不确定敌方行为;文献[103]提出两阶段协同追击策略,结合诱敌战术与混合A*路径规划提升拦截成功率;文献[104]设计多目标函数与GDT-SOS元启发式驱动的自适应制导方法优化无人机占位效能。

文献[3]通过分层强化学习架构使多智能体团队通过自博弈与场景分解学习高低阶战术;文献[105]将多智能体近端策略优化(PPO)应用于UCAV协同,将领域知识融入奖励函数以提升性能;文献[106]构建基于图神经网络的推理模型,结合专家知识建模复杂协作模式并简化大规模交战决策。

文献[107]采用对抗自博弈与分层策略梯度算法学习超越专家基线的涌现策略;文献[108]在集群机动中应用深度确定性策略梯度,联合学习智能体协作与目标打击;文献[109]融合神经网络与人工势场技术,支持针对自适应对手的协同路径规划。

G. 作战分析

作战分析(OA)通过仿真、模型与评估指标衡量作战效能、支撑战术规划并支持作战决策。

文献[11][40]应用随机博弈模型分析不确定性下的多机对抗,解析超视距(BVR)场景中的协同策略与导弹分配;文献[46][110][111]通过含人类操作员的仿真评估实战条件下飞行员与团队表现,聚焦作战规程遵循度、认知负荷与共享态势感知(SA)。

多项研究构建了面向训练、战术测试与作战规划的仿真平台:文献[8]开发战术级空战仿真系统以支持智能决策;文献[112]设计用于评估巴西空军军事场景的ASA框架;其云端扩展版ASA-SimaaS实现可扩展自主仿真服务[113];AsaPy工具集通过统计与机器学习(ML)方法提供仿真后分析功能[114]。

文献[115]采用体系(SoS)仿真评估飞机设计、平台互操作性及生存性、武器使用等任务级效能指标;参数化研究探究雷达截面积、导弹射程、飞行高度与通信延迟等变量对杀伤概率与整体作战效能等指标的影响[116][120][121];文献[117]通过基于智能体的模型探索行为特征对仿真可信度的影响,增强对称与非对称BVR场景的验证方法。

文献[118]设计双模通信协议以适配协同空战网络条件;文献[119]强调仿真架构的可扩展性与灵活性,提出需构建能管理AI驱动实体与分布式决策流程的多智能体系统;文献[122]开发高动态飞行条件验证环境,评估大机动动作下光电系统性能。

文献[123]建模网络中心战分析传感器、指控系统与火控协同水平对作战效能的影响;文献[124][125][126]分别基于多准则决策(MCDM)、相关向量机与改进极限学习机(ELM)模型提出决策支持工具,为战机性能与战术配置提供量化评估。

H. 飞行员训练

飞行员训练通过先进仿真环境、绩效评估与自适应学习技术提升战备水平与作战效能,旨在强化复杂空战场景中的决策与态势感知(SA)能力。

文献[127]提出的回顾性绩效评估方法为识别改进领域、指导针对性训练调整提供洞见;文献[130]探索行为建模技术以优化高压条件下飞行员决策,增强训练演习真实度。

文献[131]探讨的实况、虚拟与构造(LVC)环境集成方案,通过融合真实与仿真要素构建高拟真沉浸式训练场景,使飞行员体验多样化作战情境以提升环境适应性;文献[129]提出绩效加权系统优化训练成效,确保飞行员高效达成能力基准。

文献[18]综述自适应训练方法学,强调基于飞行员表现的AI驱动个性化内容生成技术进展;文献[10][128]探讨空战行为快速适配与训练仿真验证方法,确保仿真系统精准映射真实作战动态,通过提升响应速度与态势理解能力提供直接影响训练效能的实用工具。

I. 态势感知

态势感知(SA)是理解战术环境(涵盖敌我位置、行动与意图)的核心能力,支撑交战、占位与规避的明智决策,最终提升作战效能与生存概率。

文献[132]探索实时数据处理方法,赋能飞行员高效解析复杂信息;文献[133]将SA扩展至团队层级,验证协同数据共享对任务连贯性与绩效的增益。

威胁评估方面:文献[137][152]解析敌方武器有效区(WEZ)判定方法,为飞行员提供战略规避或对抗的空间感知;文献[141]开发的实时威胁分析工具持续更新态势数据,确保战术动态调整;文献[134][139][135]整合目标意图预测至威胁评估体系,构建战场态势分析与威胁指数系统。

AI驱动SA方法:文献[138][143]应用机器学习(ML)进行威胁检测,加速飞行员威胁预判与响应;文献[136]采用基于蒙特卡罗的概率评估方法优化不确定态势下的风险管理;文献[47]提出基于防御性制空(DCA)作战指标的接战决策支持工具;文献[140]分析深度神经网络(DNN)在WEZ最大射程估算中的应用。

文献[142]利用机载传感器数据与神经网络实时评估击落概率;文献[6]提出对抗条件下机动灵活性估算方法,支撑编队级决策。

J. 目标分配

目标分配(TA)涉及高效配置空对空导弹、防空导弹及战机等资源以压制敌方威胁,需在优化交战效能的同时最小化资源消耗。

多篇研究聚焦提升作战效能的分配方法:文献[146][147][149]探讨动态分配导弹与战机至多目标的多目标分配(MTA)策略;文献[148]提出多友机对多敌机的协同攻击分配方法。

文献[144][150]研究基于任务目标与约束的武器-威胁最优配对算法,以最大化杀伤概率并保存资源;文献[145]引入融合目标优先级与交战时序的改进分配模型;文献[151]探索结合优化技术与实时战术调整的混合方法以应对动态战场。

仿真工具

仿真环境与工具对推进超视距(BVR)空战研究至关重要,其能够建模复杂场景、评估决策算法并优化作战策略。此类工具涵盖通用平台至定制化系统,各具独特功能以应对BVR空战的不同维度。

多数平台通过高层体系结构(HLA)与分布式交互仿真(DIS)等标准支持互操作性,促进跨仿真系统集成与实时同步。本节概述BVR空战研究中常用工具,文末附表格总结核心工具特性、编程语言与互操作能力。

A. AFSIM:仿真、集成与建模高级框架

美国空军研究实验室开发的AFSIM[153]是BVR空战研究中的主流平台,支持灵活建模作战环境、系统集成与任务规划决策流程,常用于认知控制、行为识别与人工智能研究[15][62][63][64][65][66][97][99][101]。AFSIM支持与其他模型集成,实现战略与战术层级的实时交互仿真,赋能作战管理与任务规划研究。该平台非开源,受美国政府法规管控。

B. ASA:空天仿真环境

巴西空军开发的ASA(葡萄牙语Ambiente de Simulação Aeroespacial缩写)[112][113]是基于C++的面向对象仿真框架,专用于复杂空天行动建模,支撑态势感知(SA)、任务规划与作战决策研究[38][42][47][53][114][117][140]。ASA支持机器学习技术与传统仿真融合,优化战术并预测敌方行为,其架构可精细建模任务参数、航空器系统与武器性能。该平台非公开,受巴西政府法规管控。

C. 定制系统

定制系统采用Python、C++或MATLAB开发,专用于商用工具无法满足的研究场景。由于电子战模型、导弹制导与BVR技术多涉密,商用系统难以满足开放性研究对复杂性、安全性与适应性的需求,故定制系统成为主流解决方案[8][11][40][55][56][59][61][67][68][70][72][73][74][76][77][79][81][82][83][84][88][89][92][93][94][95][96][98][103][104][105][108][110][111][116][118][122][123][124][125][126][135][137][139][142][145][147][148][149][151]。此类工具支持快速开发,适用于敏感领域研究。

D. DCS World:数字战斗模拟器世界

DCS World[154]是商业化高保真战斗飞行模拟器,以真实飞行动力学与精细模型著称,广泛应用于决策制定与强化学习(RL)作战研究[54][86]。其开放式架构支持自定义模块开发,赋能研究者模拟动态高烈度BVR空战场景,成为真实作战条件下测试AI驱动智能体的理想平台。

E. FLAMES:灵活分析与建模效能系统

FLAMES[155]是模块化商业仿真框架,支持开发与运行实况-虚拟-构造(LVC)仿真,具备实时可视化、场景管理与作战分析(OA)功能,适用于任务规划与作战模拟[38]。尽管灵活性高,但其商业许可可能限制可访问性,且复杂架构对快速原型开发或资源受限研究构成挑战。

F. FLSC:瑞典空军战斗模拟中心

瑞典国防研究局开发的FLSC整合LVC仿真分析空战场景,用于飞行员训练、任务规划、决策支持研究及人机协作评估[130][131]。其功能特性可增强联合作战中的态势感知(SA)与决策能力。FLSC由瑞典国防研究院(FOI)运营,访问受限,但国防项目研究者可通过合作渠道申请使用。

G. JSBSim

JSBSim[156]是开源飞行动力学模型,广泛应用于需高精度航空器仿真的强化学习BVR研究,支持决策制定、机动优化与作战接战等任务[3][6][58][60][138][143]。常与Unity(IAGSim)及定制环境集成,构建计算高效的动态场景自主决策仿真。

MATLAB[157]与Simulink[158]广泛用于仿真、控制理论与优化研究。MATLAB数学能力支撑决策与作战研究[1][50][51][69][75][78][80][90][91][102][109][120][121][141][146][150];Simulink通过图形化动态系统建模工具扩展功能,适用于控制策略开发。

I. Python与R

Python是开发仿真环境与机器学习(ML)模型的核心工具,借助TensorFlow[159]、PyTorch[160]等库支持任务规划、强化学习实施与优化[71][85][100][136],其灵活性赋能快速原型开发及跨平台集成研究。R语言偶尔用于空战数据分析与仿真相关统计建模[140]。

J. 其他工具

以下工具亦支持超视距(BVR)空战研究:

ACE-2:定制化仿真器,用于测试空战机动中的遗传优化技术[49]。
ACEM:实况-虚拟-构造(LVC)仿真环境,用于空战中人类表现分析[46]。
FTD (F/A-18C):F/A-18C飞行训练设备,用于高保真模拟飞行员行为、协同与训练场景[127][129][133]。
IAGSim (Unity + JSBSim):结合JSBSim飞行动力学与Unity实时渲染的定制仿真器,专为自主空战研究设计[2]。
MACE[161]:现代空战环境(MACE),可扩展分布式仿真平台,用于作战分析(OA)与战术空战场景测试[115]。
NLR四机编队模拟器:荷兰航空航天中心(NLR)开发的仿真器,用于多机对抗中的飞行员训练与人机交互研究[128]。
STAGE:快速生成空战场景的框架,适用于人工智能(AI)与强化学习(RL)训练[10]。
Super Decisions:集成层次分析法(AHP)与网络分析法(ANP)的决策支持软件,用于空战威胁排序与任务规划[134]。
UnBBayes-MEBN:基于多实体贝叶斯网络(MEBN)的概率推理框架,应用于不确定条件下的态势感知与决策[132]。
WESS:自适应战术决策仿真工具,用于动态作战行为建模[50][51]。
Wukong:强化学习(RL)驱动的多智能体战术决策平台,专为BVR场景设计[57][106][107]。
X-Plane[162]:高保真商业飞行模拟器,用于自主行为验证与作战规划[48]。

K. 工具总览

表2汇总了核心工具、主要应用场景、功能特性、编程语言及互操作能力。该表涵盖本文分析的120项研究中的116项,其余4项为未使用具体工具的综述类研究。各列信息如下:
• 仿真工具:工具或框架名称

• 核心功能:与BVR空战研究相关的主要特性

• 编程语言:开发或定制化使用的主要语言/平台

• 互操作性:支持标准仿真协议(如HLA、DIS)、定制接口或无相关信息

• 引用文献:使用该工具的研究编号

开放挑战与未来趋势

尽管强化学习(RL)等先进技术在空战决策领域取得显著进展,仍存在诸多开放挑战,为未来研究提供机遇。

  • 场景复杂性
    当前方法(如NFSP RL与DQR驱动的DRL)多基于简化的一对一对抗验证[54][84]。需将其扩展至反映真实空战复杂性的多智能体环境。基于DDPG的集群策略与H3E分层方法等框架为应对此挑战指明方向[2][108]。此外,目标分配(TA)、探测与制导研究多假设雷达、战机及通信节点同质化[118][144][148][149][163][164][165],未来需探索异质化模型以更精准刻画现实系统复杂性。

  • 全观测假设局限
    MCTS、PPO与CSVM等方法常假设环境全观测,忽略雷达目标搜索等关键要素[1][88][166]。BVR场景中KAERS等技术通过处理部分可观测性提升模型鲁棒性与实战适用性,具备借鉴价值[57]。

  • 计算强度制约
    MCTS等方法虽有效但计算耗时[88],需优化连续动作空间处理并提升计算效率以适配实时应用。基于TD3算法优化导弹攻防决策的近期研究展现进展[86]。

  • 初始条件敏感性
    课程学习与IQN方法在不利初始配置下表现欠佳[59][167]。基于GP的演化行为树(BT)等自适应学习率与鲁棒课程设计可缓解敏感性并增强泛化能力[49]。

  • 可扩展性与实时适应性
    多智能体方法(如MAPPO)与分层框架(如H3E)在动态大规模环境中面临可扩展性挑战[2][105]。需开发高效方法应对协同场景,如目标分配研究所示[96][146]。

  • 不确定性整合不足
    博弈论、贝叶斯网络(BN)与监督学习(SL)等方法多假设确定性环境[1][76],融入随机要素与不确定性可提升模型对复杂空战的现实刻画能力。

  • 多样化场景验证缺失
    SAE网络战术认知模型与DRL集群模型多在静态环境验证[108][141],需扩展至动态高维场景(如实时决策与多变作战条件)。基于ANN与粒计算的协同空战研究为此提供范例[61][151]。

  • 跨学科融合需求
    强化学习(RL)、深度学习(DL)与控制理论结合可显著增强BVR决策模型。分层RL与行为树(BT)等技术为协调高层战术与底层机动提供可扩展框架[48][61],此类方法有望催生更鲁棒、可解释的模型。

  • 训练效率优化
    遗传规划(GP)虽在策略优化中潜力显著,但低维问题处理与计算开销仍存挑战。课程式RL与敌方意图识别技术可提升学习效率与决策能力[54]。

  • 实战化应用瓶颈
    先进方法需通过高保真仿真验证实战适用性。与军事及航空机构合作可弥合研究与部署鸿沟,集群策略与协同无人作战飞行器(UCAV)研究已体现仿真验证价值[105][108]。

  • 仿真工具未来趋势
    随着BVR场景复杂度攀升,仿真工具需沿以下方向演进:
    • 高保真多智能体仿真:在AFSIM、ASA、DCS World与FLSC等平台支持大规模集群协同与实时高保真仿真。

• 增强互操作性:通过HLA与DIS标准实现有人机、无人机及导弹等异构系统仿真集成。

• AI/ML深度整合:嵌入自适应智能体实现实时任务规划与决策[105]。

• 计算效能提升:优化仿真架构以应对复杂度增长,支撑实时动态适配。

突破上述挑战将推动开发复杂、可扩展且自适应的BVR决策模型,为高动态对抗空战环境中的自主系统奠定基础。

成为VIP会员查看完整内容
29

本文研究2022年2月24日至2024年9月30日期间俄乌战争空战形态的演变。本研究主要采纳美国、英国等空军官员及专家的观点,通过审阅乌克兰国防大学资料确认战局各方面发展脉络,并视需要整合多方媒体报道。如后文详述所示,俄乌两军围绕"制空权"的争夺是理解这场战争的重要视角,本文即基于该视角探讨空战发展进程。

成为VIP会员查看完整内容
30

1.我们认为2025年是Agent元年:AI正从L2(推理者)向L3(Agent/智能体)进化,标志着AI从“思考”走向“行动”。这一转变由四大驱动力促成:①技术成熟度达到临界点:强大的多模态基础模型(能理解视觉信息如GUI界面)和成熟的强化学习训练方法已准备就绪。②标杆产品   的出现:行业领导者(如OpenAI,Google,Anthropic)推出了关键产品(如Operator,DeepResearch),基准测试(如RE-Bench)显示顶尖Agent   在特定任务上的效率已可匹敌甚至超越人类专家。③MCP协议的普及将促进Agent生态的互联互通。④市场需求驱动:经历了大模型能力竞赛(2023年)和初步应用探索(2024年)后,市场(尤其是B端)迫切需要AI能够落地解决复杂业务问题、自动化多步骤流程,并带来显著的生产力提升,Agent的出现恰好满足了这一需求。   2.为什么要关注Agent?我们认为其重要性在于:①深度自动化:Agent具有深度自动化、指数级效率提升和成本优化潜力,将人类从重复性劳动中解放出来,聚焦更高价值的创造性工作。②通往AGI:Agent(L3)是通往通用人工智能(AGI)和具身智能的关键环节。③重塑互联网入口:Agent可能改变用户获取信息和完成任务的方式,挑战传统搜索引擎,并可能使操作系统、浏览器或“超级App”成为新的核心入口。我们预计入口级通用Agent的竞争将在2025年下半年开启。   3.Agent的竞争格局是“巨头环伺,新锐突破”:①巨头环伺:大型科技平台(OpenAI,Google,微软;国内BAT、字节、华为等)凭借模型、数据、算力、生态优势主导通用Agent和平台生态的构建。②垂直机会:垂直领域凭借深度领域知识和工作流整合仍有创新机会,但长期面临通用Agent能力提升的威胁。初期AI应用价值高度依赖模型能力,但简单的“浅层套壳”产品(即Wrapper)缺乏壁垒,易被颠覆。真正的护城河在于复杂工作流的可靠编排、高质量工具集成能力和深度领域知识。

成为VIP会员查看完整内容
32

带时空约束的联盟形成问题(CFSTP)旨在刻画任务分配与联盟形成的交叉场景。该模型中,数十个异构智能体部署于数公里区域执行数千项任务(每项任务具有截止时间与工作量)。为最大化任务完成量,智能体需通过组建、解散与重组联盟实现协作。本论文首先深入分析前瞻性联盟形成算法(CFLA)——当前最先进的CFSTP算法,揭示其核心局限,进而提出扩展版本CFLA2。研究表明CFLA2无法完全消除CFLA缺陷,因此开发新型算法"基于集群的任务调度"(CTS),首次实现即时性、高效性与收敛性保障的统一。实证验证CTS相较CFLA与CFLA2的优越性,并提出简化并行版本S-CTS。在RoboCup救援仿真生成的任务场景中,S-CTS性能媲美高性能二进制最大和(Binary Max-Sum)与分布式随机算法(DSA),同时速度提升两个数量级。随后,提出CFSTP最小化数学规划模型,将其简化为动态分布式约束优化问题,并设计CTS分布式版本D-CTS。构建模拟消防员调度的测试框架,验证D-CTS在大规模动态环境中的有效性。最后,针对"任务解决越快、效益越大"场景,提出"多智能体联盟路由调度问题"(MARSC)——涵盖CFSTP与带时间窗团队定向问题(TOPTW)的通用模型。建立二进制整数规划模型,提出首创新型算法"任意时精准并行节点遍历"(ANT),该算法同时适用于MARSC与CFSTP。此外定义近似变体ANT-ε。基于扩展版CTS与实时系统常用"最早截止期优先"技术,在本土化测试框架中验证两类算法性能。

章节概要
第二章 针对1.3节界定领域综述多智能体联盟形成任务分配研究,目标有二:详述研究领域选择依据;论证现有模型虽接近研究目标,但无法全面满足,从而引出第六章MARSC提案。
第三章 奠定后续章节理论基础:CFSTP的约束规划模型、CFLA算法及原始混合整数规划模型。
第四章 提出CFLA改进算法CFLA2;设计新型最优CFSTP算法CTS;定义并行变体S-CTS;基于RoboCup救援仿真对比评估CTS、Binary MaxSum与DSA算法性能。
第五章 构建CFSTP最小二进制整数规划模型并简化为DynDCOP形式;设计CTS分布式版本D-CTS;基于伦敦消防队记录的大规模真实场景测试框架进行实证评估。
第六章 构建适用于实时领域的通用模型MARSC(涵盖CFSTP与TOPTW);设计首个任意时精准并行MARSC算法ANT及其近似变体ANT-ε。
结论 总结研究优势与局限,提出未来研究方向清单。

成为VIP会员查看完整内容
31

本文聚焦机器欺骗研究,系人工智能领域首个关于如何构建欺骗能力机器的完整计算理论框架。论文探讨人工智能、哲学与心理学领域内有限的欺骗相关研究,从两个方向切入机器欺骗问题:其一为多智能体系统(MAS)中的智能体认知建模视角,该视角支持对人工智能体潜在欺骗机制及类人心智推理进行工程化与形式化建模;其二为多智能体系统中智能体行为的演化视角,揭示欺骗如何破坏人机混合社会中基于知识交换的协作稳定性,同时论证适当社会互动机制可重建协作。本文提出人工智能领域的六项贡献:1)计算欺骗的概念基础;2)建模与实现具备他者心智建模能力的实践推理智能体的新方法;3)基于三大欺骗性沟通理论的多智能体系统欺骗性智能体形式化建模新方法;4)基于Jason智能体导向编程语言的模型实现步骤详解;5)混合社会智能体知识共享演化公共品博弈中欺骗建模与评估新方法;6)面向情报分析的欺骗多智能体系统框架提案。本论文指明三大未来研究方向:模型优化、欺骗分析多智能体工具开发,以及可对话智能机器构建。

第一部分为引言与文献综述,包含两章:
• 第1章(本章)介绍研究主题与问题;
• 第2章梳理相关文献,为研究问题提供理论框架。

第二部分为理论基础,含两章:
• 第3章提出机器欺骗分类体系及其计算形式;
• 第4章阐述多智能体系统中心智理论的智能体通信机制,包括操作语义与实现。

第三部分探讨欺骗复杂推理机制构建,含两章:
• 第5章区分三类非诚实行为及其实现;
• 第6章提出基于信念-愿望-意图的多智能体欺骗推理机制,结合人际动态不确定条件下的心智理论,详述操作语义与实现。

第四部分分析欺骗机器的深层影响,含两章:
• 第7章构建知识共享演化公共品博弈模型及其欺骗机制设计,评估欺骗的时变演化及其对不同治理社会的影响;
• 第8章评估论文贡献,探讨机器欺骗研究的总体方法论。

第9章总结研究成果并展望未来方向。附录详述第7章模型组件。

成为VIP会员查看完整内容
29

本研究聚焦人工智能(AI)对南亚军事战略的影响,重点关注拥核国家印度与巴基斯坦。从传统威慑向人工智能驱动军事行动的转型正威胁区域安全。研究核心目标包括:探讨现代战争领域中新兴人工智能技术的本质特征,评估在人工智能技术领域内,印巴两国现行国防趋势的全球联盟关系。随着双方持续推进人工智能军事化进程,两国关系急剧恶化。

本研究采用定性研究方法,对军事人员、政策制定者及相关领域专家进行访谈。研究发现,每位受访者均对现代战争中人工智能的角色提出独特见解。尽管受访者提供的信息量、对特定关系的关注度及对区域地缘政治问题的认知存在差异,但普遍论及人工智能领域的全球联盟关系。所有反馈均通过强调当前技术进展、伦理考量与潜在阻碍,深化了关于人工智能融入现代作战复杂影响的现有研究体系。人工智能对印巴军事动态的影响引发激烈争论,焦点集中于外国势力介入程度、伦理争议及区域国家安全等争议性议题。

成为VIP会员查看完整内容
27

摘要—近年来,多模态理解模型与图像生成模型均取得了显著进展。尽管各自取得了成功,但这两个领域的发展相对独立,形成了各自不同的架构范式:多模态理解领域主要采用自回归架构,而扩散模型已成为图像生成的核心技术。近年来,越来越多的研究开始探索将这两个任务融合到统一框架中的可能性。GPT-4o 的新能力正是这种趋势的体现,显示出统一建模的巨大潜力。然而,这两个领域在架构上的差异带来了重大挑战。为了全面梳理当前在统一建模方向上的研究进展,我们开展了一项系统综述,旨在为未来研究提供指导。首先,我们介绍了多模态理解与文本到图像生成模型的基础概念与最新进展。接着,我们对现有的统一模型进行了分类综述,归纳为三种主要的架构范式:基于扩散的模型、基于自回归的模型,以及融合了自回归与扩散机制的混合方法。对于每一类模型,我们分析了其结构设计及相关工作的创新点。此外,我们整理了适用于统一模型的公开数据集与评测基准,为后续研究提供资源支持。最后,我们讨论了该新兴领域面临的关键挑战,包括符号化策略、跨模态注意力机制及数据问题。由于该领域仍处于早期阶段,我们预计将迅速发展,并计划定期更新本综述。我们的目标是激发更多研究灵感,并为研究社区提供有价值的参考。本文所引用的文献将很快在 GitHub 上公开。

关键词—统一多模态模型,多模态理解,图像生成,自回归模型,扩散模型

1 引言

近年来,大语言模型(LLMs)的快速发展(如 LLaMa [1], [2],盘古 [3], [4],Qwen [5], [6],以及 GPT [7])正在彻底变革人工智能领域。这些模型在规模和能力上持续扩展,实现了在多个应用场景中的突破性进展。与此同时,LLMs 正在向多模态领域拓展,催生了诸如 LLaVa [8]、Qwen-VL [9], [10]、InternVL [11]、Ovis [12] 和 GPT-4 [13] 等强大的多模态理解模型。这些模型的能力已从简单的图像描述扩展到能够基于用户指令执行复杂推理任务。 另一方面,图像生成技术也在迅速发展,诸如 SD 系列 [14], [15] 和 FLUX [16] 的模型如今能够生成高度符合用户提示的高质量图像。在架构范式上,大语言模型和多模态理解模型普遍采用基于自回归(autoregressive)的生成方式 [17],这类模型通常采用纯解码器结构,并通过下一个 token 的预测来生成文本序列。相比之下,文本生成图像的领域则沿着另一条路径演进:早期以生成对抗网络(GANs)[18] 为主,近年来逐渐被基于扩散的模型 [19] 所取代,这些模型通常结合 UNet [14] 和 DiT [20], [21] 等架构,以及 CLIP [22] 和 T5 [23] 等先进文本编码器。尽管也有研究尝试将 LLM 风格的架构应用于图像生成任务 [24], [25], [26],但在当前的性能表现上,基于扩散的模型仍是主流。 尽管自回归模型在图像生成质量上落后于扩散方法,但它们与 LLMs 架构上的一致性,使其在构建统一的多模态系统方面具有天然优势。一个能够同时理解与生成多模态内容的统一模型具有巨大的潜力:它可以根据复杂指令生成图像,推理视觉信息,并通过生成的内容展示多模态分析结果。GPT-4o 于 2025 年 3 月发布的增强能力 [27] 更进一步凸显了这一潜力,引发了研究界对统一建模的广泛兴趣。 然而,设计这样的统一框架面临诸多挑战。这需要将自回归模型在推理和文本生成方面的优势,与扩散模型在高质量图像合成方面的能力进行有效融合。其中一个核心问题是如何为自回归生成过程有效地进行图像 token 化。一些方法 [28], [29], [30] 借鉴了扩散模型中常用的 VAE [31] 或 VQ-GAN [32],或其变体;另一些则采用了语义编码器,如 EVA-CLIP [36] 和 OpenAI-CLIP [22] [33], [34], [35]。此外,虽然离散 token 是自回归模型处理文本的标准表示方式,但一些新兴研究 [25] 提出,对于图像内容,连续表示可能更为合适。除了 token 化策略之外,结合并行扩散过程与顺序自回归生成机制的混合架构 [37], [38], [39],也为实现统一建模提供了另一种有前景的思路。因此,无论是图像 token 化技术还是架构设计,目前都仍处于初步探索阶段。 为了全面概述当前统一多模态模型的发展现状(如图1所示),并为未来研究提供支持,我们在本文中开展了系统性的综述。我们首先介绍多模态理解与图像生成的基础概念与最新进展,涵盖自回归和扩散两种范式。随后,我们对已有的统一模型进行分类综述,分为三大类:基于扩散的、基于自回归的,以及融合两者机制的混合方法。在自回归和混合方法两类中,我们进一步根据图像 token 化策略对模型进行细分,反映该领域方法的多样性。 除架构之外,我们还整理了适用于训练与评估统一多模态模型的数据集和基准,涵盖多模态理解、文本生成图像、图像编辑等任务,为未来研究提供资源支持。最后,我们讨论该新兴领域面临的关键挑战,包括高效的 token 化策略、数据构建、模型评估等。这些问题的解决对于推动统一多模态模型的能力提升与规模化应用至关重要。 目前,已有多篇优秀综述聚焦于大语言模型 [40], [41]、多模态理解 [42], [43], [44] 以及图像生成 [45], [46]。而本工作专注于理解与生成任务的融合建模方向。我们鼓励读者参考这些补充性综述,以获取更广阔的视野。我们的目标是激发该快速发展领域的进一步研究,并为研究社区提供有价值的参考资料。本文所涉及的引用、数据集与基准将很快在 GitHub 上发布,并将持续更新以反映最新进展。

2.1 多模态理解模型

多模态理解模型指的是基于大语言模型(LLMs)的架构,能够处理多模态输入,执行推理任务,并生成相应输出的模型 [47]。这类模型将 LLM 在文本生成与推理方面的能力扩展至更广泛的信息模态,实现了丰富的语义理解 [42], [48]。现有方法的主要研究集中于视觉-语言理解(Vision-Language Understanding, VLU),即融合视觉(如图像与视频)与文本输入,以支持对空间关系、对象、场景和抽象概念等更全面的理解 [49], [50], [51]。图 2 展示了多模态理解模型的典型架构。 这类模型在混合输入空间中运行,其中文本数据以离散形式表示,而视觉信号则通过连续表示进行编码 [52]。与传统 LLM 类似,其输出以离散 token 的形式生成,通常采用基于分类的语言建模方式以及特定任务的解码策略 [8], [53]。 早期的 VLU 模型主要采用双编码器架构(dual-encoder),将图像与文本分别编码后,在对齐的潜在表示空间中联合进行推理,如 CLIP [22]、ViLBERT [54]、VisualBERT [55] 与 UNITER [56]。尽管这些先驱模型奠定了多模态推理的基础原理,但它们高度依赖区域级的视觉预处理以及独立编码器,限制了模型的可扩展性与通用性。 随着强大 LLM 的出现,VLU 模型逐渐过渡到纯解码器架构,采用冻结或仅轻微微调的语言模型主干。这些方法通常通过结构化的连接器将图像嵌入投射到语言模型的 token 空间中,如图 2 所示。例如,MiniGPT-4 [57] 使用单层可学习的线性映射,将 CLIP 提取的图像嵌入映射到 Vicuna [58] 的 token 空间;BLIP-2 [53] 提出了查询变换器(querying transformer),用于连接冻结的视觉编码器与冻结的 LLM(如 Flan-T5 [59] 或 Vicuna),在大幅减少可训练参数的同时,实现高效的视觉-语言对齐;Flamingo [60] 则引入门控跨模态注意力层(gated cross-attention),连接预训练的视觉编码器与冻结的 Chinchilla [61] 解码器。 近年来,VLU 的发展趋势正朝向更通用的多模态理解演进。GPT-4V [62] 将 GPT-4 框架扩展至图像输入分析,展示了出色的视觉推理、图像描述与多模态对话能力,尽管其具体机制仍为专有。Gemini [63] 构建在纯解码器架构之上,支持图像、视频与音频等多种模态,其中 Ultra 版本在多模态推理任务中创下新基准。Qwen 系列展示了可扩展的多模态设计:Qwen-VL [5] 引入视觉感知模块与语义对齐模块,Qwen2-VL [9] 则进一步加入动态分辨率处理机制与 M-RoPE,用于适应多样输入。LLaVA-1.5 [64] 与 LLaVA-Next [65] 均结合了 CLIP 视觉编码器与 Vicuna 风格的 LLM,在视觉问答(VQA)和指令跟随任务中取得优异性能。 InternVL 系列 [11], [66], [67] 探索了统一的多模态预训练策略,采用文本与图像的联合学习机制,在多项视觉-语言任务中显著提升表现。Ovis [12] 则通过可学习的视觉嵌入查找表引入结构化嵌入对齐机制,使视觉嵌入在结构上模拟文本 token。近期也有模型探索可扩展、统一的多模态架构,例如 DeepSeek-VL2 [68] 采用专家混合架构(Mixture-of-Experts, MoE)以增强跨模态推理能力。 总体而言,这些模型展现出向指令调优(instruction-tuned)和 token 为中心(token-centric)架构的明确转变,具备处理多样多模态任务的统一性与可扩展性。

成为VIP会员查看完整内容
29

摘要:当前,作战仿真想定智能化生成已成为提高作战仿真效率的迫切需求。近年来,大语言模型 在语义理解、推理问答、文本生成等任务上表现出色,为作战仿真想定智能化生成带来了新方法和 新路径。为了给作战仿真想定智能化生成研究提供理论借鉴,针对基于大语言模型的作战仿真想定 智能化生成方法进行系统综述,首先从作战仿真想定的基本内容入手,分析了现今主流想定生成方 法的缺点不足,讨论了如何利用大语言模型解决相关问题;其次梳理了基于大语言模型的作战仿真 想定智能化生成范式以及关键支撑技术的研究现状;最后结合大语言模型热点和作战仿真需求,对 作战仿真想定智能化生成的研究前景进行展望。 关键词:大语言模型;作战仿真想定;智能化生成;检索增强生成;信息抽取

成为VIP会员查看完整内容
27

摘 要 自主无人系统是一类具有自主感知和决策能力的智能系统, 在国防安全、航空航天、高性能机器人等方面有着广 泛的应用. 近年来, 基于 Transformer 架构的各类大模型快速革新, 极大地推动了自主无人系统的发展. 目前, 自主无人系 统正迎来一场以“具身智能”为核心的新一代技术革命. 大模型需要借助无人系统的物理实体来实现“具身化”, 无人系统可 以利用大模型技术来实现“智能化”. 本文阐述具身智能自主无人系统的发展现状, 详细探讨包含大模型驱动的多模态感知、 面向具身任务的推理与决策、基于动态交互的机器人学习与控制、三维场景具身模拟器等具身智能领域的关键技术. 最后, 指出目前具身智能无人系统所面临的挑战, 并展望未来的研究方向.

关键词 自主无人系统, 具身智能, 大语言模型,

人工智能具身智能的核心内涵是要求系统具备完整的自 主环境感知与认知能力、流畅的人机交互能力、可 靠的智能决策和运动操纵规划能力[1] , 能够通过与 环境的交互实现能力的泛化和对新场景的适应[2] . 具身智能的发展可以追溯到 20 世纪中期, Wiener[3] 提出的系统自我调节理念, 以及 Turing[4] 提出 的智能需要通过环境交互才能涌现的观点, 均强调 了智能系统与物理世界互动的重要性, 为具身智能 的发展提供了关键指导. 随着新一轮科技革命和产业变革的到来, 自主 无人系统逐渐成为具身智能技术的主要载体和应用 平台, 在国防军事、城市治理、精准医疗等多个领域 发挥着不可替代的重要作用[5−7] . 在俄乌军事冲突 中, 俄罗斯将“柳叶刀”无人机投入战场, 作为打击 装甲车辆和火炮系统的重要武器. 截至 2024 年 2 月 28 日, 俄军使用搭载高爆弹头的“柳叶刀”无人机进行了 1 163 次攻击, 共摧毁了 363 个目标, 并严 重破坏了 615 个目标, 这使得“柳叶刀”无人机成为 俄军中最有效率的精确制导武器之一. 与此同时, 反无人机系统的发展也在加速, 成为保护军事和民 用设施免受无人机威胁的关键手段[8] . 2023 年美国 研制生产了“模块化监视侦察反无人机系统” (亦称 “吸血鬼”系统). 该系统可安装在地面机动平台或固 定地点, 主要探测装置为球状光电模块化传感器和 激光指示器, 能够快速识别并拦截多种类型的无人 机, 确保在复杂环境中的有效防御[9] . 自主无人系统 已经成为提升综合国力的重要技术支撑[10−12] . 目前, 自主无人系统正迈入以“具身智能”为核 心的新一代技术革命阶段[13−14] . 传统的面向特定任 务、封闭场景的无人系统设计思路已不能满足社会 生产与军事应用的需求. 相比之下, 面向开放交互 环境的具身智能无人系统成为了未来的发展趋势[15] . 非结构化、未知、动态、开放的任务环境要求自主无 人系统具有自主学习能力, 可以在与环境交互中提 取有效信息, 实时调整和优化自身行为策略. 近年来, 基于 Transformer 架构的各类大模型快速革新[16−19] , 使得无人系统不仅可以准确理解自然语言指令、视 觉图像以及连续传感器状态等感知信息, 还能驱动 系统完成与开放环境的交互, 这极大地推动了无人 系统具身智能的发展. 在大语言模型的驱动下, 新一代具身智能无人系统的发展具有如下特征: 1) 在 应用场景上, 从封闭单一任务场景向开放任务场景 发展; 2) 在适用范围上, 从特定单一任务向通用任 务发展; 3) 在系统设计理念上, 从孤立的感知、控制、 决策模块向大模型驱动的各模块深度融合发展 (见 图 1). 本文内容安排如下: 第 1 节介绍具身智能无人 系统的发展现状, 概述近年来的重要成果; 第 2 节 针对具身智能无人系统的关键技术展开论述; 第 3 节综述具身智能无人系统两项典型的研究任务; 第 4 节展望具身智能无人系统的未来研究方向; 第 5 节总结全文.

成为VIP会员查看完整内容
26

大型语言模型时代的协作式人工智能智能体

构建能够可靠代表人类执行任务的智能体,是人工智能(AI)领域的核心目标之一。为了实现这一目标,智能体不仅需要能够灵活地与工具(如搜索引擎和数据库)交互,还必须具备协作能力。 本论文系统地研究了在大型语言模型(LLM)时代支持智能体开发所需的抽象机制、方法论和基础设施。全文分为四个部分,分别阐述如下: 第一部分探讨了以目标为导向的协作场景,其中至少一个组成部分基于LLM。为了使LLM组件能够有效与其他组件协同工作,尤其是在通过API暴露的传统软件系统中,它必须遵循预定义的接口规范,并引导协作朝着高效目标推进。我们表明,LLM的解码算法可作为一种无需更改底层模型的高效策略,既能遵循接口,又能实现智能协作。 第二部分面向LLM能力不足、又缺乏有效训练信号的协作场景。为解决此类问题,我们提出了一个新的原则:利用结构不对称性进行合成数据生成,并展示了即使在LLM本身无法直接解决任务的前提下,该方法也能生成有用的数据。我们还将该方法与LLM自我改进机制的代表性研究建立了联系,凸显了该策略的通用性。 第三部分探讨了多个AI系统、工具与人类之间的协作。我们提出了一种新的抽象框架,并配套开发了一个支持并发和模块化的库,构建起理论与实践相结合的基础设施,能够系统地建模、实现和研究任意复杂的结构化交互。为验证该框架的潜力,我们应用其系统地研究了复杂协作在解决编程竞赛问题中的优势。 第四部分提出了一个名为**语义解码(semantic decoding)**的新视角,用以系统分析结构化交互的设计空间。该部分以对未来研究方向的讨论收尾,特别聚焦于在前三部分工作基础上,语义解码视角所引发的研究机遇与关键问题。


关键词:人工智能智能体、大型语言模型、合成数据生成、解码算法、Transformer、自然语言处理、人工智能

成为VIP会员查看完整内容
25

自2021年4-5月危机以来,人工智能(AI)在以色列对巴勒斯坦军事行动中持续发挥关键作用。这场因东耶路撒冷紧张局势引发的冲突持续11天,最终在埃及斡旋下停火。在"城墙卫士"行动期间,以色列国防军情报部队高级军官宣称"人工智能是打击敌人的关键力量倍增器"。以军表示,通过使用"Habsora"系统(希伯来语意为"福音"),首月即打击"超1500个恐怖目标"。

相较之下,在2023年10月7日哈马斯与巴勒斯坦伊斯兰圣战组织(PIJ)发动恐袭后爆发的加沙冲突前35天,以方宣布打击目标超过15,000个。轰炸量级的显著提升源于大规模报复行动的特殊背景。无论是否使用AI,破坏程度或许相当;但因无法对比平行现实,难以断言。但可明确的是,加沙地带打击行动呈现AI目标确定系统使用激增的特征。"福音"系统将目标生成能力提升至每天100个(传统人工分析年均约50个)。2024年4月,独立调查媒体《+972杂志》披露"薰衣草"与"爸爸在哪"两套AI系统也在目标自动选择与地理定位中起核心作用。

AI在加沙的应用遭到媒体、非政府组织及联合国专家的强烈批评。以军声明中,情报高官辩称该系统实现"对敌精确打击与非战斗人员最小附带损伤"。但精确性承诺与现实形成反差——AI使用导致重大平民伤亡。截至2024年12月16日,加沙当局统计死亡人数超45,000人。

决策自动化的伦理拷问
面对大规模破坏、平民伤亡与哈马斯在换俘过程中的武力展示,为何以军仍将AI目标锁定视为作战优势,尽管其引发决策自动化的重大伦理争议?

本文通过三阶段分析:首先解析以军三套AI系统原理及其滥用问题;其次探讨人类控制缺失与决策过程条件化的伦理困境;最后论及巴勒斯坦致联合国文书中强调的"有意义的人类控制"与"名义上的人类介入"概念区分的必要性。

成为VIP会员查看完整内容
25

序贯决策制定是机器学习应用中的自然模型,学习者需实时进行在线决策,并通过序列数据学习以优化未来决策。经典研究聚焦于两类问题变体:基于随机或对抗性数据分布的场景,以及基于学习者可获得的部分或完整反馈的设定。随着大型在线市场的兴起,序贯学习方法日益应用于复杂多智能体系统,其中智能体可能采取策略性行为以实现自身目标。这为序贯决策问题增添了新维度——学习者须考量战略智能体的行为模式(这些智能体可能试图引导其未来决策以符合自身利益)。本论文旨在从双重视角设计有效的在线决策算法:一是面向需在战略智能体与有限反馈环境中学习的系统设计者;二是寻求优化自身目标的战略智能体。

第一部分聚焦重复拍卖场景,设计拍卖方能在战略竞拍者存在下有效学习的机制,并反向探讨智能体如何在重复拍卖中竞价或实施数据投毒攻击以最大化自身收益。第二部分研究反馈获取成本高昂的在线学习场景,提出受主动学习技术启发的算法——通过将少量信息量更高的样本提前处理,使学习者在仅对极少量数据点查询反馈的情况下,达到与最优在线算法相当的决策性能。第三部分针对随机多臂老虎机问题提出新学习目标,旨在促进个体与群体基于能力的公平机会分配。

成为VIP会员查看完整内容
24

AI for Science的定义:AI for Science(科学智能)是指利用人工智能技术和方法来加速科学研究和发现的过程。它通过数据驱动的科学发现,利用大数据和机器学习技术挖掘隐藏在海量数据中的模式和规律。   模型驱动:模型驱动的科学研究范式结合了传统的理论方法和现代计算技术,使得科学家能够在没有实际实验的情况下探索复杂系统的特性和行为。   数据驱动:数据驱动的科学研究范式充分利用了大数据的力量和先进的分析技术,使科学家能够在没有深入理论背景的情况下探索复杂系统的行为。   范式变迁过程:科学范式的变迁是一个渐进的过程,每一步都基于前一步的技术和方法论的发展。从直接观察到理论构建,再到计算模拟和数据挖掘,最后到AI辅助的科学研究,每一次转变都推动了科学技术的进步。   发展历程:AI for Science的发展是一个持续的过程,从最初的初步探索到现在的广泛应用,未来还将向着深度融合的方向发展。随着AI技术的不断进步,AI for Science有望成为推动科学研究和发现新知识的强大工具。

成为VIP会员查看完整内容
25
Top
微信扫码咨询专知VIP会员