本研究探讨人工智能(AI)在决策过程中不断演变的角色,聚焦AI赋能技术如何与人类决策者互动及其影响。AI系统正加速融入商业管理至信息系统等各行业,或辅助或替代人类判断。现有文献强调AI融入生活与工作带来的变革潜力与挑战:以ChatGPT为代表的大语言模型凭借数据驱动洞察、效率提升与决策一致性等优势被广泛应用,但研究亦揭示需深入理解的领域——AI复制或放大人类偏见的风险、自主决策的伦理影响、人机交互的复杂性。尽管AI辅助、增强或替代人类决策已获广泛关注,但通过提示工程与情境应用赋予AI的角色如何影响决策结果、行为模式与建议生成,学界仍缺乏深入探索。

本论文包含四项研究,探讨角色定义与目标设定对AI决策行为的影响,揭示精确定义AI角色如何在不同情境中塑造决策结果与人类决策流程。

研究1 通过系统性文献综述,论证机器学习与AI工具(如ChatGPT)结合提升文献分析效率与深度的有效性。研究识别AI整合关键领域,揭示研究空白,指出高影响力期刊与主题,为未来研究绘制路线图。该研究强调跨学科方法对全面理解与发挥AI潜力、应对伦理复杂性的重要性。

研究2 采用"人在回路"(HITL)框架分析AI赋能招聘流程,通过某国际招聘公司18个月质性案例研究,揭示AI工具、招聘专员与寻源分析师协作塑造招聘结果的合作模式。研究表明:AI系统实施需平衡效率与伦理及人本考量,人类判断、监督与适应力不可或缺;组织领导力、方案适应性与人类自主权是成功关键要素。

研究3 通过系列实验探究AI系统(以ChatGPT为例)被赋予的角色如何影响信息系统(IS)语境下的决策结果。研究发现:当ChatGPT被赋予人类角色时,其决策行为高度复现人类偏见;而作为AI角色时则表现出更高一致性与客观性。研究揭示提示工程对引导AI系统符合预期决策流程的重要性——无论是模拟人类判断还是提升决策客观效率。

研究4 探索AI系统中的"算法厌恶"现象,测试GPT类模型在不同版本与温度参数下对人工建议与算法输入的响应差异。研究发现:GPT模型表现出类似人类的算法厌恶倾向,更偏好人工建议,但其表现形式与人类存在差异。该研究将算法厌恶概念扩展至AI系统,强调理解AI如何处理人机建议对设计决策支持系统的重要性,确保AI既能独立运作又能与人类协作。

总体贡献

本研究在四方面深化对AI决策角色的理解:

  1. 方法论创新:引入结合AI工具与机器学习的计算文献综述方法,识别商业管理领域趋势、空白与高影响力期刊;
  2. 人机协作洞见:通过招聘案例实证HITL原则,强调人类赋权、自主权与持续适应对有效协作的关键作用;
  3. 角色效应验证:证明大语言模型角色设定显著影响决策行为——模拟人类角色时复现偏见,AI角色时更趋理性;
  4. 理论边界拓展:将算法厌恶延伸至AI系统,揭示AI对人机建议的差异化处理机制。

综上,这些研究为理解AI与人类决策者动态互动提供洞见,强调情境与角色设定对优化AI决策贡献的重要性,为未来探索AI融入更复杂重大决策场景奠定基础。

表1.1 研究综述

研究编号 研究重点 研究路径、理论基础与方法论 主要发现 理论贡献 实践贡献
研究1 商业与管理学者如何应对AI在组织中的兴起?研究热点与空白领域为何? 采用结构化主题建模与机器学习方法进行系统性文献综述(CLR),结合ChatGPT辅助分析 - 识别44个AI研究热点(如客户营销、AI伦理)
- 揭示体育、应急响应与智慧城市等领域的空白
提出"计算文献综述"方法论,结合AI工具提升文献分析效率 指导研究者锁定高影响力期刊,优化文献检索路径
研究2 AI赋能的招聘决策中如何平衡效率与伦理?人在回路(HITL)原则如何应用? 对国际招聘机构开展18个月质性案例研究,基于社会技术系统理论与HITL框架 - 发现协作型HITL配置模式
- 揭示行政负担加重、权力重构等挑战
拓展HITL理论在AI招聘场景的应用 提出AI招聘实施指南:强效领导力、系统适应性与人本考量
研究3 ChatGPT在信息系统中多大程度能复现人类决策行为?角色设定如何影响决策输出? 通过提示工程实验,测试ChatGPT在不同角色设定(人类/AI)下的决策行为 - 人类角色设定下复现决策偏见
- AI角色设定下展现更高客观性
提出"角色中心决策框架",揭示大语言模型角色工程对决策的影响机制 为提示工程提供设计准则,优化AI决策支持系统的角色配置策略
研究4 AI系统是否存在算法厌恶?GPT模型对人类建议与算法输入的响应差异如何? 复现经典算法厌恶实验范式,测试GPT不同版本(3.5/4.0)在多种温度参数下对建议来源的偏好 - GPT表现出类人算法厌恶倾向
- 对人工建议的偏好强度与温度参数呈负相关
首次将算法厌恶理论拓展至AI系统,建立"元算法厌恶"概念 为AI协同决策系统设计提供新视角,优化人机建议权重分配机制

成为VIP会员查看完整内容
51

随着基于大语言模型的商用产品取得显著进展,人工智能(AI)议题在公共讨论中持续升温。随着AI能力的发展,人们对其经济与安全影响的担忧日益加剧。本报告通过实证预测算法进步的方向、速度与指标,为政策制定提供参考。作者阐释了AI算法改进的可能路径,并探讨各路径进展的潜在影响。通过研究数值分析、运筹学与计算机科学领域的算法,界定了新算法引入的实证机制及改进定义方式。

作者指出推动AI系统近期发展的两大关键驱动力:允许广泛改进的新型合成数据生成方法,以及具备更高数据效率的替代架构。若无此类改进,小型模型可能主导市场。若仅实现单一路径突破,小型模型或成主流,但大型模型仍有存在价值。若双路径均获进展,大型模型可能提供更具实用价值的能力。

主要发现

算法改进存在两条潜在高影响力路径:

  1. 通过生成合成数据或修剪现有数据,构建更适配AI训练的数据集以改进算法。
  2. 开发数据效率更高的算法(相比Transformer模型计算成本更低或单次迭代效率更优)。

这些路径可能催生三种AI发展情景:

  • 若数据限制成为瓶颈:当额外数据不可获取导致模型无法有效扩展时,小型专用AI系统可能主导市场。
  • 若算法扩展失败:当通过合成生成获取额外数据但新算法无法有效提取性能增益时,大型模型研发或持续,但小型系统仍占主流。
  • 若算法持续进步:当数据充裕且算法能高效利用时,更大规模模型将在近期AI研究中占据重要地位。

成为VIP会员查看完整内容
46

大型语言模型(LLMs)的指数式增长不断凸显出高效策略以应对日益扩大的计算与数据需求的重要性。本综述对两种互补范式——知识蒸馏(KD)与数据集蒸馏(DD)——进行了全面分析,这两种方法旨在在压缩 LLMs 的同时,保留其先进的推理能力和语言多样性。 我们首先回顾了知识蒸馏中的关键方法,包括任务特定对齐、基于推理过程的训练(rationale-based training)以及多教师框架;同时也探讨了数据集蒸馏技术,如基于优化的梯度匹配、潜空间正则化和生成式合成,以便构建紧凑且高效的数据集。在此基础上,我们进一步探讨了如何融合 KD 与 DD,以实现更高效、更具扩展性的压缩策略。这些方法共同应对了模型可扩展性、架构异质性以及 LLM 新兴能力保持等持续性挑战。

此外,我们强调了蒸馏技术在医疗、教育等领域的应用,这些技术使得高效部署成为可能,同时不牺牲性能。尽管已有大量进展,但仍存在一些开放性挑战,例如:如何在压缩过程中保持新兴推理能力和语言多样性,如何高效适应持续演变的教师模型与数据集,以及如何建立全面的评估协议。 通过综合方法创新、理论基础和实践洞见,本综述为通过更加紧密整合 KD 和 DD 原则,实现可持续、资源高效的大型语言模型,描绘了一条清晰的发展路径。 关键词:大型语言模型、知识蒸馏、数据集蒸馏、效率、模型压缩、综述

1 引言

大型语言模型(LLMs)的出现,如 GPT-4(Brown 等,2020)、DeepSeek(Guo 等,2025)和 LLaMA(Touvron 等,2023),彻底改变了自然语言处理领域,使得翻译、推理和文本生成等任务的能力达到了前所未有的水平。尽管取得了这些里程碑式的成就,但与此同时,也带来了实际部署中显著的挑战。首先,LLMs 需要极其庞大的计算资源,通常需要数千 GPU 小时用于训练和推理,这导致了高能耗和显著的环境成本。其次,它们对大规模训练数据集的依赖引发了数据效率、质量和可持续性的担忧,随着公共语料库的过度使用,保持数据的多样性和高质量变得愈加困难(Hadi 等,2023)。此外,LLMs 展现出诸如链式推理(chain-of-thought reasoning,Wei 等,2022)等新兴能力,而在较小模型中复制这些能力则非常具有挑战性,需要复杂的知识迁移技术。 为了应对这些挑战,蒸馏(distillation)作为一项关键策略应运而生,结合了知识蒸馏(Knowledge Distillation,KD)(Hinton 等,2015)与数据集蒸馏(Dataset Distillation,DD)(Wang 等,2018),以同时解决模型压缩和数据效率问题。尤其重要的是,在 LLM 场景中,KD 的成功极大地依赖于 DD 技术,后者能够通过紧凑且信息丰富的合成数据集来提炼和传递教师模型(teacher LLMs)中的复杂知识。 知识蒸馏(KD)通过对齐输出或中间表示,从大型预训练教师模型向较小、高效的学生模型传递知识。尽管在中等规模教师模型中 KD 效果显著,但在面对 LLMs 的庞大规模时,传统 KD 方法遇到了挑战,因为知识分布在数十亿参数和复杂注意力模式中。此外,知识不仅限于输出分布或中间表示,还包括更高阶的能力,如推理能力和复杂问题求解能力(Wilkins 和 Rodriguez,2024;Zhao 等,2023;Latif 等,2024)。 数据集蒸馏(DD)旨在将大型训练数据集压缩成保留必要信息的紧凑型合成数据集。近期研究表明,DD 能显著降低 LLM 训练所需的计算成本,同时维持性能。例如,DD 能将数百万训练样本浓缩成数百个合成示例,并保留特定任务的知识(Cazenavette 等,2022;Maekawa 等,2024)。在 LLM 场景下,DD 成为 KD 的重要辅助,它能识别高度影响力的训练示例,反映教师模型的推理过程,从而引导学生模型高效学习,同时避免对冗余数据的过拟合(Sorscher 等,2022)。 LLMs 的规模引发了双重挑战:一是对不可持续大规模数据集的依赖(Hadi 等,2023),二是新兴能力(如链式推理(Wei 等,2022))的精准迁移需求。这些挑战促使研究者必须在 KD 和 DD 上双管齐下。虽然 KD 通过知识迁移实现模型压缩,但传统 KD 无法单独解决数据效率危机:训练新一代 LLMs 时使用冗余或低质量数据只会带来收益递减现象(Albalak 等,2024)。DD 则通过构建紧凑且高保真度的数据集(例如,稀有推理模式(Li 等,2024))来补充 KD 的不足,正如 LIMA 项目所展示的,1,000 个示例便能达到教师级别性能(Zhou 等,2023)。这种协同利用了 KD 在表征迁移上的优势与 DD 在生成任务特定数据上的能力,共同解决了隐私保护、计算负载和数据稀缺问题,使得小型模型在保持蒸馏效率的同时,也能保留大模型的重要能力。 本综述系统梳理了适用于 LLMs 的 KD 与 DD 技术,并进一步探讨了二者的融合。传统 KD 将教师模型的知识迁移至学生模型,但面对现代 LLMs 的前所未有规模,捕捉新兴能力及保留深层知识成为重大挑战。DD 通过合成小规模、高影响力的数据集,保留了语言、语义及推理多样性,有效辅助了 KD。本综述以独立的 KD 与 DD 技术进展为基础,同时深入探讨了它们结合后对模型压缩、训练效率及资源感知部署带来的潜力。 随后各章节将围绕以下关键方面展开: * 第 2 节:KD 与 DD 的基础知识,区分它们在压缩 LLMs 和优化训练效率方面的角色; * 第 3 节:LLMs 中 KD 的方法学,包括基于推理过程的蒸馏(rationale-based distillation)、不确定性感知方法、多教师框架、动态/自适应策略以及任务特定蒸馏,并回顾相关理论研究以深入理解 KD 的基本原理; * 第 4 节:LLMs 中 DD 的方法学,涵盖基于优化的数据集蒸馏、合成数据生成和辅助的数据选择策略; * 第 5 节:KD 与 DD 的整合,介绍结合 KD 与 DD 策略的统一框架以提升 LLMs; * 第 6 节:评估指标,关注蒸馏在 LLMs 中的性能保持、计算效率和鲁棒性; * 第 7 节:跨医疗健康、教育、生物信息学等领域的应用示例,展示蒸馏技术在真实场景中的实用价值; * 第 8 节:挑战与未来方向,识别需要改进的关键领域。

本综述的知识结构分类见图 1 所示。

成为VIP会员查看完整内容
40

一、人工智能大模型发展趋势解析   (一)全球人工智能行业大模型发展趋势分析研判   当前,全球人工智能行业大模型发展呈现出多维度显著趋势。在技术层面,多模态融合持续深入,从早期单一模态向融合文本、图像、声音等多形式的多模态大模型转变,未来将实现更深度的模态信息融合与自由交互。依托强化学习等前沿技术,模型推理能力得以逐步提升,并通过硬件单新与算法创新,训练成本降低且效率大幅提高,有力推动大模型走向普及。模型小型化与端侧部署成为趋势,结合边缘计算与设备智能化,端侧大模型与云端协同形成端云融合架构,在智能驾驶等领域发挥关键作用。此外,长文本上下文处理能力也在不断增强,能够处理更长内容并精准把握语义逻辑,拓宽了大模型在知识管理等领域的应用空间。与此同时,智能体应用逐渐兴起,遂步成为未来发展的关键方向

成为VIP会员查看完整内容
33

摘要:当前,作战仿真想定智能化生成已成为提高作战仿真效率的迫切需求。近年来,大语言模型在语义理解、推理问答、文本生成等任务上表现出色,为作战仿真想定智能化生成带来了新方法和新路径。为了给作战仿真想定智能化生成研究提供理论借鉴,针对基于大语言模型的作战仿真想定智能化生成方法进行系统综述,首先从作战仿真想定的基本内容入手,分析了现今主流想定生成方法的缺点不足,讨论了如何利用大语言模型解决相关问题;其次梳理了基于大语言模型的作战仿真想定智能化生成范式以及关键支撑技术的研究现状;最后结合大语言模型热点和作战仿真需求,对作战仿真想定智能化生成的研究前景进行展望。 关键词: 大语言模型;作战仿真想定;智能化生成;检索增强生成;信息抽取;

成为VIP会员查看完整内容
38

摘要——大语言模型(Large Language Models)与自主AI智能体(Autonomous AI Agents)发展迅速,催生了多样化的评估基准、框架和协作协议。然而,该领域仍较为碎片化,缺乏统一的分类体系与全面的综述。因此,本文对2019年至2025年间构建的评估这些模型与智能体的多个领域的基准进行了并列比较。此外,我们提出了一个包含约60项基准的分类体系,涵盖通用与学术知识推理、数学问题求解、代码生成与软件工程、事实依据与信息检索、领域特定评估、多模态与具身任务、任务编排以及交互式评估等方面。 我们还综述了2023年至2025年间提出的AI智能体框架,这些框架通过将大语言模型与模块化工具包集成,实现了自主决策与多步推理能力。进一步地,我们展示了自主AI智能体在材料科学、生物医学研究、学术创意生成、软件工程、合成数据生成、化学推理、数学问题求解、地理信息系统、多媒体、医疗健康与金融等多个真实应用场景中的实际应用。接着,我们综述了关键的智能体间协作协议,包括Agent Communication Protocol(ACP)、Model Context Protocol(MCP)以及Agent-to-Agent Protocol(A2A)。最后,我们针对未来研究提出建议,重点关注高级推理策略、多智能体大语言模型系统中的失败模式、自动化科学发现、基于强化学习的动态工具集成、集成搜索能力以及智能体协议中的安全漏洞。

关键词:大语言模型,自主AI智能体,Agentic AI,推理,评估基准

一、引言

大语言模型(Large Language Models, LLMs),如 OpenAI 的 GPT-4 [1]、Qwen2.5-Omni [2]、DeepSeek-R1 [3] 和 Meta 的 LLaMA [4],通过实现类人文本生成和高级自然语言处理,极大地推动了人工智能的发展,促进了对话智能体、自动内容创作和实时翻译等应用的创新 [5]。近年来的进展进一步扩展了其在多模态任务中的应用,包括文本生成图像和视频,从而拓宽了生成式人工智能的应用边界 [6]。然而,这些模型对静态预训练数据的依赖可能导致输出内容过时或产生虚构信息 [7][8]。为应对这一问题,检索增强生成(Retrieval-Augmented Generation, RAG)通过引入来自知识库、API 或网页的实时数据,提升了生成结果的时效性与准确性 [9][10]。 在此基础上,结合反思、规划与多智能体协作的智能体系统不断演进,催生了“Agentic RAG”系统,这类系统可动态编排信息检索与迭代优化,从而高效处理复杂任务流程 [11][12]。 近年来的大语言模型进步为高度自主的人工智能系统铺平了道路,这些系统可独立完成复杂的科研任务。通常被称为“Agentic AI”的系统能够提出假设、执行文献综述、设计实验、分析数据,从而加速科学发现并降低研究成本 [13][14][15][16]。一系列框架如 LitSearch、ResearchArena 和 Agent Laboratory 被开发出来,以实现科研任务的自动化,包括引用管理与学术综述生成 [17][18][19]。尽管如此,执行领域特定的文献综述及确保自动化流程的可复现性与可靠性仍面临诸多挑战 [20][21]。 在科研自动化发展的同时,基于大语言模型的智能体也开始变革医疗领域 [22]。通过集成临床指南、医学知识库与医疗系统,这些智能体被广泛应用于诊断辅助、患者沟通与医学教育。然而,这些应用仍面临重大挑战,如可靠性、可复现性、伦理治理与安全性等问题 [23][24][25]。解决这些问题对于确保基于LLM的智能体能够有效且负责任地纳入临床实践至关重要,也凸显了建立可靠评估框架以衡量其在不同医疗任务中性能的必要性 [26][27][28]。

基于LLM的智能体正成为人工智能发展的新前沿,能够结合推理与执行,处理复杂的数字环境 [29][30]。因此,研究者提出了多种方法以增强此类智能体,例如通过 React [31] 与蒙特卡洛树搜索(Monte Carlo Tree Search)[32]等方法结合推理与行动,或采用 Learn-by-Interact [33] 等技术生成高质量数据,以规避状态可逆性等假设。其他策略还包括使用人类标注或GPT-4蒸馏数据进行训练,如 AgentGen [34] 与 AgentTuning [35],以生成任务轨迹数据。同时,强化学习方法结合离线算法和基于奖励模型的迭代优化,在真实环境中提升系统的效率与性能 [36][37]。 基于LLM的多智能体系统通过多个专用智能体的集体智能,超越了单智能体系统的能力,能够在模拟复杂现实环境中执行协作规划、讨论与决策。这一方法充分发挥了LLM在沟通与专业知识方面的优势,使不同智能体能够像人类团队一样有效协作,解决复杂问题 [38][39]。近期研究已展示其在多个领域的广泛应用,包括软件开发 [40][41]、多机器人系统 [42][43]、社会模拟 [44]、政策模拟 [45] 和游戏模拟 [46]。 本文的主要贡献如下:

我们提供了2019年至2025年间构建的、涵盖多个领域的大语言模型与自主AI智能体评估基准的比较表; * 我们提出了一个包含约60项基准的分类体系,涵盖通用与学术知识推理、数学问题求解、代码生成与软件工程、事实依据与信息检索、领域特定评估、多模态与具身任务、任务编排、交互式与智能体评估等方向; * 我们整理了2023年至2025年间提出的主流AI智能体框架,这些框架通过模块化工具包集成LLM,实现了自主决策与多步推理; * 我们展示了自主AI智能体在材料科学、生物医学研究、学术创意生成、软件工程、合成数据生成、化学推理、数学问题求解、地理信息系统、多媒体、医疗健康与金融等多个领域的应用; * 我们综述了智能体之间的协作协议,包括Agent Communication Protocol(ACP)、Model Context Protocol(MCP)以及Agent-to-Agent Protocol(A2A); * 我们提出了未来在自主AI智能体研究中的重点方向,包括高级推理策略、多智能体LLM系统中的失败模式、自动科学发现、基于强化学习的动态工具集成、集成搜索能力与智能体协议中的安全漏洞。

图1展示了本综述的结构安排。第二节介绍相关工作;第三节以表格形式比较当前LLM与Agentic AI的前沿评估基准;第四节系统回顾AI智能体框架、应用、协议与训练数据集;第五节聚焦关键研究方向;第六节为全文总结。

成为VIP会员查看完整内容
35

众多系统需在分布式智能体间分配任务,并要求各参与者优化有限资源以高效完成任务。在智能体数量少、环境稳定的场景中,存在搜索最优任务与资源分配的算法。此类系统可通过集中式策略规划与智能体协调实现优化。但在智能体数量庞大或环境高度动态、不确定的复杂场景中,传统方案效能下降。现实系统(如无线传感器网络、智慧城市车辆协同、无人机集群编队)往往兼具复杂性与环境扰动敏感性。本论文针对动态多智能体系统的任务与资源分配挑战做出贡献,开发可扩展的去中心化算法——基于智能体局部知识优化任务与资源分配,提升系统在真实场景中的效用。我们通过三项递进式创新解决该问题:首先开发基于强化学习的任务分配算法(根据任务完成质量优化分配,并基于历史绩效动态调整探索策略);其次提出资源分配算法(通过强化学习评估任务价值,优化有限资源在受托任务中的配置);最终整合前两项成果形成动态环境下的综合解决方案,并增强其对通信中断、恶劣天气等扰动的鲁棒性。通过代表性系统仿真验证各模块性能,并以海洋环境监测系统为案例评估整体方案。

为实现研究目标,我们分步研究并整合解决方案:

贡献1:任务分配算法
提出四类协同算法,使智能体通过强化学习优化任务分配策略,并根据经验动态调整系统探索程度。算法支持智能体评估他者任务执行能力、分配任务,并基于当前认知与能力探索需求采取行动。

贡献2:资源分配算法
引入结合时间维度资源需求函数近似与强化学习的资源优化算法,适用于共享资源竞争与任务优先级排序场景。

贡献3:层次化多目标任务与资源分配综合算法
开发整合前两项贡献的算法,适应动态系统中智能体构成与能力变化,解决多竞争目标优化难题,并支持智能体自组织角色分工。

三项贡献共同应对1.3节所述挑战,达成1.2节定义的研究目标。

论文结构
第一部分:概述多智能体系统相关概念、理论与既有成果。
第二部分:详述核心研究内容、算法设计及海洋监测案例评估。
第三部分:总结成果、展望未来研究方向与应用潜力。

章节安排
• 第2章:解析多智能体系统核心概念、运作环境与分布式系统应用。

• 第3-5章:分别探讨任务分配难题(第3章)、有限资源优先级分配(第4章)、多智能体强化学习应用及现实挑战(第5章)。

• 第6章:剖析分布式智能体系统组织结构、特征与自组织行为。

• 第7章:以无线传感器网络(特别是海洋监测案例)贯穿概念阐释。

• 第8章:形式化定义智能体系统,确立任务与资源分配问题框架。

• 第9章:聚焦任务分配算法开发。

• 第10章:设计任务优先级驱动的资源分配算法。

• 第11章:整合任务与资源分配方案,实现1.2节全局问题求解,并增强智能体间协同自组织能力。

• 第12章:基于海洋环境传感器网络的案例研究(恶劣动态环境中验证算法可靠性)。

• 第13章:总结研究成果与目标达成度,探讨应用场景及未来扩展方向。

图1.3:智能体系统中的任务分配。智能体𝐴持续接收类型𝑇的任务集(需执行类型𝑋与𝑌的子任务)。首幅图示中,其将𝑋类任务分配给最优智能体𝐵,但将𝑌类任务分配给非最优智能体𝐶。次幅图示显示𝐴通过学习确认𝐷为𝑌类任务最优执行者,遂调整邻居关系(剔除𝐶并纳入𝐷)。

图1.4:多智能体系统中的行动优化。两图展示智能体学习优化行动以响应任务请求的进程。首幅图中,𝐴将𝑋类子任务分配给𝐵、𝑌类分配给𝐷,但𝐵与𝐷均未优化资源配置以优先处理对应任务。次幅图中,𝐵与𝐷通过资源重配置分别优化执行𝑋与𝑌类任务的价值(针对𝐴的需求)。

图1.5:多智能体系统中的邻居关系。首幅图中,𝐴将𝑋类任务分配给未优化的𝐵,而专精𝑋类任务的𝐷虽存在却不在𝐴的邻居范围内。处于𝐴邻居范围的𝐶虽无法直接执行𝑋类任务,但可连接至𝐷。次幅图示显示𝐶通过学习承担任务中继角色,使𝐴间接扩展邻居范围至𝐷,实现𝑋类任务的最优执行。

成为VIP会员查看完整内容
31

在过去的几十年里,人工智能(AI)在“特定能力”(即封闭世界,如人工环境或特定现实任务)上取得了诸多成功。这种定义明确的狭窄能力带来了两个显著优势:一是有清晰的成功标准,二是有机会收集大量示例数据。成功标准不仅可以判断机器是否完成了目标,还能揭示机器未达成目标的具体原因。因此,人类设计者可以逐一修复问题,直到机器在特定任务上表现得足够好。进一步来说,大量收集的示例数据也降低了修复问题的难度(依据中心极限定理)。

那么,封闭世界中的成功能否迁移到广阔的开放世界呢?在开放世界中,机器需要以更少的示例和更少的人类先验知识(如图灵测试所要求)完成任何人类可能执行的任务。答案是否定的。因为在特定任务中获得的能力对处理其他任务几乎没有帮助,针对特定任务制定的有价值标准在面对更广泛、未知的任务时也无能为力。此外,由于在未知任务中缺乏充足的示例数据,中心极限定理无法为我们提供支持。最终,人类设计者也失去了“调试仪”,无法通过不断修补来“破解”开放世界中的 AI 系统。 要实现面向开放世界的 AI,需要不同于构建封闭世界 AI 的独特学习原则和创新技术。本论文探索了构建开放世界 AI 所需的重要学习原则,包括丰富特征(类比为一套庞大的工具箱)、解耦表示(类比为一套井然有序的工具箱)以及推理时学习(类比为一只灵活运用工具的手)。在这些学习原则的指导下,论文进一步提出了利用这些原则的创新方法,并进行了大量大规模实验以验证这些学习原则的有效性。 关键词—— 开放世界 AI、丰富特征、预测性解耦、推理时学习、分布外问题、上下文学习、基于记忆的模型、记忆拼图(v2)。

成为VIP会员查看完整内容
32

随着军队面向日益复杂与技术驱动的未来,人工智能(AI)的整合正迅速成为其作战战略的核心要素。AI技术有望从后勤供应链到决策制定与战斗行动的各个环节带来变革。然而,与任何新兴技术类似,其整合过程充满挑战。理解AI技术的发展轨迹对于评估其潜在影响至关重要,而"Gartner技术成熟度曲线"等模型将成为研判未来技术演进的重要工具。

AI整合评估框架

Gartner技术成熟度曲线是追踪新兴技术成熟度、应用采纳与社会影响力的模型,包含五个阶段:技术萌芽期、膨胀预期的顶峰、幻灭低谷、复苏爬升期与生产力平稳期。该模型帮助组织判断技术发展阶段,并制定实验、扩展或实战整合的适配策略。

对军事而言,AI技术目前处于技术萌芽期向膨胀预期顶峰的过渡阶段。尽管对AI潜力的热情高涨,该技术仍处于实验与早期应用阶段。这意味着在将AI整合至兵力设计规划时,必须审慎评估其优势与局限。美军《兵力设计2030》作为海军陆战队未来兵力结构与作战能力的战略蓝图,AI在转型中的角色具有重要地位。通过明确AI在Gartner曲线中的定位,可更有效规划未来5年、10年与15年的发展路径,确保AI成为其作战体系与未来战备的组成部分。

未来五年(2025-2030):AI整合关键期

《兵力设计2030》是美海军陆战队未来十年的转型路线图。至2030年,AI将在后勤、决策与作战策略等关键领域实现实质性应用。未来五年的重点在于将AI系统整合至低风险、高回报场景——尤其是人力成本高企与重复任务密集的领域。

后勤与供应链自动化突破

未来五年,将在后勤与供应链自动化领域取得重大进展。鉴于其全球部署带来的巨大后勤压力,AI驱动系统(如自动驾驶载具、预测性维护系统与需求预测算法)将优化供应链管理。AI可监测装备损耗并预测维护需求,减少停机时间并保障战备状态。无人机与机器人运输队还可在高危环境中执行物资投送,在提升效率的同时降低人员风险。

AI增强作战决策

至2030年,陆战队将依赖AI分析海量作战数据以支持战场指挥官决策。AI可处理卫星影像、传感器数据与人工情报,提供实时战场洞察,加速指挥官决策速度与精度。尽管对机器驱动的分析与建议的信任度需逐步建立,但通过渐进式整合,AI将深度嵌入战术行动与战略规划的决策流程。

自主系统战力升级

AI驱动的自主系统(包括无人机与无人地面载具)将在侦察监视与战术行动中发挥更大作用。至2030年,将部署可在对抗环境中运行的AI自主平台集群,强化侦察效能、获取拒止环境情报并提供实时战场态势感知。这些系统的开发需确保与现有指挥控制体系的互操作性,并整合至当前兵力结构中。

海军陆战队与AI:未来十年(2030-2035)

至2035年,人工智能将在陆战队实现深度整合与广泛作战部署。部队将跨越初期应用阶段,进入大规模AI实施期,重点提升作战效率、精度与适应性。

人工智能在作战策略与执行中的作用将更加突出。届时,陆战队将配备具备动态自主任务规划能力的AI系统。这些系统可整合实时情报数据,基于战场态势变化自主生成战术策略。机器学习算法将实现自适应灵活作战策略,使部队对威胁变化的响应更敏捷。此外,AI驱动系统将强化目标识别能力,减少附带损伤并提升打击精度。

随着战争数字化程度加深,网络安全对维持AI系统作战完整性至关重要。至2035年,陆战队或采用AI实施攻防一体的网络安全措施。AI算法将协助探测漏洞、防御网络攻击甚至自主发起反制。此类整合需建立严格伦理框架与监管机制,规避意外后果并防范敌方对AI系统的操控。

基于AI的训练系统将显著提升陆战队员战备水平与技能熟练度。至2035年,AI驱动的模拟训练与虚拟环境将提供个性化训练体验。系统可根据个体学习进度与需求自适应调整,提供高拟真度作战场景模拟。AI还可评估训练表现、提供反馈与定向技能强化,确保部队持续保持应对未来挑战的敏捷性。

海军陆战队与AI:未来十五年(2035-2040)

至2040年,人工智能将全面融入陆战队作战与战略框架,成为从训练到实战、后勤等所有任务环节的无缝化组成部分。

未来十五年内,AI将发展为指挥控制系统的核心要素。至2040年,可预见具备自主管理与协调大规模作战能力的AI指挥控制系统。这些系统能在人类指挥官指导下实时评估战场态势、执行复杂任务并调配资源,大幅缩短决策周期并提升作战效率,助力部队更快速精准达成目标。

从无人机到机器士兵的自主作战平台或成为前线行动主力。至2040年,AI驱动的作战单元将被整合至高风险环境(如高对抗区域或高强度作战)中,作为力量倍增器维持战略优势。

随着AI深度嵌入军事体系,人机交互与自主作战伦理问题将凸显。海军陆战队需在2040年前制定明确的AI作战使用政策,确保其应用符合部队价值观与伦理标准。陆战队员与AI系统的协同信任关系,将成为技术成功的关键要素。

结语

未来5年、10年与15年,AI整合将革新陆战队的作战效能、效率与战略决策能力。尽管AI技术将经历Gartner技术成熟度曲线的各个阶段,但至2040年其必将成为部队不可或缺的装备。从优化后勤到增强战斗力,AI将在塑造陆战队未来中发挥关键作用,确保其准备好应对日益复杂和对抗性世界的挑战。兵力设计2030作为转型路线图,为打造更具适应性与技术先进性的部队确定指南。

成为VIP会员查看完整内容
34

2023年,美国空军宣布计划采购自主无人协同作战飞机(CCA)机队,作为有人战机飞行员的"忠诚僚机"。空军提议以现役F-35价格的零头采购约1000架CCA,但强调库存与成本目标可能随需求调整。据空军称,CCA机队通过"经济可承受规模"(即适中成本与较大库存组合),将提升美军在与中国冲突中的作战效能——通过增强有人战机的性能,使其在装备CCA的情况下降低战损率并更多击毁空中威胁。

将前沿感知、空对空打击与电子战列为CCA的预期任务,并视其为未来自主无人协同平台生态系统的一部分(该系统还将执行机动、训练等任务)。CCA研发隶属于"下一代空中优势"(NGAD)项目,该项目同时包含空军第六代有人战斗机。CCA纳入NGAD框架,体现出空军将其定位为有人战机的互补力量(尤其是战斗机)。

CCA标志着无人机系统(UAS)发展进入新阶段。虽然无人机长期具备航路自主飞行等基础自主能力,但空军期望CCA能在高强度对抗中执行更为复杂的任务。

相较于传统无人机,CCA的差异化特征在于其自主协同能力——既能在机群内部协作,也能与有人战机协同。例如:有人战机飞行员可命令CCA编队执行前沿感知任务,要求保持相对于敌机的特定阵位,而CCA集群需自主同步机动而无需持续获取飞行员指令。此举使CCA形成自我协调能力,同时仍能接收飞行员新指令。前战斗机飞行员、现柯林斯航太军事自动化研究学者史蒂文·菲诺指出:"CCA通过自主协作实现动态人类级目标,这才是变革性突破。"

尽管CCA前景广阔,但历史上不乏因组织阻力、成本超支、操作问题或性价比更高的替代方案(包括有人平台)而失败的技术突破型无人机项目。技术创新性并不能确保形成列装战斗力。

将CCA构想转化为现实仍需历经艰巨挑战。空军若要成功,必须坦诚评估所需资源与当前进展。

框架与证据

本报告采用作者开发的创新框架——端到端流程周期——评估协同作战飞机(CCA)项目当前进展,并以红绿灯评估图表呈现结果。该框架包含列装新型军事能力所需的七个步骤,设计为通用模型适用于CCA以外项目。其优势在于融合多领域研究洞见,并纳入比五角大楼成本评估与项目评估办公室等常规评估更全面的要素。

评估基于六类核心证据源:(a) 公开信息;(b) 空军官员简报;(c) 与30余位行业专家的保密访谈及通信;(d) 针对国防部、工业界与智库38名专家的"经济可承受规模系统"匿名调研;(e) 越南战争时期AQM-34"闪电虫"无人机历史案例研究(与CCA发展高度相关);(f) 台海想定下CCA作战运用、基地部署与架次生成分析。

凭借创新框架与广泛证据,本报告以前所未有的维度审视CCA项目。

核心发现

CCA项目在问题定义与资源筹措方面进展显著,但在研发、部署与运用环节相对滞后。此结果因视角不同可解读为积极或隐忧。乐观者认为前期步骤进展表明空军正按节点有序推进,持续发展将在一两年内改善整体表现。悲观者指出滞后环节(研发、部署、运用)存在强相互依赖性,需同步提升否则难有突破——若属实,则碎片化改进已至瓶颈,空军须全面同步提升各环节。

作者认同乐观立场,相信CCA项目可通过持续离散式进展取得成功。虽认可环节间关联性,但期待"一蹴而就"的全局解决方案不切实际。苛责空军缺乏此类方案有失公允:CCA属新型能力,无前代系统支撑规划,两年内已获显著突破。概念突破往往呈渐进特征,只要保持目标专注,空军终将找到可行路径。

CCA已成为突破五角大楼采办现状的象征性载体。凭借此象征意义,项目将持续获得政治监管者的宽容:尽管会依需批评调整,但无人愿扼杀被视为美军未来必要方向的能力。因此CCA享有强大隐性政治支持。空军善用此优势,必须坚持前行。

评估的两大主题

技术绝非万能

运用新技术是CCA项目成功的必要条件,但非充分条件。须关注CCA从设计到实战部署的每个环节。观察者可能聚焦技术要素(此现象在美国防务界常见),技术进展确为核心(尤其任务自主性领域),但最终成功需解决维护、基地部署、组织架构等非热点议题。正如空军未来司令部副参谋长戴维·哈里斯中将所言:"我们倾向于过度关注装备部分,但CCA涉及条令、战术技术与程序(TTP)、人力配置等深层要素,这些必须通盘考量。"空军历史上多次在此类领域创新制胜,此次亦可延续传统。

应制定需求并选择在CCA全流程中综合性能最优的解决方案。对支持高效维护、灵活部署、优化编成与适应性升级的工业方案应优先于仅满足有限标准的方案。空军需通过精准需求引导工业界开发此类方案。

此"超越技术视角"的警示看似不言自明,但对仍存技术优先思维的空军仍需反复强调。讽刺的是,CCA项目虽属空军史上最具技术雄心的计划之一,但其终极成功却取决于非技术因素。

当下、未来与永恒困境

CCA运用与设计无普适方案。在潜在冲突中,执行持久任务的CCA机队与实施外围游击打击的机队,需截然不同的机型设计、维护配置与战损储备。遗憾的是,空军公开表态强调CCA多场景适用性,弱化了"为特定任务优化必须做出取舍"的现实,模糊了决策焦点。

尽管灵活性值得追求,但当前规划者必须做出限制未来部队选项的抉择。在资源约束与机会成本的现实世界中,不可能保留所有可能性。

成为VIP会员查看完整内容
28

人工智能(AI)中的知识推理与表征对推进威胁识别的预测性研究至关重要。大规模数据的快速增长催生了自动化解决方案的部署,但当前机器学习接口仍难以可靠预测异常行为——这限制了其在关键决策中的适用性。为应对此挑战,图神经网络理论与动态系统现代库普曼理论的最新进展,推动了结合知识图谱构建的深度图表示学习技术发展。该方法通过学习捕捉异常威胁评分的图嵌入,提升威胁分类精度。通过预测生成图与真实图谱间的图相似性度量进行迭代对比,进一步优化预测结果。利用库普曼方法对新闻文章中的暴力事件信息进行降维处理。提出的"基于库普曼学习演化的半监督预测自编码器表征(SPARKLE)"方法,为动态情报构建提供可扩展、自适应的框架,最终在未来威胁监控系统中实现实时态势感知。建议未来研究将此创新方法与多源权威数据整合,以推进AI驱动的现代威胁分析。

图:俄乌冲突每周时间序列数据

数据量的持续激增常导致信息过载,这迫使人们采用自动化工具实现高效利用。然而,当前机器学习接口难以满足威胁识别与分类所需的精准可靠预测,使其无法胜任关键决策流程。基于图的方法与现代库普曼理论的最新进展,增强了人工智能技术从复杂数据集中提炼关键信息的能力。快速制定明智决策的迫切需求,推动着威胁识别方法的改进。

传感器及其能力在融入复杂互联战场环境后日益精密。空间、平流层气球、浮标与山顶部署的系统,可在动态复杂网络中同时充当数据生产者与消费者。聚合、格式化与综合海量数据以提供预警、推断意图并列举应对建议,需具备对作战环境的深刻认知、复杂传感器数据本体论,以及精细而全面的对抗行为模型。此外,传感器数据产出效用与数据分析深度常受显著制约。本研究通过多层次方法评估预测能力:(1)应用机器学习模型压缩数据;(2)构建知识图谱捕捉对抗行动与意图的关联线索,并借助海军研究生院"哈明"高性能计算环境创新应用库普曼算子实现图谱动态演化;(4)通过检索增强生成(RAG)最大化分析效用以优化结果。研究框架始于理论与领域概述,涵盖知识图谱、机器学习方法、生成式动态图、库普曼算子预测及RAG技术,最终通过"基于库普曼学习演化的半监督预测自编码器表征(SPARKLE)"展示威胁分类精度的显著提升。研究结果表明,SPARKLE迭代框架的应用有效增强预测能力并改善威胁分类成效。

传感器已遍布从海底到太空的全域。"新闻文章中的暴力事件信息(VIINA)"时间序列数据集用于评估多种方法的性能。全球部署的庞大传感器网络产生的观测数据,已远超人类未经自动化辅助处理信息与语境的能力。此环境为结合知识图谱构建与机器学习塑造战场空间感知提供了理想的实验场。

A. 问题陈述

当前面临的问题在于亟需对海量数据实施自动化预处理以提升威胁环境中的态势感知能力。"数据丰富但信息贫乏(DRIP)"凸显了现有缺陷——分析人员当前无法在目标监视要求时限内处理侦测信息以支撑识别任务。2022年成立的"全域异常现象解析办公室(AARO)"需就限制空域与敏感空域内的"未识别异常现象(UAP)"活动向国会提交报告(AARO,2022年)。全球范围内(包括AARO等机构)迫切需要通过改进异常检测与威胁识别方法提升预测能力。问题核心在于:现有技术与有限专业分析人员难以有效识别未明现象,导致空天优势丧失。需开发高效自动决策辅助系统实现异常检测与威胁识别,分析目标威胁以制定明智交战决策。当前威胁识别预测方法无法满足实时高风险决策需求。

B. 研究目标

表征、推理与持续学习是智能人工系统的关键要素。本研究采用多路径方法(聚焦图技术),旨在通过不同数据表征与多种图谱技术测试,探索知识表征与预测推理间的关系,以异常检测支撑识别任务解决DRIP问题。核心目标是理解基于图谱的自动化如何整合知识图谱构建(KGC)与机器学习模型实现增量信息获取,及其对推理预测效能的影响。

C. 研究问题与假设

引入基于图谱的解决方案可提升自动化预测在人机协同中的作用。概率建模技术、图神经网络与聚类算法可应用于图结构数据,此类系统可产生增强模式分析、异常检测与威胁识别的新兴特性。

• 研究问题1:当信息表征以知识图谱形式构建时,机器学习模型能否实现可靠预测?
• 假设1:知识图谱构建(KGC)能提升异常检测的预测能力以支持威胁识别,通过捕捉强弱关联提升预测精度。

• 研究问题2:图结构数据集(知识图谱)能否用于训练机器学习模型,通过增量更新改进人机预测系统?
• 假设2:知识图谱构建(KGC)可利用概率图机器学习从数据中提取信息,创建实体与关系,作为训练数据集对知识图谱实施增量持续更新。

• 研究问题3:当库普曼算子与图技术结合机器学习模型时,能否有效检测并精准预测威胁以支持识别任务?
• 假设3:生成式与基于图的技术可弥补当前技术缺口,使预测结果更具可靠性。

D. 研究目的声明

日益增长的图谱分析与表征研究,或为决策者利用预测评估制定高置信度决策提供新路径。海量作战可用数据需自动化预处理,知识图谱构建与实体抽取自动化至关重要。需理解机器如何利用图谱表征实现知识图谱实体的动态构建与关联预测。本研究旨在证明:在数字化时代数据激增背景下,知识图谱构建与图谱表征支持学习模型持续更新,可有效处理大规模数据。

E. 普适性

有效利用海量数据需深刻理解作战环境,包括识别威胁或目标的潜在可开发行为与异常活动。联合目标选定学员指南将目标定义为"可能需实施打击或其他行动的实体与对象"(美国防部[DoD],2017年)。其他考量因素包括机密情报收集需求、可用通信链路及数据处理能力以实现数据流动与运用。由于这些多样化能力构成复杂互联战场环境的一部分,必须全面捕捉其二元关联。图论技术的应用为管理此能力网络、从海量数据中提取有效信息以优化处理与融合提供了理论基础。

F. 研究框架

本研究通过分析俄罗斯入侵乌克兰相关新闻文章中的暴力事件文本预测潜在威胁。在决策者需及时获取可操作预测信息的情境下,此类能力关乎生死存亡。支撑本研究的各要素模块将在文献综述部分深入剖析。

方法论章节阐述SPARKLE迭代应用框架,展示知识图谱在机器学习增量更新中的重要性,并描述流程输出。后续分析通过模型对比与相似性分析开展预测精度比较评估,在讨论环节提出复杂度测量方法以证明其在异常检测中的表征能力超越传统方案。

G. 研究意义与未来方向

当信息以知识图谱形式结构化时,机器学习模型可实现更可靠预测。知识图谱构建(KGC)通过捕捉强弱关联提升预测精度。图结构数据促进人机预测系统的增量更新,概率图机器学习通过动态提取实体与关系实现持续学习,构建自适应演进的知识图谱。库普曼算子与图谱技术的整合强化威胁识别能力,图相似性度量与模型对比证明SPARKLE框架在复杂模式检测中的预测提升。此概念可扩展至信号分类等其他领域(未来研究部分探讨)。本研究核心贡献在于提出AI驱动的现代威胁分析创新方法。

成为VIP会员查看完整内容
29

推理是智能的核心,塑造了做出决策、得出结论以及跨领域泛化的能力。在人工智能领域,随着系统日益在开放、不确定且多模态的环境中运行,推理能力对于实现稳健且具适应性的行为变得至关重要。大型多模态推理模型(Large Multimodal Reasoning Models, LMRMs)作为一种前景广阔的范式应运而生,融合了文本、图像、音频和视频等多种模态,以支持复杂的推理能力。其目标在于实现全面的感知、精准的理解和深入的推理。

随着研究的不断推进,多模态推理已从早期以感知驱动的模块化流程,快速演化为以语言为中心的统一框架,从而实现更具一致性的跨模态理解。尽管指令微调和强化学习在提升模型推理能力方面取得了进展,但在全模态泛化、推理深度以及代理性行为等方面仍面临重大挑战。

为了解决上述问题,我们提出了一项全面且结构化的多模态推理研究综述,围绕一个四阶段的发展路线图展开,反映了该领域设计理念的演变和新兴能力的出现。首先,我们回顾了早期基于任务特定模块的研究工作,在这些系统中,推理通常隐式地嵌入在表示、对齐和融合等各个阶段。接着,我们探讨了近期将推理统一于多模态大语言模型(Multimodal LLMs)中的方法,其中诸如多模态思维链(Multimodal Chain-of-Thought, MCoT)和多模态强化学习等进展,支持了更丰富且结构化的推理链。

最后,基于OpenAI O3和O4-mini在挑战性基准测试和实验案例中的实证见解,我们讨论了原生大型多模态推理模型(Native Large Multimodal Reasoning Models, N-LMRMs)的概念发展方向,其目标是在复杂的现实世界环境中支持可扩展、具代理性和适应性的推理与规划。通过整合历史趋势与新兴研究成果,本综述旨在阐明当前的发展格局,并为下一代多模态推理系统的设计提供参考。

1 引言

在哲学与人工智能领域,推理被广泛认为是智能行为的基石(Kahneman, 2011;Su 等,2024;de Winter 等,2024;Bi 等,2025)。它不仅使智能体能够适应性地响应环境,还能够进行逻辑推断、知识泛化及在复杂情境中作出决策。随着人工智能系统越来越多地与动态、不确定且多模态的环境交互,能否在多变情境下进行正确推理,已成为实现稳健且具适应性智能的关键(Yang 等,2025a;Christakopoulou 等,2024)。 在此背景下,大型多模态推理模型(Large Multimodal Reasoning Models,LMRMs)作为一个前沿方向逐渐显现出其潜力(Wang 等,2024k;Zhang 等,2024c;Yin 等,2023)。这类模型融合文本、图像、音频与视频等多种数据模态,展现出包括逻辑演绎、因果推理、类比映射与长程思维等在内的复杂推理能力。其核心目标是实现全面的感知、精准的理解与深层的推理,从而支撑多样化环境中的决策过程。 多模态推理研究发展迅速。早期研究依赖于以感知驱动的模块化流程,而近期进展则利用大语言模型统一多模态理解与推理(Huang 等,2023b;Driess 等,2023)。指令微调(Liu 等,2023a)与强化学习(DeepSeek-AI 等,2025)进一步提升了模型的推理表现,使其更接近类人的深思熟虑行为。尽管如此,多模态推理仍是大型多模态模型的核心瓶颈,其在泛化能力、推理深度以及类代理行为方面仍存在明显限制(Yue 等,2024;Zhang 等,2024f;Liu 等,2024f)。 已有综述主要聚焦于多模态大语言模型或以语言为中心的推理方法分析,尚缺乏对近期强化学习增强的多模态推理技术及LMRMs技术前景的系统分析。因此,多模态推理领域亟需一个连贯的框架,以理解其发展演变及未来方向。本文正是为填补这一空白,提供了一份涵盖从早期模块化设计到先进LMRMs的完整技术路线图的全面综述与分析。 具体而言,我们提出了一个结构化的多模态推理发展路线图(见图2),分为三个阶段: * 感知驱动的模块化推理:推理隐含在任务特定模块中; * 以语言为中心的短程推理(System-1):借助提示工程与结构化的短程思维链(CoT),实现初步的多模态推理; * 以语言为中心的长程推理(System-2):通过扩展的推理链与强化学习,支持长期思维、规划与类代理行为。

在此发展路径的基础上,我们提出了“原生大型多模态推理模型(Native Large Multimodal Reasoning Models,N-LMRMs)”的概念,这一前瞻性范式不再依赖于将推理能力附加在语言模型之上,而是使推理能力自然而然地从全模态感知、交互以及目标驱动的认知中涌现。 基于统一表示、训练数据合成、从世界经验中学习与基准构建等方面的最新进展,我们进一步探讨了突破当前架构限制、推动多模态智能发展的可能路径。 我们的主要贡献如下: * 本文系统梳理了大型多模态推理模型(LMRMs)的研究全貌,涵盖540余篇相关文献,并分析了当前模型在推理方面的主要限制(第2节); * 我们提出了一个三阶段的发展路线图,从模块化推理到多模态思维链(MCoT),再到支持长程推理的System-2模型,并对各阶段进行了详细的分类分析与代表方法归纳(第3节); * 我们首次引入并分析了“原生大型多模态推理模型(N-LMRMs)”的概念,对其体系结构、学习方法、数据集与基准进行了深入探讨,为未来多模态代理性推理提供了方向(第4节); * 我们重组并更新了至2025年4月的多模态理解与推理数据集和评测基准,明确其分类与评估维度(第5节)

2 多模态推理范式的演进与讨论

多模态推理的发展经历了一系列重要的范式转变,体现了感知输入与结构化认知过程之间的日益深度融合。在本节中,我们将梳理多模态推理系统发展的四个关键阶段,每一阶段都代表着不同的模型设计理念、能力表现与技术挑战。这一历史视角不仅定位了该领域的当前状态,也明确了后续章节所探讨方向的研究动因。

阶段一:感知驱动的模块化推理 —— 面向任务的推理系统设计

在初期阶段,多模态推理能力通过模块化推理组件构建(Andreas 等,2016;Yang 等,2016;Xiong 等,2016)。这些系统通常采用卷积神经网络(CNN)和循环结构(如长短期记忆网络 LSTM),并运行于监督学习框架中。由于早期阶段存在多模态数据匮乏、神经结构不成熟和学习方法欠完善等问题,研究者往往采用模块化设计,将推理过程拆解为表示、对齐、融合与推理四个独立组件(§3.1.1)。 随着预训练–微调范式的兴起(Devlin 等,2019;Radford 等,2018, 2021),大规模多模态数据集与深层神经网络的出现推动了视觉–语言预训练模型(VLMs)的快速发展(Chen 等,2020;Li 等,2020;Yu 等,2022, 2021),其目标是统一表示、对齐与融合等多个阶段(§3.1.2)。 然而,这种统一主要集中于视觉表示与跨模态融合,对语言的深层语义建模相对薄弱,导致推理过程仍以分类为主,缺乏上下文意识与泛化能力。此外,该阶段的多模态推理系统仍依赖额外模块或任务特定增强机制,总体而言,推理更多是隐含在基础感知处理与神经计算中。新兴的多模态语言模型将通过引入强大的语言建模能力与大规模视觉数据,进一步增强这种隐式推理。

阶段二:以语言为中心的短程推理 —— System-1 式推理

多模态大语言模型(MLLMs)的出现(Liu 等,2023a;Bai 等,2023;Chen 等,2024j;Zhang 等,2023c)标志着多模态推理从模块化系统迈向端到端语言中心框架的重大转折。这些模型在视觉常识推理(VCR)(Zellers 等,2019;Yu 等,2024c)、视觉问答(VQA)(Goyal 等,2017;Singh 等,2019)和视觉定位(Peng 等,2023;Rasheed 等,2024;Liu 等,2024f;Lai 等,2024;Ren 等,2024)等任务中取得了显著成果。 但早期 MLLM 主要依赖于浅层模式匹配和静态知识检索,难以完成动态假设生成、多步逻辑推理及上下文适应。这一限制推动了思维链(Chain-of-Thought, CoT)推理的提出(Kojima 等,2022),通过将隐式推理转化为显式中间步骤,实现了推理过程的语言化、可解释化。 研究者将 CoT 推广到多模态领域,提出了多模态思维链(MCoT)(Zhang 等,2023g;Fei 等,2024;Shao 等,2024)。初期方法主要依赖于提示驱动的生成(§3.2.1),使模型可通过精心设计的提示产生逐步的多模态推理轨迹。后续研究进一步优化了推理本身,或通过结构化分解(§3.2.2),或通过引入外部工具与检索增强机制扩展模型推理能力(§3.2.3)。 尽管如此,该阶段的推理仍以短程、反应式为主,典型特征是快速、直觉式的 System-1 推理。模型适用于熟悉或边界明确的任务,但在抽象性、组合性和规划能力上表现不足。这些挑战推动了更具结构性和思维深度的新一代推理范式的发展。

阶段三:以语言为中心的长程推理 —— System-2 式思考与规划

尽管 MCoT 明显提升了 MLLMs 的推理能力,但仍无法应对复杂的现实世界多模态任务(Zhang 等,2024f;Yu 等,2024c;Yue 等,2024)。大多数 MCoT 方法生成的是短程、快速反应型的推理链,难以胜任具备抽象性、组合性、长时序和适应性规划要求的任务(DeepSeek-AI 等,2025)。 为弥补这一差距,研究逐步转向受 System-2 启发的推理机制(Yao 等,2023b;Kahneman, 2011),强调更慢速、深思熟虑、方法论驱动的认知过程。在这一视角下,推理不再是附属功能,而是智能行为的核心组成部分。 沿三条关键路径扩展 MCoT,正在成为推动 LMRMs 向更高阶智能发展的核心轨迹: 1. 推理模态维度:仅依赖文本限制了模型对模态特有知识的捕捉能力。近期研究提出跨模态推理链,融合视觉、听觉与语言信号作为联合推理基础,实现更丰富的语义锚定与信息整合(§3.3.1)。 1. 推理范式维度:研究者提出更长、更高质量的推理链,并引入可泛化、方法论指导的推理策略,使模型可自主分解复杂任务并迁移推理路径(§3.3.2)。例如 GPT-4o(Hurst 等,2024)代表了当前认知任务中近人类水平的多模态推理表现。 1. 学习方法维度:强化学习增强的多模态推理研究日益升温。通过引入代理式数据、反馈机制与长期优化目标,模型如 DeepSeek-R1 提升了规划能力、鲁棒性与泛化能力(§3.3.3)。

这些进展共同标志着多模态推理范式从“反应式”向“深思熟虑式”转变,推动 LMRMs 向适应性、系统级智能迈进。

阶段四:走向“原生”大型多模态推理模型(N-LMRMs)

尽管当前 LMRMs 已展现出处理复杂任务的潜力,其语言中心架构仍存在关键制约(Kumar 等,2025;Pfister & Jud,2025)。一方面,目前模型多聚焦于视觉与语言模态(文本、图像、视频),难以胜任现实中需处理音频、触觉、传感器流与时序数据等多模态深度交互场景;另一方面,语言驱动的推理难以胜任生成性思考、自我反思与交互控制。 此外,当前模型在交互性、长时序推理和适应性规划方面仍有明显短板。在静态任务中虽可生成推理链,但在动态环境中进行实时交互与策略调整的能力仍显不足。 为解决这些问题,我们提出“原生大型多模态推理模型”(Native LMRMs, N-LMRMs)的前瞻性架构设想(§4)。与传统 LMRMs 将推理能力附加于语言模型的方式不同,N-LMRMs 将从底层架构设计上原生集成多模态理解、生成与代理性推理,实现真正端到端的统一系统。 此类系统通过统一表示空间(如 VideoPoet, Kondratyuk 等,2024)编码真实世界数据,同时利用大规模合成数据在各种模态交互环境中进行推理与规划学习。 N-LMRMs 将具备两大关键能力: 1. 多模态代理性推理:具备主动、目标驱动的智能体行为,例如长时序规划(任务分解与记忆增强推理)、动态适应(基于环境反馈的策略调整)、具身学习(通过物理或虚拟交互实现泛化)。 1. 全模态理解与生成性推理:跳出传统模态特定编码器/解码器设计,转向统一的跨模态表示空间,支持异构数据融合、上下文生成与模态无关的推理路径,从而应对任务无关、模态开放的多样输入。

综上,从模块化、感知驱动系统到原生多模态推理模型的演进,构建了一条通向统一、适应性、高层次AI系统的发展路径。接下来的章节将详细分析各阶段代表模型及塑造多模态推理未来方向的前沿研究趋势。

**

**

成为VIP会员查看完整内容
27

不可否认,新型技术、行为体与冲突情境的兴起为战争注入了新变量。尤其值得关注的是,新技术战争手段及人工智能在军事行动和决策中的应用,正引发重大安全与伦理关切。专家已就人工智能深度渗透及其引发的军事变革拉响警报。本文重点剖析人工智能武器的安全与人道风险,聚焦有限人类监管与技术误差带来的多重影响。本文主张:缺乏人类监管的人工智能军事技术大规模部署,不仅对国际法构成重大威胁,更可能在全球武装冲突动态中开创危险先例,亟需监管干预。研究将以以色列国防军(IDF)在当前加沙战争中生产部署的AI决策武器为案例,展开批判性反思与经验总结。

本研究旨在揭示新型人工智能武器对国际法的危险冲击,呼吁通过强化监管实现问责机制。通过检视以色列在加沙的AI技术部署,聚焦自动化决策武器系统与弱化人类监管引发的安全影响及人道风险。最后,本文将对这类工具的广泛非监管使用进行批判性反思,强调其必须遵循战争法,并探讨欧盟作为监管力量的角色——依据其防务政策对人工智能武器构建系统性应对框架。

成为VIP会员查看完整内容
29

本研究聚焦人工智能(AI)对南亚军事战略的影响,重点关注拥核国家印度与巴基斯坦。从传统威慑向人工智能驱动军事行动的转型正威胁区域安全。研究核心目标包括:探讨现代战争领域中新兴人工智能技术的本质特征,评估在人工智能技术领域内,印巴两国现行国防趋势的全球联盟关系。随着双方持续推进人工智能军事化进程,两国关系急剧恶化。

本研究采用定性研究方法,对军事人员、政策制定者及相关领域专家进行访谈。研究发现,每位受访者均对现代战争中人工智能的角色提出独特见解。尽管受访者提供的信息量、对特定关系的关注度及对区域地缘政治问题的认知存在差异,但普遍论及人工智能领域的全球联盟关系。所有反馈均通过强调当前技术进展、伦理考量与潜在阻碍,深化了关于人工智能融入现代作战复杂影响的现有研究体系。人工智能对印巴军事动态的影响引发激烈争论,焦点集中于外国势力介入程度、伦理争议及区域国家安全等争议性议题。

成为VIP会员查看完整内容
27

本论文研究了训练深度神经网络中的基本挑战,重点探讨了信号在网络深度中的传播。论文考察了各种架构选择,如全连接层、权重初始化、归一化层和非线性激活函数,如何影响深度架构中的前向传播和反向传播。研究解决了诸如秩崩塌、梯度稳定性等关键问题,并探讨了它们对训练动态和网络性能的影响。

利用平均场理论、随机矩阵理论和马尔可夫链理论的工具,我们开发了一个用于分析深度网络中信号传播的数学框架。我们描述了导致秩崩塌和梯度不稳定的条件,并提供了归一化技术和初始化方案有效性的理论见解,提出了改善非常深层网络中信号传播和训练动态的途径。从根本上说,本论文的发现是朝着理解现代神经网络架构成功背后的数学原理迈出的重要一步。

深度神经网络已经彻底改变了人工智能领域,在广泛的任务中取得了前所未有的表现,从图像识别 [KSH12] 到自然语言处理 [Dev+18]。尽管这些模型取得了显著的成功,它们通常仍然是神秘的,作为“黑箱”通过一系列复杂的非线性操作将输入转换为输出 [AB16]。这种缺乏理论理解给研究人员和实践者带来了重大挑战,因为它妨碍了我们更好地理解和优化这些系统。

深度学习范式的核心是信号传播——信息在神经网络的层次中流动的过程,涵盖前向和反向传播 [GB10a]。理解这一过程至关重要,原因有几个。它提供了神经网络如何处理和转化信息的见解,可能揭示其过程背后的基本原理。对信号传播的更深入理解可以指导更好的网络初始化设计 [GB10a]、更有效的网络架构设计 [He+16a] 以及更高效的优化算法 [KB14]。总的来说,理论理解有助于在更有原则的方式下设计神经网络架构。

当考虑到训练深度神经网络的挑战时,信号传播的重要性变得尤为突出。随着网络深度的增加,它们具备了更强的表达能力和学习更复杂表示的潜力 [BSF94]。然而,这种增加的深度也带来了稳定训练的重大障碍,许多障碍直接与信号在网络中的传播方式有关 [GB10a;He+15]。本论文旨在弥补我们理解中的一些空白。

1.1 研究目标与范围

本论文的主要目标是通过对各种神经网络组件对信号传播深度的影响进行深入研究,揭示神经网络的某些行为。具体来说,我们旨在解决以下核心研究问题:

信号如何在深度神经网络的层次中传播,前向和反向传播是如何演变的?

为了全面探讨这个问题,我们重点关注神经网络设计的几个关键方面:全连接层、权重初始化、归一化技术和非线性激活函数。全连接层作为神经网络的基本构建块,为我们的分析提供了起点 [SMG13a]。初始权重的选择可以显著影响网络的训练动态,我们研究了各种初始化策略及其对信号传播的影响 [SMG13a;GB10a;He+15]。其次,Batch Normalization (BN) [IS15] 和 Layer Normalization (LN) [BKH16] 等归一化层在使得非常深的网络能够训练方面发挥了关键作用,我们分析了这些技术如何影响信号流动和稳定性。第三,非线性激活函数的选择显著影响网络的表示能力和训练动态,因此我们考察了ReLU [NH10] 和双曲正切等流行选择,探索它们对信号传播的影响 [GBB11;MHN13;CUH15;He+15;RZL17]。

从数学角度来看,我们的分析重点关注神经网络中的两个关键操作:矩阵乘积和逐元素激活。矩阵乘积发生在线性层中,转换层之间的表示,并影响信号如何在网络中传播 [SMG13a]。非线性激活函数将关键的非线性引入网络,我们研究了不同激活函数如何塑造激活和梯度的分布 [Kla+17;PSG17;PSG18]。虽然像BN和LN这样的归一化层是非线性操作,但它们并不按元素操作。有些出乎意料的是,我们发现我们可以将它们作为一种特殊的矩阵乘积进行研究,其中一个矩阵是对角矩阵,与特征或批处理空间中激活的标准差成比例 [Dan+20;DJB21]。

我们的分析主要集中在网络初始化状态,因为这个初始状态在确定随后的优化轨迹和网络最终表现中起着至关重要的作用 [SMG13a;Xia+18;FC18;PSG17]。这使我们能够利用随机矩阵理论和马尔可夫链理论的工具,分析层表示如何以随机方式演变。

1.2 训练深度神经网络中的挑战

随着神经网络变得越来越深,在各种任务中取得了最先进的表现 [He+16a;Dev+18],训练这些架构时出现了两个主要挑战 [PMB13]。在反向传播中,梯度消失和梯度爆炸问题变得尤为重要 [BSF94;PMB13;Han18]。在前向传播中,表现崩溃的问题出现了,即随着深度的增加,不同输入样本映射到越来越相似的表示 [Dan+20;Noc+22b]。表现崩溃和梯度不稳定都显著影响了训练动态和网络性能 [Han18]。

**1.2.1 梯度爆炸与梯度消失

梯度爆炸与梯度消失问题长期以来是训练深度神经网络的挑战 [Hoc91;BSF94]。这些问题在反向传播算法的过程中出现,可能会严重妨碍学习过程。

梯度爆炸发生在梯度在通过网络层反向传播时增长过快,可能导致数值不稳定,使得训练过程发散 [PMB13]。相反,梯度消失发生在梯度变得指数级变小,实际上阻止网络学习长距离依赖 [Hoc98]。

梯度消失问题尤其对网络的第一层或最后一层影响严重。第一层的梯度消失会导致网络无法从输入数据中捕捉到重要的特征,从而丧失网络开始阶段的关键信息 [GB10a]。当最后一层出现梯度消失时,网络会难以将误差信号反向传播到早期层,导致整个网络的微调效果不佳 [He+15]。此外,梯度消失还可能导致深度网络表现得像一个较浅的网络,从而消除深度架构在学习层次化表示方面的潜在优势 [SGS15]。

梯度消失与爆炸问题与深度、权重初始化和激活函数密切相关 [GB10a;He+15]。从数学角度来看,梯度可以表示为一个扩展的矩阵乘积链,这是微积分链式法则的结果。主要挑战在于,随着乘积链的增长,如何保持稳定的梯度流 [SMG13a;PMB13]。

**1.2.2 秩崩塌

秩崩塌指的是随着深度的增加,深度神经网络的输出变得越来越相关,导致表达能力的丧失 [Dan+20]。这个问题在具有标准初始化方案的网络中尤其突出,可能会严重阻碍网络学习复杂表示的能力 [Dan+20]。

最近的研究表明,秩崩塌不仅限于全连接网络,还影响其他架构,如卷积神经网络 [Xia+18] 和变换器 [DCL21;Noc+22b]。解决秩崩塌问题对于使得非常深的网络能够训练并充分发挥其表示能力至关重要。

秩崩塌与梯度消失密切相关,都是由于信号传播问题引起的 [Dan+20;Han18]。从非正式角度看,这两个问题都可以看作是网络在传播过程中“丧失”信息。

**1.2.3 对训练动态的影响

秩崩塌和梯度不稳定现象对训练动态和深度神经网络的整体表现有重大影响。这些挑战通过多种相互关联的方式表现出来,显著影响了学习过程的效率和效果。

网络在遭遇秩崩塌或梯度问题时,通常需要更多的训练迭代才能达到类似的性能 [IS15;San+18;Dan+20;DJB21]。这个增加的训练时间可能成为大型模型和数据集的瓶颈。

1.3 论文结构与贡献

本论文探讨了训练深度神经网络中的挑战,并提出了应对这些问题的新方法。各章节按写作和发布的时间顺序排列,具体章节如下:

第2章:批量归一化正交化表示。

第3章:弥合平均场与有限宽度差距。

第4章与第5章:讨论归一化与激活函数如何导致深度神经网络中表示的等距性。

第6章:没有梯度爆炸的批量归一化。

第7章:总结与未来方向。

每章都有助于加深我们对深度神经网络训练动态的理解,并为解决这些模型的深度挑战提供了新的技术。

**

**

成为VIP会员查看完整内容
26
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员