大型语言模型(LLMs)已被证明是解决广泛任务的强大工具,企业也注意到了这一点。然而,从演示和原型过渡到成熟的应用可能会面临诸多挑战。本书旨在弥合这一差距,为从业者提供构建实用产品所需的工具、技术和策略,这些产品能够充分利用语言模型的能力。 经验丰富的机器学习研究员 Suhas Pai 提供了关于如何利用 LLMs 解决实际用例并应对常见故障模式的实用建议。您将全面深入了解语言模型的组成要素,探索诸如微调等定制技术,学习像 RAG(检索增强生成)和代理等应用范式,以及更多内容。 * 了解如何为训练和微调准备数据集
培养对 Transformer 架构及其变体的直觉
将预训练语言模型适配到您自己的领域和用例
学习微调、领域适应和推理优化的有效技术
将语言模型与外部工具和数据接口,并将其集成到现有软件生态系统中
通过将思维链(CoT)推理在类人逐步推理过程中的优势扩展到多模态场景,多模态思维链(MCoT)推理近年来引起了广泛的研究关注,尤其是在与多模态大语言模型(MLLMs)的结合方面。现有的MCoT研究设计了多种方法论和创新推理范式,以应对图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,并在机器人、医疗、自动驾驶和多模态生成等应用中取得了广泛成功。然而,MCoT仍然面临独特的挑战和机遇,需要进一步关注以确保该领域的持续繁荣。遗憾的是,目前缺乏对这一领域的最新综述。为了填补这一空白,我们首次对MCoT推理进行了系统性综述,阐明了相关的基础概念和定义。我们从不同应用场景的多个角度提供了全面的分类和深入的方法论分析。此外,我们还对现有挑战和未来研究方向提出了见解,旨在推动多模态通用人工智能(AGI)的创新。
关键词:多模态推理,思维链,多模态大语言模型
1 引言
大型语言模型(LLMs)[1–7]的出现为人工智能(AI)领域开启了一个前所未有的时代。长期以来,人们认识到与真实世界环境的多模态本质对齐的必要性,相应地,AI领域从LLMs发展到多模态大语言模型(MLLMs)[8–18],将多种模态整合到语言智能中。实现人类水平的智能需要超越基本的感知能力,达到复杂的认知推理能力——这是人类认知的标志,能够通过上下文理解和自我修正进行迭代推理。受此启发,上下文学习(ICL)技术使LLMs能够展示逐步推理——通常称为思维链(CoT)推理机制[19–24]。该技术使模型能够将问题分解为一系列中间步骤,从而增强决策的透明性以及在复杂推理任务中的表现。CoT推理在广泛的下游复杂任务中的显著成功推动了其在学术界和工业界的广泛应用。特别是最近的技术进步将这一能力隐式地集成到尖端系统中,如OpenAI的o1/o3 [25]和DeepSeek R1 [26],引起了广泛关注。将CoT推理整合到多模态场景中,进一步催化了AI的变革性进展,催生了多模态思维链(MCoT)推理[27, 28]。由于CoT属性和跨模态数据交互的异质性,MCoT主题产生了一系列创新成果。一方面,原始的CoT框架已演变为包含分层思维结构的高级推理架构,从线性序列[19]到基于图的表示[23]。另一方面,与单模态文本设置不同,视觉、听觉和时空数据等多样化模态需要专门的处理策略——视觉推理需要对静态场景和对象关系进行精确感知和分析,而视频理解则需要强大的时间动态建模能力。这些需求推动了多种复杂MCoT方法的发展,这些方法使推理过程适应特定模态的特征,例如Multimodal-CoT [29]、MVoT [30]、Video-of-Thought [31]、Audio-CoT [32]、Cot3DRef [33]和PARM++ [34]。MCoT的显著效果也使其在自动驾驶[35–38]、具身AI [39–41]、机器人[42–45]和医疗[46–50]等关键领域成功应用,使其成为实现多模态通用人工智能(AGI)的基础技术。近年来,MCoT的研究吸引了越来越多的关注。图1展示了这一新兴领域的关键里程碑时间线。尽管MCoT在增强多模态推理方面具有巨大潜力,但它也提出了重大挑战,并留下了几个关键问题未解——例如,如何确定利用多样化多模态上下文的最有效策略,设计真正增强MLLMs推理能力的CoT过程,以及在这些模型中实现隐式推理。值得注意的是,缺乏全面的综述阻碍了这一新兴领域的知识整合。为了填补这一关键空白,本文首次对MCoT推理进行了系统性综述,提供了对技术发展、方法论、实际应用和未来方向的结构化分析。我们希望本综述能够成为权威参考,推动这一快速演进领域的进一步创新和进展。1.1 贡献首次综述:本文是首次专门对MCoT推理进行全面综述的论文。全面分类:我们提出了一个细致的分类法(见图2),对MCoT研究中的多样化方法进行了分类。前沿与未来方向:我们讨论了新兴挑战,并概述了未来研究的有前景的方向。资源共享:我们整理并公开了所有相关资源,以支持和加速研究社区的进展。1.2 综述结构本综述的其余部分组织如下。我们首先介绍与MCoT相关的基本概念和背景知识(§2)。然后,我们回顾了不同模态下MCoT的最新研究(§3)。接下来,我们提供了一个分类法,并从多个角度整合了MCoT的主流方法(§4)。随后,我们总结了MCoT的广泛下游应用(§5)。接着,我们从多个角度概述了数据集和基准测试(§6)。最后,我们讨论了该领域的挑战和未来方向(§7)。
不久前发布的“清华大学DeepSeek使用手册,长达104页!”还没学完,又一重磅教程来袭! 作为正在科研的你,是不是急需一份适合科研人的教程,想着如果科研也能像和朋友聊天一样轻松愉快,那该有多好?! 来,安排!清华大学又一重磅教程来了! 由清华大学《DeepSeek+DeepResearch:让科研像聊天一样简单》这一教程将更加适合高校老师和学生。**
**
是的,你没听错,科研不再是你想象中的那种枯燥无味的苦差事,而是可以像刷朋友圈一样简单有趣。
**
**
Transformer:理论架构创新 自注意力机制:支持并行计算/全局上下文的理解能力 多头注意力:从多个角度捕捉复杂的语义关系 前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性 人工智能 自监督学习(语言) MaskedLangaugeModeling(MLM)模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’ 自监督学习(图像) MaskedAutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。 数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。 模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。 算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。 大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。
本研究提出一种针对动态武器目标分配(DWTA)问题的强化学习(RL)框架,该组合优化问题具有军事应用背景。动态武器目标分配是静态武器目标分配问题(WTA)的扩展,通过引入时间相关要素以模拟战争的动态特性。传统WTA解决方法包括简化模型、精确算法和启发式方法,但这些方法面临可扩展性与计算复杂性挑战。本研究提出包含时间阶段的DWTA数学模型,支持多阶段战略规划。该模型被构建为带有约束条件的非线性整数规划问题,确保武器分配方案在时间维度上的可行性。为应对大规模DWTA的计算挑战,论文采用深度强化学习(DRL)算法——特别是深度Q网络(DQN)与行动者-评论家(AC)算法——来学习高效的武器分配策略。所提出的强化学习框架通过多种问题场景验证,证明其能在合理推理时间内提供可行解决方案,适用于时效性要求高的应用场景。结果显示,强化学习方法在约束编程精确算法的对比中表现更优,且随着问题规模扩大优势愈发显著,凸显了其在DWTA问题中实际应用的潜力。
武器目标分配(WTA)属于组合优化问题(COP),其目标是通过战略性分配武器至目标以最大化对敌毁伤效果。随着新型武器系统的发展及其使用复杂性的提升,WTA的重要性日益凸显,凸显出对高效算法管理多样化武器的迫切需求(Kline等人,2019a)。然而,Lloyd与Witsenhausen(1986)证明WTA问题属于NP完全问题,表明不存在已知的多项式时间算法。这一复杂性导致计算量随问题规模扩大或条件复杂化而急剧增加。
WTA问题可分为静态与动态两类。动态武器目标分配(DWTA)考虑武器使用的时间依赖性(Kline等人,2019a),而静态武器目标分配(SWTA)被视为原始WTA问题,也是DWTA在时间阶段数为一时的一种特例。本研究通过引入多时间阶段扩展原始WTA问题,形成DWTA框架。这一改进使得可用资产可被战略性地分配,从而随时间推移达成理想的终局状态。它反映了战场场景中决策的动态性——每次交战的成果将影响后续决策。有效的武器-目标分配规划需适应这种动态环境。具体而言,必须考虑武器的可用性限制,因为并非所有武器均可无限使用,它们可能需要在下次交战前补充弹药、人员或燃料。
因此,本研究中提出的DWTA模型包含每次武器分配后的准备时间。该方法通过强调周密规划与资源管理优化决策流程,确保武器分配在考虑后续交战需求的前提下实现高效配置。
本研究采用强化学习(RL)解决DWTA问题。自Bello等人(2016)提出以来,RL已成为应对组合优化问题的前沿方法。与监督学习不同,RL无需标记数据进行训练,而是通过基于奖励的学习机制实现优化,这使其特别适用于组合优化问题。具体而言,本文对比了采用深度强化学习(DRL)算法的模型。DRL在缺乏真实数据或获取成本高昂的大规模组合优化问题中表现优异,因其可利用神经网络等近似函数并从奖励信号中学习。DRL模型可通过学习参数高效解决问题,无需从零开始求解每个问题。此外,由于学习基于仿真器生成的奖励,DRL能适应问题条件变化而无需重构数学模型。
本研究实施了两类代表性DRL方法:深度Q网络(DQN)与行动者-评论家(AC)算法。DQN是基于价值的算法,旨在近似特定状态下采取行动的预期奖励,通过最大化该价值学习最优行动策略。相比之下,AC算法结合了基于策略与基于价值的方法,通过"行动者"直接学习特定状态下的最优行动,而"评论家"评估行动者决策的有效性。本研究通过对比同一DWTA场景下采用相同训练方法的DQN与AC算法性能,旨在分析不同算法的结果差异。该方法有助于深入理解各类DRL算法在不同DWTA配置下的表现差异。
论文后续结构安排如下:第二章综述前人研究并阐明本研究与前人工作的差异;第三章定义DWTA框架;第四章阐述方法论;第五章展示实验方法与结果;第六章为全文结论。
随着大语言模型(LLMs)的快速发展,基于LLM的智能体已在多个领域得到广泛应用,成为自主决策和交互任务的关键技术。然而,现有研究通常依赖于对原始LLM进行提示设计或微调的策略,这往往导致智能体在复杂环境中的效能受限或表现欠佳。尽管LLM优化技术能提升模型在通用任务中的性能,但其对智能体关键功能(如长期规划、动态环境交互和复杂决策)仍缺乏针对性优化。虽然近期大量研究探索了优化LLM智能体的多种策略,但目前仍缺乏从整体视角系统梳理和比较这些方法的综述研究。
本文全面回顾了基于LLM的智能体优化方法,将其划分为参数驱动型与无参数型两大类。针对参数驱动优化,我们重点探讨了基于微调的优化、基于强化学习的优化以及混合策略,深入分析了轨迹数据构建、微调技术、奖励函数设计和优化算法等关键要素。同时简要讨论了通过提示工程和外部知识检索实现行为优化的无参数策略。最后,我们系统总结了用于评估调优的数据集与基准测试,梳理了LLM智能体的主要应用场景,并探讨了当前面临的核心挑战与未来发展方向。相关文献资源库详见:
https://github.com/YoungDubbyDu/LLM-Agent-Optimization
1 引言
自主智能体的发展一直是人工智能(AI)领域的长期追求目标。AI智能体已从早期的基于规则和专家系统的架构,演进为当前广泛应用的强化学习(RL)驱动型智能体[35]。传统RL智能体通过与环境的交互来优化策略,利用结构化奖励函数实现目标并持续提升性能。然而,这类方法通常需要大量训练、依赖明确定义的状态-动作空间,且难以实现跨任务的泛化能力。近年来,GPT-4[120]、PaLM 2[5]和Deepseek-r1[52]等大语言模型(LLMs)取得显著突破,在语言理解、推理、规划和复杂决策方面展现出卓越能力。基于这些优势,LLMs可作为智能体载体,为提升自主决策能力和实现通用人工智能(AGI)提供新路径[169]。与传统RL智能体优化显式奖励驱动的策略不同,基于LLM的智能体通过文本指令、提示模板和上下文学习(ICL)运作,具有更强的灵活性和泛化能力。这类智能体利用LLMs的理解与推理能力,通过自然语言与环境交互,执行复杂多步任务,并动态适应场景变化。现有LLM智能体采用任务分解[64]、自我反思[133]、记忆增强[210]和多智能体协作[86]等方法,在软件开发[67]、数学推理[1]、具身智能[212]、网络导航[28]等领域取得优异表现。然而,LLMs本质上并非为自主决策和长期任务设计。其训练目标聚焦于下一词元预测,而非智能体任务所需的推理、规划或交互学习,因此缺乏面向智能体任务的专门训练。这导致LLM智能体在复杂环境中面临三大挑战:1)长周期规划和多步推理能力不足,生成内容可能导致任务不一致或错误累积;2)有限记忆容量阻碍利用历史经验进行反思,影响决策质量;3)依赖预训练知识或固定上下文,适应新环境能力受限。这些局限在开源模型中尤为明显,其智能体能力显著落后于GPT-4等专有模型。此外,闭源模型的高成本与低透明度,凸显了优化开源LLM以提升智能体能力的必要性。现有技术如监督微调(SFT)[122]和人类反馈强化学习(RLHF)[121]虽在指令跟随任务中取得进展,但未能完全解决LLM智能体的决策、长期规划和适应性问题。优化LLM智能体需要更深入理解动态环境和智能体行为,开发超越传统微调与提示工程的专门技术。为此,近期研究探索了多种优化策略,使智能体能够跨环境泛化、基于反馈调整策略,并高效利用工具、记忆和检索机制等外部资源。
本文首次对LLM智能体优化研究进行系统综述,将方法划分为参数驱动型与无参数型优化策略。参数驱动型优化通过调整LLM参数提升性能, 包括:基于微调的方法(涵盖轨迹数据构建和微调策略等关键环节);基于RL的方法(分为采用Actor-Critic[147]、PPO[136]等传统RL技术的奖励函数优化,以及利用直接偏好优化(DPO)[132]实现策略与人类偏好对齐的方法);以及结合SFT与RL的混合优化策略。无参数型优化则通过提示工程、上下文学习和检索增强生成(RAG)等技术改进智能体行为,具体分为反馈驱动型、经验驱动型、工具增强型、检索增强型和多智能体协作型优化。与现有综述的差异:尽管LLM智能体研究日益活跃,但现有综述或聚焦通用LLM优化,或仅讨论规划、记忆等特定能力,未将LLM智能体优化作为独立研究领域。LLM优化综述多关注微调[115,122]和自我进化方法[150],缺乏对智能体专用优化的探讨;而智能体综述通常按架构组件(如规划[64]、记忆[210])分类,未系统总结优化行为与性能的技术。相较之下,本文是首个专注于LLM智能体优化技术的综述,为方法比较和未来研究提供清晰框架。研究范围:1)仅涵盖提升问题解决、决策等任务性能的LLM智能体优化算法;2)选录AI/NLP顶会期刊论文及arXiv高影响力预印本;3)聚焦2022年后的最新进展。全文结构:第2节介绍背景知识;第3节系统分析参数驱动型优化(含微调优化、RL优化和混合优化);第4节分类阐述无参数型优化;第5-6节总结评估数据集与应用场景;第7节展望挑战与未来方向。
AIAgent进化之路:大模型点燃智能体的变革引擎,加速AI走向应用 Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在计算机科学和人工智能领域,"Agent"(智能体)是一个具有自主性、感知能力和决策能力的实体。智能体能够通过传感器感知其所处的环境,并根据其内部状态和预设的目标,通过执行器对环境进行影响。智能体的目标通常是在给定的环境中实现特定的任务或目标。大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望 人工智能领域存在AIAgent与AIWorkflow,其存在区别: AIWorkflow(工作流):指的是一系列预先定义好的大模型调用步骤,像是在“轨道上”运行,步骤固定,可预测。每一步骤都有明确的输入和输出 AIAgent(智能体):AIAgent更加自主,由大模型自行决定执行多少步骤,直到问题得到解决。AIAgent会持续循环,例如与客户沟通或迭代代码修改,步骤数量不固定
**
生成式人工智能(Generative Artificial Intelligence)是人工智能领域的一个重要分支,专注于创建能够生成新内容(如文本、图像、音频和视频)的模型。与传统的判别式模型不同,生成式模型通过学习数据的分布来生成与训练数据相似但全新的样本。近年来,生成式人工智能在多个领域取得了显著进展,并展现出广泛的应用潜力。
生成模型:生成模型旨在学习输入数据的概率分布,并从中生成新的样本。常见的生成模型包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归模型(如GPT系列)。 1. 生成对抗网络(GANs):由生成器和判别器组成,通过对抗训练生成高质量的数据样本。生成器试图生成逼真的数据,而判别器则试图区分生成数据与真实数据。 1. 变分自编码器(VAEs):通过编码器将输入数据映射到潜在空间,再通过解码器从潜在空间重建数据。VAEs 在生成数据的同时,还能够学习数据的潜在表示。 1. 自回归模型:通过逐步生成序列中的每个元素来生成数据。例如,GPT 系列模型通过预测下一个词来生成连贯的文本。
自然语言处理(NLP):
文本生成:生成新闻文章、故事、诗歌等。 * 对话系统:构建智能聊天机器人和虚拟助手。 * 机器翻译:实现高质量的多语言翻译。 1. 计算机视觉:
图像生成:生成逼真的图像、艺术作品和设计草图。 * 图像修复:修复损坏或模糊的图像。 * 风格迁移:将一种艺术风格应用到另一幅图像上。 1. 音频与视频生成:
语音合成:生成自然流畅的语音。 * 音乐生成:创作原创音乐作品。 * 视频生成:生成短视频或动画内容。 1. 医疗与科学:
药物发现:生成潜在的药物分子结构。 * 医学影像分析:生成合成医学影像以辅助诊断。 1. 艺术与创意:
艺术创作:生成绘画、雕塑等艺术作品。 * 内容创作:辅助作家、设计师和艺术家进行创作。
数据质量与多样性:生成模型依赖于高质量和多样化的训练数据,数据偏差可能导致生成结果的偏差。 1. 模型可解释性:生成式模型的决策过程通常较为复杂,缺乏可解释性。 1. 伦理与安全:生成式人工智能可能被滥用于生成虚假信息或恶意内容,需要加强伦理规范和技术防护。 1. 计算资源:训练和部署生成模型需要大量的计算资源,限制了其广泛应用。
生成式人工智能正在改变我们与技术的互动方式,并在多个领域展现出巨大的潜力。随着技术的不断进步,生成式人工智能有望在未来的创新和应用中发挥更加重要的作用。然而,其发展也伴随着技术、伦理和社会方面的挑战,需要跨学科合作来解决。
美国陆军正通过部署两项尖端工具——CamoGPT(生成式预训练变换器)与非机密互联网协议路由器(NIPR)GPT,推动其规划与行动方式的革命性变革。本文解析这两项工具的优势与局限,并提供将其有效整合至军事规划与行动的操作指南。
现代军事行动日益复杂,亟需开发创新解决方案以提升作战效能。CamoGPT与NIPRGPT正是具备变革陆军规划与行动方式的潜在工具。CamoGPT是基于数据分析与算法的机器学习平台,专精于装备维护、后勤与供应链管理的优化;NIPRGPT则是依托GPT模型的自然语言处理工具,通过文本分析与生成支撑规划与行动。
必须强调:CamoGPT与NIPRGPT生成的响应需经领域专家审核验证,不可盲目采信。这两类人工智能(AI)模型存在以下局限性:
为缓解这些局限性,必须由领域专家对CamoGPT与NIPRGPT的输出进行审查验证,确保信息准确性、时效性以及与具体场景或应用的相关性。
将CamoGPT与NIPRGPT整合至军事规划与行动可带来以下优势:
为充分发挥CamoGPT与NIPRGPT效能,需构建指导分析的有效提示。优质提示应满足以下要求:
以下为各作战职能的优质提示范例:
尽管CamoGPT与NIPRGPT具备显著优势,仍需考量以下潜在局限性与缺陷:
为缓解风险,需实施以下措施:建立强健的数据验证流程;定期更新优化算法;部署严格网络安全措施以保护工具与数据。
为有效整合CamoGPT与NIPRGPT至军事规划与行动,应采取以下步骤:
通过落实上述步骤并解决潜在缺陷,美国陆军可有效整合工具以提升作战效能。
整合CamoGPT与NIPRGPT至军事规划与行动,将显著提升作战效能。通过构建精准提示、管控工具局限、实施系统化培训,美国陆军可充分释放工具潜力,保持战场竞争优势。CamoGPT与NIPRGPT凭借快速数据分析、装备故障预测及后勤优化能力,已成为现代军事行动的关键工具。但必须强调:需始终将AI工具与人类专业知识及判断结合,确保信息的准确性与有效性。
参考来源:美国陆军
技术进步与人工智能在军事领域的加速渗透,凸显出探索新型空优战术的迫切需求。可消耗自主无人作战飞行器(AUCAV)的部署为维持空战优势提供了潜在路径。传统空战机动训练依赖人类飞行员积累的实战经验,而定向能武器(DEW)等新型装备则催生了尚未充分开发的战术可能性。本研究借助仿真、集成与建模高级框架,探索强化学习(RL)技术在植入空战视觉范围内(WVR)机动决策问题的AUCAV智能体行为优化中的应用。研究将2v2 WVR空战机动问题建模为马尔可夫决策过程(MDP),其中友方AUCAV配备定向能武器并在六自由度(6DOF)环境中运作。核心方法论采用双深度Q网络强化学习算法,对两架友方AUCAV进行集中式训练。通过分阶段学习策略:初期采用密集奖励环境加速基础训练,后期切换至稀疏奖励环境激发自适应与涌现行为,构建系统性训练框架。研究设计典型实验场景评估不同DEW配置下AUCAV作战效能,为后续研究提供基准。通过对学习所得机动战术的定性分析,以及DEW武器参数四因子全析因实验的定量评估,验证强化学习解决方案的有效性,并揭示其对未来武器概念开发的启示价值。
本文结构如下:第二章综述空战机动问题、强化学习解决方案及仿真环境相关研究;第三章阐述2v2空战机动问题建模方法,提出MDP形式化框架,并详述机动战术学习智能体的强化学习实现路径;第四章展示学习机动战术的定性分析结果,以及DEW武器参数四因子全析因实验的定量研究成果;第五章总结研究成果,并提出未来研究方向的战略考量与技术路线。
无人机(UAV)被视为搜救行动、灾害救援、遥感测绘、空中监视与安防领域的重要工具。无人机辅助通信网络凭借其成本效益与灵活性,作为能提供新功能与机遇的网络基础设施正获得广泛关注。除了支持复杂多机任务的互联互通,无人机网络还可部署于偏远地区与极端环境提供连接服务,并根据可变需求对移动网络覆盖进行补充扩展。然而,利用这种灵活性需应对无人机网络固有的动态性特征——包括高度移动性与资源受限性。通过软件定义网络(SDN)与网络功能虚拟化(NFV)实现的网络软件化,能借助集中化可编程性与虚拟化网络功能,为无人机网络提供灵活自适应的控制与重构能力。
本论文通过识别软件化为无人机网络带来的潜在增益——这些增益在先前研究中尚未被充分探索——展开对无人机网络软件化的研究。为实现SDN与NFV在无人机网络中的应用,我们提出并描述了一种软件化无人机网络架构。此外,针对SDN架构的核心要素——SDN控制器的关键挑战展开研究,该控制器通过逻辑集中式控制器与可编程网络节点间的接口实现网络可编程性。为适应网络移动性与连接约束,我们提出部署与分配嵌入式SDN控制器的方案,确保在网络拓扑动态变化及地面基础设施可能不可用时控制功能的持续运行。同时,我们充分利用NFV提供的灵活性。需开发新型部署与编排方案,以有效管理由虚拟网络功能(VNF)定义任务与网络功能的无人机网络。为此,我们描述了受益于此灵活性的适用场景,并提出高效部署与管理基于NFV的无人机网络方案。
本文的贡献如下:
软件化增益评估:为验证无人机网络软件化的合理性,我们通过建立软件化无人机性能增益评估模型展开研究。该模型模拟由多架无人机组成的系统执行不同需求任务的场景,对比有限或非软件化系统,分析多种情境下网络重构能力的效果。
软件化无人机网络架构:提出支持无人机网络软件化的架构体系,描述实现网络部署与重构所需的组件与功能,并解决现有技术限制。该架构包含以下核心创新:
SDN控制器部署方案:针对无人机快速移动特性及偏远地区无法部署地面SDN控制器的挑战,提出空中控制器部署方案。该方案在容量与通信约束条件下,以最少无人机作为控制器,并通过灵活设计确保节点-控制器及控制器间连接。进一步提出动态调整机制,使空中控制器能追踪拓扑变化的无人机网络节点,同时限制控制器移动以减少拓扑调整的时间与能耗。
基于NFV的无人机网络:利用NFV在无人机计算设施上部署多样化网络与处理功能,实现灵活网络规划、资源高效利用及动态重构能力。该特性对缺乏计算基础设施的偏远地区任务尤为重要,支持数据就地采集、处理与传输。我们展示需在任务区不同位置完成数据捕获、处理与交付的适用场景,将网络或任务功能表达为由系列虚拟网络功能(VNF)构成的服务功能链(SFC),并提出联合无人机网络部署与SFC布局方案。该方案构建覆盖任务区域的最小化无人机网络,分配充足资源满足VNF及其流量需求。为适应网络移动性,设计动态编排机制,在无人机移动引发拓扑变化时维持网络连接与SFC需求,同时限制因反复移动与调整导致的网络中断与开销。
后续结构安排如下:第二章综述无人机网络的应用场景与挑战,介绍软件化技术(SDN与NFV)及其在通信网络中的通用性,探讨无人机网络软件化的动机,梳理现有SDN/NFV与无人机网络融合的研究进展与局限。第三章量化无人机网络软件化增益,提出多任务场景下的评估模型,分析不同情境下的重构性能提升。第四章阐述支持可编程性与重构能力的软件化无人机网络架构,包含空中SDN控制与NFV网络部署的创新组件。第五章专注SDN控制器部署,分析无人机网络与地面控制器断连时的挑战,提出高效可动态调整的空中控制器部署方案并进行性能评估。第六章聚焦NFV与无人机网络融合,讨论应用动机与受益场景,描述并评估NFV网络初始部署方案与动态编排流程。第七章总结研究成果,提出结论并展望未来研究方向。
将智能体人工智能(Agentic AI)融入科学发现标志着研究自动化的新前沿。这些具备推理、规划和自主决策能力的AI系统正在改变科学家进行文献综述、提出假设、开展实验和分析结果的方式。本文全面综述了智能体人工智能在科学发现中的应用,对现有系统和工具进行了分类,并重点介绍了在化学、生物学和材料科学等领域的最新进展。我们讨论了关键评估指标、实施框架和常用数据集,以提供对该领域现状的详细理解。最后,我们探讨了文献综述自动化、系统可靠性和伦理问题等关键挑战,同时展望了未来研究方向,强调人机协作和系统校准的增强。
高效处理长上下文一直是自然语言处理领域的不懈追求。 随着长文档、对话及其他文本数据的日益增多,开发能够高效处理与分析长文本输入的**长上下文语言模型(LCLMs)**变得至关重要。本文全面综述了大语言模型在长上下文建模方面的最新进展,围绕三大核心问题展开:如何构建高效且有效的LCLMs——涵盖面向长上下文的数据策略、架构设计及工作流程;如何高效训练与部署LCLMs——深入分析训练与推理所需的基础设施;如何系统评估与分析LCLMs——包括长文本理解与生成的评测范式,以及模型行为分析与机制可解释性研究。此外,本文详细探讨了现有LCLMs的多样化应用场景,并展望了未来发展方向。本综述旨在为学界与工业界提供最新文献参考,相关论文与代码资源已整合于GitHub仓库:LCLM-Horizon。
1. 引言
高效数据处理始终是人类孜孜以求的目标——受限于生物本能,人类只能进行局部、线性的阅读,手动处理长上下文数据效率极其低下。如图1所示,回溯历史长河:公元前300年,亚历山大图书馆的学者需手工抄写、校对手稿并编纂目录,以管理数十万卷古籍[553];公元8世纪,唐代司天监官员需人工处理海量天文观测数据以推算节气[554];15世纪,印刷工人必须手动排布数以万计的活字版才能印制报纸[552];直至20世纪,学者仍需逐篇查阅数十甚至数百份文献方能掌握某个领域的全貌。 语言模型的出现终于带来了革命性跃迁[42, 108, 197等],其能在数分钟内自动处理文本数据。这些模型通过固定上下文窗口对输入序列进行概率建模,实现下一词元预测。早期模型仅能处理数个至数十个词元[36, 61等];随着BERT[101]和GPT-3[37]分别将上下文长度扩展至数百和数千词元,段落、文档及多轮对话的自动处理首度成为可能。近年来,长上下文语言模型(LCLMs)更将上下文长度从4K呈指数级提升至128K[154]、1M[596]甚至10M[499]词元,可单次处理托尔斯泰级巨著(56万字),将人类60小时的阅读量压缩至分钟级计算。更重要的是,超长上下文为测试时扩展[164, 386]提供了空间——模型能在单次上下文中探索、反思、回溯与总结,从根本上改变了人类与生成式AI的交互模式,并解锁了一系列惊艳能力: * 类o1的长链推理[164, 373, 386] * 复杂智能体工作流[506] * 卓越的上下文学习[366, 499] * 高效信息检索与理解[262, 531] * 先进多模态智能[507, 550]
本文系统梳理了长上下文语言建模的研究进展。如图2所示,我们围绕三大核心维度展开: RQ1:如何获得高效能LCLMs? RQ2:如何高效训练与部署LCLMs? RQ3:如何全面评估与分析LCLMs? 除上述方向外,我们还深入探讨了LCLMs的多样化应用场景。 首先(对应RQ1),我们从数据策略(§2)、架构设计(§3)和工作流设计(§4)三方面展开: * 数据策略:详述预训练/微调阶段的数据工程方法,包括数据选择、过滤、合成与混合等 * 架构设计:系统分析三大类方案——基于Transformer的改进、线性复杂度架构、混合范式 * 工作流设计:涵盖提示压缩、基于记忆/检索增强生成(RAG)/智能体的扩展方案
其次(对应RQ2),我们总结AI基础设施优化策略(§5): * 训练基础设施:I/O优化、GPU内存访问优化、通信-计算重叠优化 * 推理基础设施:量化、内存管理、预填充-解码分离架构、GPU-CPU并行推理、推测解码
再次(对应RQ3),我们建立评估体系(§6)与分析框架(§7): * 评估:划分长上下文理解与长文本生成两类任务,梳理评测范式与基准数据集 * 分析:外部性能分析(有效上下文长度、PPL指标、中间信息丢失等)与内部结构分析(位置编码、注意力头、MLP层等)
最后,§8归纳LCLMs在智能体、RAG、编程、多模态等领域的应用;§9提出五大未来方向: 1. 长思维链推理 1. 有效的上下文扩展 1. 高效架构与基础设施 1. 鲁棒性评估 1. 机制可解释性
如表1所示,相较已有综述[106, 327, 397]聚焦特定主题,本文首次全面覆盖LCLMs技术图谱,通过跨领域整合解答上述核心问题。 我们期望本综述能为NLP领域的研究者、工程师及爱好者提供全景式参考,既呈现当前进展,亦指明现存挑战,助力这一激动人心的领域持续突破。
摘要——智能体时代已然来临,而这一变革的驱动力正是大语言模型的突破性进展。大语言模型(LLM)智能体凭借其目标驱动行为与动态适应能力,很可能成为通往通用人工智能的关键路径。本文通过方法论导向的体系化分类,系统解构LLM智能体系统,揭示其架构基础、协作机制与进化路径之间的深层关联。我们整合了当前零散的研究脉络,阐明智能体设计原则与其在复杂环境中涌现行为之间的本质联系。本研究提供了一种统一的架构视角,涵盖智能体的构建方式、协作机制与演化过程,同时探讨了评估方法、工具应用、现实挑战及多样化应用场景。通过梳理这一快速发展领域的最新进展,我们为研究者提供了理解LLM智能体的结构化分类体系,并指明了未来研究的潜在方向。本文集可通过
https://github.com/luo-junyu/Awesome-Agent-Papers获取。 **
**关键词——大语言模型,LLM智能体,AI智能体,智能代理,多智能体系统,LLM,文献综述 1 引言人工智能正迈入一个关键时代,其标志是**大语言模型智能体(LLM Agent)**的崛起——这些由大语言模型(LLMs)驱动的智能实体能够感知环境、推理目标并执行行动[1]。与传统AI系统仅被动响应用户输入不同,现代LLM智能体通过持续学习、推理和适应,主动与环境交互。这一转变不仅是技术升级,更是对人机关系的根本性重构。商用LLM智能体系统(如DeepResearch、DeepSearch和Manus)印证了此范式变革:它们能自主完成从深度研究到计算机操作等曾需人类专业知识的复杂任务,同时适配用户个性化需求。相较于传统智能体系统[2],基于LLM的智能体在知识来源[3]、泛化能力[4]和交互模式[5]等维度实现了代际跨越。当今智能体的质变源于三大关键进展的融合:❶ LLMs前所未有的推理能力[6],❷ 工具操控与环境交互技术的进步[7],以及❸ 支持长期经验积累的精密记忆架构[8][9]。这种融合将理论构想转化为实用系统,日益模糊"助手"与"协作者"的界限。其本质在于LLMs作为通用任务处理器,通过生成式架构在语义空间内统一感知、决策与行动,从而形成类人认知闭环[10]。本研究通过构建-协作-演化的统一分类框架,首次系统解构智能体系统。我们提供全景视角,追溯智能体的定义方式、独立/协同运作机制及长期进化路径。除厘清现状外,更揭示了预示未来发展的新兴范式。智能体技术的快速演进亟需及时综述,为研究者提供理解这一动态领域的最新分类体系。图1展示了我们设计的LLM智能体生态框架:以方法论为核心,我们从三个互相关联的维度分析智能体技术基础:构建(定义与实现方式)协作(交互与协同机制)演化(学习与优化路径)此三维基础辅以实践考量,包括评估方法、开发工具、安全与伦理等现实挑战,以及多样化应用场景。该框架贯穿全文,实现对每个维度的系统性探索及其关联性的强调。与既有综述的差异尽管近年有多篇AI智能体综述,本研究通过方法论聚焦与LLM智能体架构的全面分析做出独特贡献。既往研究或局限于特定应用(如游戏[11][12])、部署环境[13][14]、多模态[15]或安全[16],或仅提供宽泛概述而缺乏方法论分类[1][17]。近期工作虽对比了LLM与传统AI智能体[9]、多智能体交互[18]、工作流[19]及协作决策机制[20],但本研究的特色在于:方法论导向的分类体系:提出系统化分类法,从角色定义、记忆机制、规划能力到行动执行[21]解构LLM智能体核心组件。构建-协作-演化框架:通过三维度联动分析(构建/协作/演化),提供比既往研究[22][23]更整体的认知,凸显个体设计与协作系统的连续性——而前人常割裂讨论这些方面[22][24]。前沿应用与现实聚焦:除理论探讨外,深入剖析LLM智能体的尖端工具、通信协议及跨领域应用,并对安全、隐私与伦理等现实挑战进行全面分析。在智能体技术从研究迈向大规模落地的关键阶段,这一前瞻视角尤为重要。本综述为研究者和从业者提供结构化分类体系,助力从多视角理解、比较和推进LLM智能体研究。随着LLM智能体日益深入各关键领域,理解其架构基础不仅对学术界,对政策制定者、产业界乃至全社会都至关重要。本文旨在奠定这一基础,同时为这一快速演进领域指明发展方向。
AIGC到底是什么 AIGC(Artificial Intelligence Generated Content)即人工智能生成内容。它是一种基于人工智能技术的应用,通过训练大量的数据,学习人类语言的特征和模式,进而生成各种内容,如文本、图像、语音等。 技术算法具有智能特性 弱人工智能(ANI)仅擅长单个场景的程序化处理 强人工智能(AGI)可在多个场景进行工作处理与自我学习 超人工智能(ASI)在所有领域超越人类水平的人工智能 针对信息进行创造性生产 图文影音等各方面的创造生成 AIGC有多高效 AIGC可以在短短几秒准确地处理图像、生成多样化的内容,并能实现智能分析和决策,从而让原本难以着手的工作更轻松得到解决。 分析文件并创作-2分钟搞定!