大型语言模型(LLMs)已被证明是解决广泛任务的强大工具,企业也注意到了这一点。然而,从演示和原型过渡到成熟的应用可能会面临诸多挑战。本书旨在弥合这一差距,为从业者提供构建实用产品所需的工具、技术和策略,这些产品能够充分利用语言模型的能力。 经验丰富的机器学习研究员 Suhas Pai 提供了关于如何利用 LLMs 解决实际用例并应对常见故障模式的实用建议。您将全面深入了解语言模型的组成要素,探索诸如微调等定制技术,学习像 RAG(检索增强生成)和代理等应用范式,以及更多内容。 * 了解如何为训练和微调准备数据集

培养对 Transformer 架构及其变体的直觉

将预训练语言模型适配到您自己的领域和用例

学习微调、领域适应和推理优化的有效技术

将语言模型与外部工具和数据接口,并将其集成到现有软件生态系统中

成为VIP会员查看完整内容
48

通过将思维链(CoT)推理在类人逐步推理过程中的优势扩展到多模态场景,多模态思维链(MCoT)推理近年来引起了广泛的研究关注,尤其是在与多模态大语言模型(MLLMs)的结合方面。现有的MCoT研究设计了多种方法论和创新推理范式,以应对图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,并在机器人、医疗、自动驾驶和多模态生成等应用中取得了广泛成功。然而,MCoT仍然面临独特的挑战和机遇,需要进一步关注以确保该领域的持续繁荣。遗憾的是,目前缺乏对这一领域的最新综述。为了填补这一空白,我们首次对MCoT推理进行了系统性综述,阐明了相关的基础概念和定义。我们从不同应用场景的多个角度提供了全面的分类和深入的方法论分析。此外,我们还对现有挑战和未来研究方向提出了见解,旨在推动多模态通用人工智能(AGI)的创新。

关键词:多模态推理,思维链,多模态大语言模型

1 引言

大型语言模型(LLMs)[1–7]的出现为人工智能(AI)领域开启了一个前所未有的时代。长期以来,人们认识到与真实世界环境的多模态本质对齐的必要性,相应地,AI领域从LLMs发展到多模态大语言模型(MLLMs)[8–18],将多种模态整合到语言智能中。实现人类水平的智能需要超越基本的感知能力,达到复杂的认知推理能力——这是人类认知的标志,能够通过上下文理解和自我修正进行迭代推理。受此启发,上下文学习(ICL)技术使LLMs能够展示逐步推理——通常称为思维链(CoT)推理机制[19–24]。该技术使模型能够将问题分解为一系列中间步骤,从而增强决策的透明性以及在复杂推理任务中的表现。CoT推理在广泛的下游复杂任务中的显著成功推动了其在学术界和工业界的广泛应用。特别是最近的技术进步将这一能力隐式地集成到尖端系统中,如OpenAI的o1/o3 [25]和DeepSeek R1 [26],引起了广泛关注。将CoT推理整合到多模态场景中,进一步催化了AI的变革性进展,催生了多模态思维链(MCoT)推理[27, 28]。由于CoT属性和跨模态数据交互的异质性,MCoT主题产生了一系列创新成果。一方面,原始的CoT框架已演变为包含分层思维结构的高级推理架构,从线性序列[19]到基于图的表示[23]。另一方面,与单模态文本设置不同,视觉、听觉和时空数据等多样化模态需要专门的处理策略——视觉推理需要对静态场景和对象关系进行精确感知和分析,而视频理解则需要强大的时间动态建模能力。这些需求推动了多种复杂MCoT方法的发展,这些方法使推理过程适应特定模态的特征,例如Multimodal-CoT [29]、MVoT [30]、Video-of-Thought [31]、Audio-CoT [32]、Cot3DRef [33]和PARM++ [34]。MCoT的显著效果也使其在自动驾驶[35–38]、具身AI [39–41]、机器人[42–45]和医疗[46–50]等关键领域成功应用,使其成为实现多模态通用人工智能(AGI)的基础技术。近年来,MCoT的研究吸引了越来越多的关注。图1展示了这一新兴领域的关键里程碑时间线。尽管MCoT在增强多模态推理方面具有巨大潜力,但它也提出了重大挑战,并留下了几个关键问题未解——例如,如何确定利用多样化多模态上下文的最有效策略,设计真正增强MLLMs推理能力的CoT过程,以及在这些模型中实现隐式推理。值得注意的是,缺乏全面的综述阻碍了这一新兴领域的知识整合。为了填补这一关键空白,本文首次对MCoT推理进行了系统性综述,提供了对技术发展、方法论、实际应用和未来方向的结构化分析。我们希望本综述能够成为权威参考,推动这一快速演进领域的进一步创新和进展。1.1 贡献首次综述:本文是首次专门对MCoT推理进行全面综述的论文。全面分类:我们提出了一个细致的分类法(见图2),对MCoT研究中的多样化方法进行了分类。前沿与未来方向:我们讨论了新兴挑战,并概述了未来研究的有前景的方向。资源共享:我们整理并公开了所有相关资源,以支持和加速研究社区的进展。1.2 综述结构本综述的其余部分组织如下。我们首先介绍与MCoT相关的基本概念和背景知识(§2)。然后,我们回顾了不同模态下MCoT的最新研究(§3)。接下来,我们提供了一个分类法,并从多个角度整合了MCoT的主流方法(§4)。随后,我们总结了MCoT的广泛下游应用(§5)。接着,我们从多个角度概述了数据集和基准测试(§6)。最后,我们讨论了该领域的挑战和未来方向(§7)。

成为VIP会员查看完整内容
47

不久前发布的“清华大学DeepSeek使用手册,长达104页!”还没学完,又一重磅教程来袭! 作为正在科研的你,是不是急需一份适合科研人的教程,想着如果科研也能像和朋友聊天一样轻松愉快,那该有多好?! 来,安排!清华大学又一重磅教程来了! 由清华大学《DeepSeek+DeepResearch:让科研像聊天一样简单》这一教程将更加适合高校老师和学生。**

**图片

是的,你没听错,科研不再是你想象中的那种枯燥无味的苦差事,而是可以像刷朋友圈一样简单有趣。图片 图片

图片

图片 图片 **

**

成为VIP会员查看完整内容
42

Transformer:理论架构创新   自注意力机制:支持并行计算/全局上下文的理解能力   多头注意力:从多个角度捕捉复杂的语义关系   前馈网络/位置编码/层归一化:解决了传统模型的诸多局限性   人工智能   自监督学习(语言)   MaskedLangaugeModeling(MLM)模型会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,这一过程为‘自监督学习’     自监督学习(图像)   MaskedAutoEncoders(MAE)通过随机遮盖部分输入数据(如图像)并重建缺失内容,让模型从上下文中学到图像的深层特征,常用于计算机视觉任务。     数据:训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。     模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。     算力:ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币。     大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。  

成为VIP会员查看完整内容
42

本研究提出一种针对动态武器目标分配(DWTA)问题的强化学习(RL)框架,该组合优化问题具有军事应用背景。动态武器目标分配是静态武器目标分配问题(WTA)的扩展,通过引入时间相关要素以模拟战争的动态特性。传统WTA解决方法包括简化模型、精确算法和启发式方法,但这些方法面临可扩展性与计算复杂性挑战。本研究提出包含时间阶段的DWTA数学模型,支持多阶段战略规划。该模型被构建为带有约束条件的非线性整数规划问题,确保武器分配方案在时间维度上的可行性。为应对大规模DWTA的计算挑战,论文采用深度强化学习(DRL)算法——特别是深度Q网络(DQN)与行动者-评论家(AC)算法——来学习高效的武器分配策略。所提出的强化学习框架通过多种问题场景验证,证明其能在合理推理时间内提供可行解决方案,适用于时效性要求高的应用场景。结果显示,强化学习方法在约束编程精确算法的对比中表现更优,且随着问题规模扩大优势愈发显著,凸显了其在DWTA问题中实际应用的潜力。

武器目标分配(WTA)属于组合优化问题(COP),其目标是通过战略性分配武器至目标以最大化对敌毁伤效果。随着新型武器系统的发展及其使用复杂性的提升,WTA的重要性日益凸显,凸显出对高效算法管理多样化武器的迫切需求(Kline等人,2019a)。然而,Lloyd与Witsenhausen(1986)证明WTA问题属于NP完全问题,表明不存在已知的多项式时间算法。这一复杂性导致计算量随问题规模扩大或条件复杂化而急剧增加。

WTA问题可分为静态与动态两类。动态武器目标分配(DWTA)考虑武器使用的时间依赖性(Kline等人,2019a),而静态武器目标分配(SWTA)被视为原始WTA问题,也是DWTA在时间阶段数为一时的一种特例。本研究通过引入多时间阶段扩展原始WTA问题,形成DWTA框架。这一改进使得可用资产可被战略性地分配,从而随时间推移达成理想的终局状态。它反映了战场场景中决策的动态性——每次交战的成果将影响后续决策。有效的武器-目标分配规划需适应这种动态环境。具体而言,必须考虑武器的可用性限制,因为并非所有武器均可无限使用,它们可能需要在下次交战前补充弹药、人员或燃料。

因此,本研究中提出的DWTA模型包含每次武器分配后的准备时间。该方法通过强调周密规划与资源管理优化决策流程,确保武器分配在考虑后续交战需求的前提下实现高效配置。

本研究采用强化学习(RL)解决DWTA问题。自Bello等人(2016)提出以来,RL已成为应对组合优化问题的前沿方法。与监督学习不同,RL无需标记数据进行训练,而是通过基于奖励的学习机制实现优化,这使其特别适用于组合优化问题。具体而言,本文对比了采用深度强化学习(DRL)算法的模型。DRL在缺乏真实数据或获取成本高昂的大规模组合优化问题中表现优异,因其可利用神经网络等近似函数并从奖励信号中学习。DRL模型可通过学习参数高效解决问题,无需从零开始求解每个问题。此外,由于学习基于仿真器生成的奖励,DRL能适应问题条件变化而无需重构数学模型。

本研究实施了两类代表性DRL方法:深度Q网络(DQN)与行动者-评论家(AC)算法。DQN是基于价值的算法,旨在近似特定状态下采取行动的预期奖励,通过最大化该价值学习最优行动策略。相比之下,AC算法结合了基于策略与基于价值的方法,通过"行动者"直接学习特定状态下的最优行动,而"评论家"评估行动者决策的有效性。本研究通过对比同一DWTA场景下采用相同训练方法的DQN与AC算法性能,旨在分析不同算法的结果差异。该方法有助于深入理解各类DRL算法在不同DWTA配置下的表现差异。

论文后续结构安排如下:第二章综述前人研究并阐明本研究与前人工作的差异;第三章定义DWTA框架;第四章阐述方法论;第五章展示实验方法与结果;第六章为全文结论。

成为VIP会员查看完整内容
41

随着大语言模型(LLMs)的快速发展,基于LLM的智能体已在多个领域得到广泛应用,成为自主决策和交互任务的关键技术。然而,现有研究通常依赖于对原始LLM进行提示设计或微调的策略,这往往导致智能体在复杂环境中的效能受限或表现欠佳。尽管LLM优化技术能提升模型在通用任务中的性能,但其对智能体关键功能(如长期规划、动态环境交互和复杂决策)仍缺乏针对性优化。虽然近期大量研究探索了优化LLM智能体的多种策略,但目前仍缺乏从整体视角系统梳理和比较这些方法的综述研究。

本文全面回顾了基于LLM的智能体优化方法,将其划分为参数驱动型与无参数型两大类。针对参数驱动优化,我们重点探讨了基于微调的优化、基于强化学习的优化以及混合策略,深入分析了轨迹数据构建、微调技术、奖励函数设计和优化算法等关键要素。同时简要讨论了通过提示工程和外部知识检索实现行为优化的无参数策略。最后,我们系统总结了用于评估调优的数据集与基准测试,梳理了LLM智能体的主要应用场景,并探讨了当前面临的核心挑战与未来发展方向。相关文献资源库详见:

https://github.com/YoungDubbyDu/LLM-Agent-Optimization

1 引言

自主智能体的发展一直是人工智能(AI)领域的长期追求目标。AI智能体已从早期的基于规则和专家系统的架构,演进为当前广泛应用的强化学习(RL)驱动型智能体[35]。传统RL智能体通过与环境的交互来优化策略,利用结构化奖励函数实现目标并持续提升性能。然而,这类方法通常需要大量训练、依赖明确定义的状态-动作空间,且难以实现跨任务的泛化能力。近年来,GPT-4[120]、PaLM 2[5]和Deepseek-r1[52]等大语言模型(LLMs)取得显著突破,在语言理解、推理、规划和复杂决策方面展现出卓越能力。基于这些优势,LLMs可作为智能体载体,为提升自主决策能力和实现通用人工智能(AGI)提供新路径[169]。与传统RL智能体优化显式奖励驱动的策略不同,基于LLM的智能体通过文本指令、提示模板和上下文学习(ICL)运作,具有更强的灵活性和泛化能力。这类智能体利用LLMs的理解与推理能力,通过自然语言与环境交互,执行复杂多步任务,并动态适应场景变化。现有LLM智能体采用任务分解[64]、自我反思[133]、记忆增强[210]和多智能体协作[86]等方法,在软件开发[67]、数学推理[1]、具身智能[212]、网络导航[28]等领域取得优异表现。然而,LLMs本质上并非为自主决策和长期任务设计。其训练目标聚焦于下一词元预测,而非智能体任务所需的推理、规划或交互学习,因此缺乏面向智能体任务的专门训练。这导致LLM智能体在复杂环境中面临三大挑战:1)长周期规划和多步推理能力不足,生成内容可能导致任务不一致或错误累积;2)有限记忆容量阻碍利用历史经验进行反思,影响决策质量;3)依赖预训练知识或固定上下文,适应新环境能力受限。这些局限在开源模型中尤为明显,其智能体能力显著落后于GPT-4等专有模型。此外,闭源模型的高成本与低透明度,凸显了优化开源LLM以提升智能体能力的必要性。现有技术如监督微调(SFT)[122]和人类反馈强化学习(RLHF)[121]虽在指令跟随任务中取得进展,但未能完全解决LLM智能体的决策、长期规划和适应性问题。优化LLM智能体需要更深入理解动态环境和智能体行为,开发超越传统微调与提示工程的专门技术。为此,近期研究探索了多种优化策略,使智能体能够跨环境泛化、基于反馈调整策略,并高效利用工具、记忆和检索机制等外部资源。

本文首次对LLM智能体优化研究进行系统综述,将方法划分为参数驱动型与无参数型优化策略。参数驱动型优化通过调整LLM参数提升性能, 包括:基于微调的方法(涵盖轨迹数据构建和微调策略等关键环节);基于RL的方法(分为采用Actor-Critic[147]、PPO[136]等传统RL技术的奖励函数优化,以及利用直接偏好优化(DPO)[132]实现策略与人类偏好对齐的方法);以及结合SFT与RL的混合优化策略。无参数型优化则通过提示工程、上下文学习和检索增强生成(RAG)等技术改进智能体行为,具体分为反馈驱动型、经验驱动型、工具增强型、检索增强型和多智能体协作型优化。与现有综述的差异:尽管LLM智能体研究日益活跃,但现有综述或聚焦通用LLM优化,或仅讨论规划、记忆等特定能力,未将LLM智能体优化作为独立研究领域。LLM优化综述多关注微调[115,122]和自我进化方法[150],缺乏对智能体专用优化的探讨;而智能体综述通常按架构组件(如规划[64]、记忆[210])分类,未系统总结优化行为与性能的技术。相较之下,本文是首个专注于LLM智能体优化技术的综述,为方法比较和未来研究提供清晰框架。研究范围:1)仅涵盖提升问题解决、决策等任务性能的LLM智能体优化算法;2)选录AI/NLP顶会期刊论文及arXiv高影响力预印本;3)聚焦2022年后的最新进展。全文结构:第2节介绍背景知识;第3节系统分析参数驱动型优化(含微调优化、RL优化和混合优化);第4节分类阐述无参数型优化;第5-6节总结评估数据集与应用场景;第7节展望挑战与未来方向。

成为VIP会员查看完整内容
43

**

**

生成式人工智能(Generative Artificial Intelligence)是人工智能领域的一个重要分支,专注于创建能够生成新内容(如文本、图像、音频和视频)的模型。与传统的判别式模型不同,生成式模型通过学习数据的分布来生成与训练数据相似但全新的样本。近年来,生成式人工智能在多个领域取得了显著进展,并展现出广泛的应用潜力。

**核心概念

生成模型:生成模型旨在学习输入数据的概率分布,并从中生成新的样本。常见的生成模型包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归模型(如GPT系列)。 1. 生成对抗网络(GANs):由生成器和判别器组成,通过对抗训练生成高质量的数据样本。生成器试图生成逼真的数据,而判别器则试图区分生成数据与真实数据。 1. 变分自编码器(VAEs):通过编码器将输入数据映射到潜在空间,再通过解码器从潜在空间重建数据。VAEs 在生成数据的同时,还能够学习数据的潜在表示。 1. 自回归模型:通过逐步生成序列中的每个元素来生成数据。例如,GPT 系列模型通过预测下一个词来生成连贯的文本。

**应用领域

自然语言处理(NLP)

文本生成:生成新闻文章、故事、诗歌等。 * 对话系统:构建智能聊天机器人和虚拟助手。 * 机器翻译:实现高质量的多语言翻译。 1. 计算机视觉

图像生成:生成逼真的图像、艺术作品和设计草图。 * 图像修复:修复损坏或模糊的图像。 * 风格迁移:将一种艺术风格应用到另一幅图像上。 1. 音频与视频生成

语音合成:生成自然流畅的语音。 * 音乐生成:创作原创音乐作品。 * 视频生成:生成短视频或动画内容。 1. 医疗与科学

药物发现:生成潜在的药物分子结构。 * 医学影像分析:生成合成医学影像以辅助诊断。 1. 艺术与创意

艺术创作:生成绘画、雕塑等艺术作品。 * 内容创作:辅助作家、设计师和艺术家进行创作。

**挑战与未来方向

数据质量与多样性:生成模型依赖于高质量和多样化的训练数据,数据偏差可能导致生成结果的偏差。 1. 模型可解释性:生成式模型的决策过程通常较为复杂,缺乏可解释性。 1. 伦理与安全:生成式人工智能可能被滥用于生成虚假信息或恶意内容,需要加强伦理规范和技术防护。 1. 计算资源:训练和部署生成模型需要大量的计算资源,限制了其广泛应用。

**总结

生成式人工智能正在改变我们与技术的互动方式,并在多个领域展现出巨大的潜力。随着技术的不断进步,生成式人工智能有望在未来的创新和应用中发挥更加重要的作用。然而,其发展也伴随着技术、伦理和社会方面的挑战,需要跨学科合作来解决。

成为VIP会员查看完整内容
38

无人机(UAV)被视为搜救行动、灾害救援、遥感测绘、空中监视与安防领域的重要工具。无人机辅助通信网络凭借其成本效益与灵活性,作为能提供新功能与机遇的网络基础设施正获得广泛关注。除了支持复杂多机任务的互联互通,无人机网络还可部署于偏远地区与极端环境提供连接服务,并根据可变需求对移动网络覆盖进行补充扩展。然而,利用这种灵活性需应对无人机网络固有的动态性特征——包括高度移动性与资源受限性。通过软件定义网络(SDN)与网络功能虚拟化(NFV)实现的网络软件化,能借助集中化可编程性与虚拟化网络功能,为无人机网络提供灵活自适应的控制与重构能力。

本论文通过识别软件化为无人机网络带来的潜在增益——这些增益在先前研究中尚未被充分探索——展开对无人机网络软件化的研究。为实现SDN与NFV在无人机网络中的应用,我们提出并描述了一种软件化无人机网络架构。此外,针对SDN架构的核心要素——SDN控制器的关键挑战展开研究,该控制器通过逻辑集中式控制器与可编程网络节点间的接口实现网络可编程性。为适应网络移动性与连接约束,我们提出部署与分配嵌入式SDN控制器的方案,确保在网络拓扑动态变化及地面基础设施可能不可用时控制功能的持续运行。同时,我们充分利用NFV提供的灵活性。需开发新型部署与编排方案,以有效管理由虚拟网络功能(VNF)定义任务与网络功能的无人机网络。为此,我们描述了受益于此灵活性的适用场景,并提出高效部署与管理基于NFV的无人机网络方案。

本文的贡献如下:

  • 软件化增益评估:为验证无人机网络软件化的合理性,我们通过建立软件化无人机性能增益评估模型展开研究。该模型模拟由多架无人机组成的系统执行不同需求任务的场景,对比有限或非软件化系统,分析多种情境下网络重构能力的效果。

  • 软件化无人机网络架构:提出支持无人机网络软件化的架构体系,描述实现网络部署与重构所需的组件与功能,并解决现有技术限制。该架构包含以下核心创新:

  • SDN控制器部署方案:针对无人机快速移动特性及偏远地区无法部署地面SDN控制器的挑战,提出空中控制器部署方案。该方案在容量与通信约束条件下,以最少无人机作为控制器,并通过灵活设计确保节点-控制器及控制器间连接。进一步提出动态调整机制,使空中控制器能追踪拓扑变化的无人机网络节点,同时限制控制器移动以减少拓扑调整的时间与能耗。

  • 基于NFV的无人机网络:利用NFV在无人机计算设施上部署多样化网络与处理功能,实现灵活网络规划、资源高效利用及动态重构能力。该特性对缺乏计算基础设施的偏远地区任务尤为重要,支持数据就地采集、处理与传输。我们展示需在任务区不同位置完成数据捕获、处理与交付的适用场景,将网络或任务功能表达为由系列虚拟网络功能(VNF)构成的服务功能链(SFC),并提出联合无人机网络部署与SFC布局方案。该方案构建覆盖任务区域的最小化无人机网络,分配充足资源满足VNF及其流量需求。为适应网络移动性,设计动态编排机制,在无人机移动引发拓扑变化时维持网络连接与SFC需求,同时限制因反复移动与调整导致的网络中断与开销。

后续结构安排如下:第二章综述无人机网络的应用场景与挑战,介绍软件化技术(SDN与NFV)及其在通信网络中的通用性,探讨无人机网络软件化的动机,梳理现有SDN/NFV与无人机网络融合的研究进展与局限。第三章量化无人机网络软件化增益,提出多任务场景下的评估模型,分析不同情境下的重构性能提升。第四章阐述支持可编程性与重构能力的软件化无人机网络架构,包含空中SDN控制与NFV网络部署的创新组件。第五章专注SDN控制器部署,分析无人机网络与地面控制器断连时的挑战,提出高效可动态调整的空中控制器部署方案并进行性能评估。第六章聚焦NFV与无人机网络融合,讨论应用动机与受益场景,描述并评估NFV网络初始部署方案与动态编排流程。第七章总结研究成果,提出结论并展望未来研究方向。

成为VIP会员查看完整内容
37

高效处理长上下文一直是自然语言处理领域的不懈追求。 随着长文档、对话及其他文本数据的日益增多,开发能够高效处理与分析长文本输入的**长上下文语言模型(LCLMs)**变得至关重要。本文全面综述了大语言模型在长上下文建模方面的最新进展,围绕三大核心问题展开:如何构建高效且有效的LCLMs——涵盖面向长上下文的数据策略、架构设计及工作流程;如何高效训练与部署LCLMs——深入分析训练与推理所需的基础设施;如何系统评估与分析LCLMs——包括长文本理解与生成的评测范式,以及模型行为分析与机制可解释性研究。此外,本文详细探讨了现有LCLMs的多样化应用场景,并展望了未来发展方向。本综述旨在为学界与工业界提供最新文献参考,相关论文与代码资源已整合于GitHub仓库:LCLM-Horizon。

1. 引言

高效数据处理始终是人类孜孜以求的目标——受限于生物本能,人类只能进行局部、线性的阅读,手动处理长上下文数据效率极其低下。如图1所示,回溯历史长河:公元前300年,亚历山大图书馆的学者需手工抄写、校对手稿并编纂目录,以管理数十万卷古籍[553];公元8世纪,唐代司天监官员需人工处理海量天文观测数据以推算节气[554];15世纪,印刷工人必须手动排布数以万计的活字版才能印制报纸[552];直至20世纪,学者仍需逐篇查阅数十甚至数百份文献方能掌握某个领域的全貌。 语言模型的出现终于带来了革命性跃迁[42, 108, 197等],其能在数分钟内自动处理文本数据。这些模型通过固定上下文窗口对输入序列进行概率建模,实现下一词元预测。早期模型仅能处理数个至数十个词元[36, 61等];随着BERT[101]和GPT-3[37]分别将上下文长度扩展至数百和数千词元,段落、文档及多轮对话的自动处理首度成为可能。近年来,长上下文语言模型(LCLMs)更将上下文长度从4K呈指数级提升至128K[154]、1M[596]甚至10M[499]词元,可单次处理托尔斯泰级巨著(56万字),将人类60小时的阅读量压缩至分钟级计算。更重要的是,超长上下文为测试时扩展[164, 386]提供了空间——模型能在单次上下文中探索、反思、回溯与总结,从根本上改变了人类与生成式AI的交互模式,并解锁了一系列惊艳能力: * 类o1的长链推理[164, 373, 386] * 复杂智能体工作流[506] * 卓越的上下文学习[366, 499] * 高效信息检索与理解[262, 531] * 先进多模态智能[507, 550]

本文系统梳理了长上下文语言建模的研究进展。如图2所示,我们围绕三大核心维度展开: RQ1:如何获得高效能LCLMs? RQ2:如何高效训练与部署LCLMs? RQ3:如何全面评估与分析LCLMs? 除上述方向外,我们还深入探讨了LCLMs的多样化应用场景。 首先(对应RQ1),我们从数据策略(§2)、架构设计(§3)和工作流设计(§4)三方面展开: * 数据策略:详述预训练/微调阶段的数据工程方法,包括数据选择、过滤、合成与混合等 * 架构设计:系统分析三大类方案——基于Transformer的改进、线性复杂度架构、混合范式 * 工作流设计:涵盖提示压缩、基于记忆/检索增强生成(RAG)/智能体的扩展方案

其次(对应RQ2),我们总结AI基础设施优化策略(§5): * 训练基础设施:I/O优化、GPU内存访问优化、通信-计算重叠优化 * 推理基础设施:量化、内存管理、预填充-解码分离架构、GPU-CPU并行推理、推测解码

再次(对应RQ3),我们建立评估体系(§6)与分析框架(§7): * 评估:划分长上下文理解与长文本生成两类任务,梳理评测范式与基准数据集 * 分析:外部性能分析(有效上下文长度、PPL指标、中间信息丢失等)与内部结构分析(位置编码、注意力头、MLP层等)

最后,§8归纳LCLMs在智能体、RAG、编程、多模态等领域的应用;§9提出五大未来方向: 1. 长思维链推理 1. 有效的上下文扩展 1. 高效架构与基础设施 1. 鲁棒性评估 1. 机制可解释性

如表1所示,相较已有综述[106, 327, 397]聚焦特定主题,本文首次全面覆盖LCLMs技术图谱,通过跨领域整合解答上述核心问题。 我们期望本综述能为NLP领域的研究者、工程师及爱好者提供全景式参考,既呈现当前进展,亦指明现存挑战,助力这一激动人心的领域持续突破。

成为VIP会员查看完整内容
35

摘要——智能体时代已然来临,而这一变革的驱动力正是大语言模型的突破性进展。大语言模型(LLM)智能体凭借其目标驱动行为与动态适应能力,很可能成为通往通用人工智能的关键路径。本文通过方法论导向的体系化分类,系统解构LLM智能体系统,揭示其架构基础、协作机制与进化路径之间的深层关联。我们整合了当前零散的研究脉络,阐明智能体设计原则与其在复杂环境中涌现行为之间的本质联系。本研究提供了一种统一的架构视角,涵盖智能体的构建方式、协作机制与演化过程,同时探讨了评估方法、工具应用、现实挑战及多样化应用场景。通过梳理这一快速发展领域的最新进展,我们为研究者提供了理解LLM智能体的结构化分类体系,并指明了未来研究的潜在方向。本文集可通过

https://github.com/luo-junyu/Awesome-Agent-Papers获取。 **

**关键词——大语言模型,LLM智能体,AI智能体,智能代理,多智能体系统,LLM,文献综述 1 引言人工智能正迈入一个关键时代,其标志是**大语言模型智能体(LLM Agent)**的崛起——这些由大语言模型(LLMs)驱动的智能实体能够感知环境、推理目标并执行行动[1]。与传统AI系统仅被动响应用户输入不同,现代LLM智能体通过持续学习、推理和适应,主动与环境交互。这一转变不仅是技术升级,更是对人机关系的根本性重构。商用LLM智能体系统(如DeepResearch、DeepSearch和Manus)印证了此范式变革:它们能自主完成从深度研究到计算机操作等曾需人类专业知识的复杂任务,同时适配用户个性化需求。相较于传统智能体系统[2],基于LLM的智能体在知识来源[3]、泛化能力[4]和交互模式[5]等维度实现了代际跨越。当今智能体的质变源于三大关键进展的融合:❶ LLMs前所未有的推理能力[6],❷ 工具操控与环境交互技术的进步[7],以及❸ 支持长期经验积累的精密记忆架构[8][9]。这种融合将理论构想转化为实用系统,日益模糊"助手"与"协作者"的界限。其本质在于LLMs作为通用任务处理器,通过生成式架构在语义空间内统一感知、决策与行动,从而形成类人认知闭环[10]。本研究通过构建-协作-演化的统一分类框架,首次系统解构智能体系统。我们提供全景视角,追溯智能体的定义方式、独立/协同运作机制及长期进化路径。除厘清现状外,更揭示了预示未来发展的新兴范式。智能体技术的快速演进亟需及时综述,为研究者提供理解这一动态领域的最新分类体系。图1展示了我们设计的LLM智能体生态框架:以方法论为核心,我们从三个互相关联的维度分析智能体技术基础:构建(定义与实现方式)协作(交互与协同机制)演化(学习与优化路径)此三维基础辅以实践考量,包括评估方法、开发工具、安全与伦理等现实挑战,以及多样化应用场景。该框架贯穿全文,实现对每个维度的系统性探索及其关联性的强调。与既有综述的差异尽管近年有多篇AI智能体综述,本研究通过方法论聚焦与LLM智能体架构的全面分析做出独特贡献。既往研究或局限于特定应用(如游戏[11][12])、部署环境[13][14]、多模态[15]或安全[16],或仅提供宽泛概述而缺乏方法论分类[1][17]。近期工作虽对比了LLM与传统AI智能体[9]、多智能体交互[18]、工作流[19]及协作决策机制[20],但本研究的特色在于:方法论导向的分类体系:提出系统化分类法,从角色定义、记忆机制、规划能力到行动执行[21]解构LLM智能体核心组件。构建-协作-演化框架:通过三维度联动分析(构建/协作/演化),提供比既往研究[22][23]更整体的认知,凸显个体设计与协作系统的连续性——而前人常割裂讨论这些方面[22][24]。前沿应用与现实聚焦:除理论探讨外,深入剖析LLM智能体的尖端工具、通信协议及跨领域应用,并对安全、隐私与伦理等现实挑战进行全面分析。在智能体技术从研究迈向大规模落地的关键阶段,这一前瞻视角尤为重要。本综述为研究者和从业者提供结构化分类体系,助力从多视角理解、比较和推进LLM智能体研究。随着LLM智能体日益深入各关键领域,理解其架构基础不仅对学术界,对政策制定者、产业界乃至全社会都至关重要。本文旨在奠定这一基础,同时为这一快速演进领域指明发展方向。

成为VIP会员查看完整内容
34

本书采用经典方法与优化理论相结合的方式,系统介绍博弈论的数学理论体系。全书采用"定理-证明-示例"的教学范式,不仅聚焦博弈论核心结论,更注重论证方法的传授。 第一部分重点阐述经典博弈理论:从赌场游戏视角的概率论基础入门,到纳什一般和博弈混合策略均衡存在性证明终章,其间完整覆盖效用理论、博弈树与极小化极大定理等核心内容,辅以丰富案例解析。第二部分引入优化理论与KKT条件,系统演示如何将博弈问题重构为优化问题以实现纳什均衡计算。第三部分专论合作博弈:创新性地将纳什议价模型重塑为多目标优化问题,并运用线性规划与对偶理论重新证明经典的Bondareva-Shapley定理。 本书提供两个数学基础附录,并特别增设进化博弈专题附录(涵盖复制动力学等现代内容),便于教师灵活替换传统教学内容。作者Christopher Griffin博士作为宾州州立大学应用研究实验室教授,在应用动力系统、博弈论与优化领域具有深厚造诣,其研究成果获美国国家科学基金会等十余家机构资助,发表学术论文逾百篇。

成为VIP会员查看完整内容
33

随着人工智能技术的快速发展,智能决策技术在各种人机对抗场景中已逐步超越人类水平,尤其在复杂的多智能体协同任务领域表现突出。多智能体协同决策是指多个智能体通过协作完成既定任务、实现特定目标的技术体系,其应用场景广泛涵盖自动驾驶、无人机编队、灾害救援、军事对抗模拟等现实领域。本文首先系统梳理了当前主流的智能体协同决策仿真环境与平台,从任务形式、奖励机制、底层技术等多个维度对这些仿真环境进行了深入剖析。随后,本文全面综述了多智能体系统(MAS)的主流智能决策方法、算法与模型,将其归纳为五大类:基于规则(主要为模糊逻辑)、基于博弈论、基于进化算法、基于深度多智能体强化学习(MARL)以及基于大语言模型(LLMs)推理的方法。鉴于MARL和LLMs方法相较于传统规则、博弈论和进化算法具有显著优势,本文重点聚焦于这两类技术路线,深入探讨了其方法论体系、优势特征及局限性。最后,本文详细阐述了多智能体协同决策领域未来若干重要研究方向及潜在挑战。 关键词: 智能决策,多智能体系统,多智能体协同环境,多智能体强化学习,大语言模型

1. 引言

**1.1 多智能体决策研究背景

随着科学技术的不断进步,智能决策技术取得了快速发展。这些技术在各种人机对抗竞赛中逐渐超越人类能力,甚至达到了顶尖人类水平。在过去的几十年中,尤其是深度Q网络(DQN)[1, 2]在雅达利游戏中的成功应用,以及AlphaGo和AlphaZero [3, 4]战胜人类顶级选手的里程碑式成就,极大地推动了智能决策研究的发展。 为满足现实应用日益增长的复杂性需求,以及对更复杂、可靠和高效智能系统的迫切需求,多智能体协同决策从简单的单智能体场景[5, 6, 7, 8]迅速发展而来。多智能体协同决策是机器学习(ML)[9]和人工智能(AI)[10]领域的重要分支,涉及多个交互智能体在多样化设计的动态仿真环境和复杂现实系统中协作完成既定任务。 如图1所示,从单智能体到多智能体决策系统的研究进展及方法论对比表明,这一快速发展的领域是实现人类水平人工智能(AI)和通用人工智能(AGI)时代的关键一步。多智能体协同决策具有广泛的实际应用场景和众多基础理论研究,其服务领域涵盖智慧农业管理[11, 12]、智能协作机器人[13, 14, 15, 16]、自动驾驶协同避障[17, 18, 19]、自主导航[20, 21, 22]以及联合救援任务[12, 23]等。基于技术快速进步和现实世界的多元化需求,本文聚焦于多智能体协同决策的全面研究。

**1.2 现有多智能体研究综述概览

随着多智能体协同决策的快速发展,该领域的系统性文献综述也显著增加[24, 6, 8, 25]。这些综述涵盖了从理论创新到实际应用的广泛主题,全面概述了当前研究现状。 Ning等人[25]全面综述了基于多智能体强化学习(MARL)的智能体的发展、挑战及应用,包括其实际实施方面。Gronauer等人[6]概述了多智能体深度强化学习的最新进展,重点关注训练方案、涌现的智能体行为以及多智能体领域的独特挑战,同时讨论了未来研究方向。Yang等人[26]探讨了效用理论在AI机器人中的应用,重点分析了效用AI模型如何指导多智能体/机器人系统的决策与协作。Orr等人[8]回顾了MARL的最新进展,特别是其在多机器人系统中的应用,同时讨论了当前挑战和潜在未来应用。Du等人[24]系统综述了多智能体深度强化学习在MAS中的挑战、方法和应用。Pamul等人[7]全面分析了MARL在联网自动驾驶车辆(CAVs)中的应用,识别了当前发展、现有研究方向和挑战。Hernandez-Leal等人[27]综述了应对多智能体学习中对手引起的非平稳性的方法,将算法分类为新的框架,并评估了它们在不同环境中的有效性。Zhu等人[28]对结合通信的MARL系统进行了系统性分类和分析,涵盖了先进的通信MARL研究,并识别了影响这些多智能体系统设计和开发的关键维度。

**1.3 本综述的动机

尽管该领域的研究日益增多,但现有综述往往存在显著局限性[24, 6, 25, 28]。具体而言,我们的深入调查发现,当前大多数综述存在以下共同且显著的不足: * 研究范围有限:以往文献综述[27, 28]主要局限于强化学习的框架内,未能突破理论限制,导致覆盖范围不够全面。 * 忽视环境因素:以往文献综述[29, 6, 30]多集中于方法和算法的进展,常常忽略了仿真环境和平台在多智能体智能决策中的重要作用。 * 对项目实施的重视不足:先前综述[25, 28, 30]多聚焦于理论模型,忽视了代码库和项目架构等实施细节,限制了读者对研究成果的全面理解和应用。

为应对上述局限性和挑战,我们认识到多智能体智能决策领域需要更系统、全面的综述。首先,当前综述过于强调深度强化学习,未能充分考虑其他潜在有效的智能决策方法[24, 5, 7, 28]。其次,随着大语言模型(LLMs)的快速发展,其在自然语言处理、知识表示和复杂决策中的潜力日益显著,但现有综述大多忽视了其整合。此外,现有综述往往忽略了仿真环境在多智能体系统发展中的关键作用。然而,仿真环境不仅是辅助工具,更是MAS开发和评估过程中不可或缺的一部分。智能体的学习和决策过程受这些环境的影响和约束,因此理解和发展这些环境与关注算法本身同等重要。最后,当前综述对实际实施细节的忽视导致了理论与实践的脱节。本综述将深入探讨项目实施细节,包括代码结构、系统架构以及开发过程中遇到的挑战,以增强研究的可重复性,并促进理论研究向实际应用的有效转化。 基于上述动机,本综述超越了以往综述的局限,将多智能体环境视为与方法和技术同等重要的组成部分,全面介绍了最先进的算法和仿真环境。此外,我们从更基础的实施角度对多智能体协同决策方法进行分类。总之,本综述旨在为多智能体协同决策研究提供一个更全面、实用的框架,从而推动这一关键领域的持续发展。

**1.4 综述概览与内容组织

如图2所示,我们根据研究思路构建了本综述的结构,每个主分支和子分支对应特定部分: * 第1部分:介绍多智能体协同决策的研究背景,讨论以往综述的不足,并概述本综述的组织结构。鉴于MARL和LLMs方法在动态和不确定环境管理中的显著优势和未来潜力,我们重点关注基于深度MARL和LLMs的方法。 * 第2部分:深入探讨主流智能决策方法、算法和模型,重点分析基于MARL和LLMs的方法,讨论其方法论、优势和局限性。 * 第3部分:详细分析多智能体协同决策的主流仿真环境和平台,重点关注基于深度MARL和LLMs的方法。 * 第4部分:讨论多智能体决策系统的实际应用,如自动驾驶、无人机导航和协作机器人等。 * 第5部分和第6部分:探讨多智能体协同决策的潜在挑战和未来研究方向。

**1.5 如何阅读本综述?

本综述面向不同专业背景和兴趣点的读者,为帮助读者高效找到感兴趣的内容,我们提供以下阅读指南: * 对基于规则(模糊逻辑)、博弈论和进化算法的决策研究感兴趣的读者,请参阅第2.2.1、2.2.2和2.2.3节。这些章节全面分析了多智能体系统中的规则和博弈方法,详细介绍了其技术分类、特点和局限性。 * 对基于MARL的决策研究感兴趣的读者,请参阅第2.3节。该章节全面分析了多智能体系统中的深度MARL方法,详细介绍了其技术分类、优势和局限性。 * 对基于LLMs的决策研究感兴趣的读者,请参阅第2.4节。该章节深入探讨了LLMs在多智能体环境中的独特能力及其在推理和决策中的潜在应用。 * 对MAS仿真环境感兴趣的读者,建议阅读第3节,主要涵盖基于MARL的仿真环境(第3.1节)和基于LLMs推理的仿真环境(第3.2节)。 * 对多智能体决策系统实际应用感兴趣的读者,第4节将特别相关。该章节详细讨论了这些系统在自动驾驶、无人机导航和协作机器人等领域的应用。 * 对现有多智能体决策方法面临的挑战和问题感兴趣的读者,第5节提供了深入讨论,探讨了当前方法的局限性和未解决的问题。 * 对多智能体决策技术未来研究方向和发展前景感兴趣的读者,建议阅读第6节。该章节展望了未来研究趋势和潜在突破,探索了推动该领域发展的关键方向。

成为VIP会员查看完整内容
33

作为新一轮科技革命和产业变革的核心引擎,人工智能产业在2024年被中央及各地政府确立为重点发展方向,陆续出台了一系列针对性强、力度大的政策措施,旨在推动产业创新,提升区域经济的科技竞争力。经过多年持续投资布局,我国人工智能产业体系逐步完善,基础层、模型层及应用层不断升级优化,实现了人工智能、大数据等数据智能技术与实体经济的广泛融合。   2025年初,以DeepSeek为代表的国产开源大模型掀起热潮,其高性能、低成本的特点迅速吸引了国内外开发者和企业的关注,推动了中国AI生态的开放性和竞争力的进一步提升。这一风潮不仅加速了模型层的国产化创新,也为中小企业提供了更易获取的AI工具,激发了应用层的创新活力,成为中国AI产业发展的标志性事件。   艾瑞人工智能研究团队延续六年行业研究经验,在第七年聚焦人工智能产业的发展环境、产业进程及产品动态,深入探讨技术驱动、产业机遇、商业模式及挑战等核心议题,为市场提供前瞻性数据与深度洞察。

图片 图片 图片 图片 图片 图片 图片 图片

成为VIP会员查看完整内容
33

基础模型与具身智能体的交汇具身智能体是一种通用型智能体,能够接收人类的自然语言指令,并在多样化的环境中执行广泛的任务。近年来,大型语言模型(Large Language Models, LLMs)作为构建大型智能体模型(Large Agent Models)的强大工具崭露头角,在支持具身智能体实现目标解析、子目标分解、动作序列化以及状态转换建模(从前提到后效的因果转换)等能力方面取得了显著成功。然而,从基础模型(Foundation Models)到具身智能体的发展过程中,理解低层次视觉细节以及实现长时程推理以支持可靠的具身决策,仍然面临重大挑战。本文将涵盖基础模型向大型语言模型、视觉-语言模型(Vision-Language Models)以及视觉-语言-动作模型(Vision-Language-Action Models)的演进。在本教程中,我们将全面回顾现有具身智能体基础模型的范式,并基于机器人学习的基本数学框架——马尔可夫决策过程(Markov Decision Process, MDP),聚焦其不同的形式化方法,同时提供一个结构化视角来研究机器人的决策过程。

成为VIP会员查看完整内容
34

随着大型语言模型(LLMs)的快速发展,基于LLM的智能体(Agents)和多智能体系统(MAS)显著扩展了LLM生态系统的能力。这一进展源于为LLM赋予了额外的模块,例如记忆、工具、环境,甚至其他智能体。然而,这种进步也带来了更为复杂的可信性问题,这是以往仅关注LLM的研究所无法涵盖的。

在本综述中,我们提出了TrustAgent框架,这是一个对智能体可信性进行全面研究的框架,其特点包括模块化分类、多维内涵和技术实现。通过深入研究和总结针对智能体及MAS的新兴攻击、防御和评估方法,我们将“可信赖LLM”的概念扩展到了新兴的“可信赖智能体”范式。在TrustAgent中,我们首先解构并介绍了智能体和MAS的各个组成部分。随后,我们将它们的可信性分为内在(大脑、记忆和工具)和外在(用户、智能体和环境)两个方面。接着,我们详细阐述了可信性的多层面含义,并深入探讨了与这些内外模块相关的现有研究的实现技术。最后,我们提出了对该领域的见解和展望,旨在为未来的研究提供指导。为便于参考,我们根据分类法对本综述中提到的所有研究进行了分类,相关资源可在以下链接获取:https://github.com/Ymm-cll/TrustAgent。

**

大型语言模型(LLMs)的出现推动了人工智能系统的范式转变[9, 66, 93, 137]。将LLM作为核心,并结合额外模块(如记忆[130]、工具[65, 75]和环境[109])作为扩展,催生了“基于LLM的智能体”这一概念,将静态的神经网络转变为能够进行记忆检索、工具利用和环境交互的动态认知主体。此外,智能体间通信的引入进一步催生了更高级的“多智能体系统(MAS)”概念,使得“超级LLM生态系统”变得更加复杂、互动和智能[36, 94, 106, 118, 124, 125]。广泛的学术研究和行业实践已经验证了这一性能层次:MAS > 单智能体 > LLM[8, 54, 84, 100]。然而,额外模块的引入是一把双刃剑,它在多个维度上引发了新的可信性问题,包括安全性、隐私性、公平性和真实性[38, 96, 102]。从风险角度来看,引入新模块扩大了系统的攻击面,可能导致不可预见的漏洞[31, 86, 116]。另一方面,这种整合对现有的防御机制和可信性评估提出了新的挑战,需要扩展和升级以往仅关注LLM或单智能体可信性的研究[40, 131]。以往的研究综述已经深入探讨了可信赖LLM的领域。Liu等人[62]将可信性分解为七大类,特别关注LLM对齐的标准和指南。类似地,Huang等人[41]从六个角度解读可信性,但主要集中在创建评估可信性的基准。然而,这些研究在智能体场景中仅部分有效,突显了解决因引入额外模块而产生的新可信性问题的迫切需求。其他关于智能体可信性的专门综述主要集中在安全和隐私等子领域,且与可信赖LLM的内容存在较大重叠[31, 96, 96]。事实上,一些研究仅解决了LLM作为智能体“大脑”模块所引发的新问题[38, 57],而忽略了其他额外模块带来的未探索挑战。为突出我们的创新,我们在表1中将TrustAgent与其他综述进行了对比。为此,我们提出了TrustAgent框架,如图1所示,将以往可信性研究的领域扩展到智能体和MAS的新背景中。我们的分类法具有以下特点:(I)模块化。TrustAgent严格根据智能体的内部和外部组件对可信性问题进行分类,具体分为内在和外在两个方面。前者包括大脑、记忆和工具的可信性,而后者涵盖与用户、其他智能体和环境相关的部分。(II)技术性。TrustAgent关注可信赖智能体的实现,从攻击、防御和评估三个方面对相关技术栈进行了全面总结和展望(附录B提供了完整图示)。(III)多维度。TrustAgent将LLM可信性的维度扩展到单智能体和MAS的背景下,具体分为:安全性、隐私性、真实性、公平性和鲁棒性(具体定义见附录A),并涵盖了这些维度的现有研究。在每个小节中,我们首先概述当前模块在智能体系统中的机制和作用,然后从攻击、防御和评估等分类角度探讨其可信性问题。最后,我们提供启发性的见解并勾勒出未来潜在的研究方向。总结而言,我们的贡献如下:全面且最新的综述。 我们对基于LLM的智能体系统的可信性进行了全面且当代的分析,涵盖了包括单LLM、单智能体和MAS框架在内的广泛架构。以新技术为导向的分类法。 我们的分类法以破坏、实现和评估可信性的技术为核心,将旧范式更新到智能体背景中,并勾勒出智能体框架内的新技术范式。富有洞察力的未来方向。 针对每个模块的可信性,我们识别了当前的漏洞并勾勒了未来方向,呼吁研究人员深入探索这一领域。

成为VIP会员查看完整内容
34
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员