澳门城市大学张宏纲教授(IEEE Fellow)本学期在澳门城市大学数据科学学院针对研究生开设了《人工智能前沿专题-大语言模型基础导论》课程,该课程的主要内容包括:LLM的基本概念、关键机制和方法、AI Agent、LLM与强化学习、大模型的数学原理、扩散模型、通信专属大模型和NetGPT、以及DeepSeek的若干技术内核。
该ppt共分为8各部分,具体如下:
1.DeepSeek简介 公司简介 1.DeepSeek简介 DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI),具有深厚的软硬件协同设计底蕴。 模型简介 DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达9.8亿。 V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。 R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。
DeepSeek 大模型背景 (一)深度求索公司情况 DeepSeek,全称“杭州深度求索人工智能基础技术研究有限公司”,简称“深度求索”,于 2023 年 7 月 17 日由幻方量化创立,位于杭州市拱墅区,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术,法定代表人、执行董事兼总经理为裴湉。 2024 年 1 月 5 日,该公司发布第一个大模型 DeepSeekLLM。之后,相继发布 DeepSeek-Coder、DeepSeek-VL、DeepSeek V2、DeepSeek V3 等模型。其中,DeepSeek V2 模型因在中文综合能力评测中的出色表现,且以极低的推理成本引发行业关注,被称为“AI 界的拼多多”。2025 年 1 月 20日,该公司正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版,推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日,DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek 成为中国区第一。1 月 28 日,DeepSeek 发布开源多模态模型 Janus-Pro,其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。 2025 年 2 月 8 日,QuestMobile 数据显示,DeepSeek 在1 月 28 日的日活跃用户数首次超越豆包,随后在 2 月 1 日突破 3000 万大关,成为截至 2025 年 2 月史上最快达成这一里程碑的应用。 (二)模型迭代历程 中国初创企业深度求索(DeepSeek)研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架,为DeepSeek 在未来适配中国国产晶片做好准备。 DeepSeek 通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法,在提高了模型准确性的同时,也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意:更少的 GPU(或其他AI 芯片)带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法,而不是说只能通过低成本来进行训练。DeepSeek-R1 反而通过优化,DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU,模型推理能力可稳定提升,无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的 Scaling Law,为 AI 芯片市场及 AI Infra市场提供了明确的增量需求逻辑。 DS 不仅在推理模型上实现了突破,在多模态方面也保持了进步,并于近日开源发布了 Janus-Pro 多模态模型。基于算法工程方面的优化,DS 能够实现性价比更高的模型推理能力(价格低、效率高、性能强、可部署在端侧平台),并有望以强大的推理能力和多模态感知能力,重塑机器人交互与决策,同时通过低成本、高效率的解决方案,加速具身智能的普及与应用。
大语言模型(LLMs)在自然语言理解、文本摘要和机器翻译等多种任务中取得了显著成功。然而,LLMs 的通用特性往往限制了它们在需要专门知识的领域特定应用中的有效性,如医疗、化学或法律分析等。为了解决这一问题,研究人员探索了多种方法,通过将领域特定知识注入 LLMs 来提升其性能。在本综述中,我们提供了这些方法的全面概述,并将其归纳为四种主要方法:动态知识注入、静态知识嵌入、模块化适配器和提示优化。每种方法都有独特的机制,可以为 LLMs 注入领域专业知识,在灵活性、可扩展性和效率之间取得平衡。我们讨论了这些方法如何使 LLMs 能够处理领域特定任务,比较它们的优缺点,评估领域特定的 LLMs 与通用 LLMs 的表现,并强调该新兴领域中的挑战与机遇。对于希望深入研究该领域的读者,我们还总结了常用的数据集和基准测试。为了让研究人员及时了解最新的研究进展,我们维护了一个开源平台,地址为:officialrepo.com,专门用于记录领域特定 LLM 相关的研究。
2 背景2.1 领域特定知识领域特定知识是指与特定领域或应用相关的专门信息或专业知识,区别于跨多个领域的通用知识。通用知识使模型能够理解广泛的上下文,而领域特定知识对于需要精确、领域特定理解的专业任务至关重要。例如,在科学文本处理 [Bran et al., 2023] 中,模型必须理解复杂的科学术语、概念和方法论,以提供准确且相关的答案。同样,在电子商务搜索 [Zhao et al., 2024a] 中,理解领域特定术语(如产品类别、技术规格或购物俗语)对于提供相关的搜索结果和推荐至关重要。在医疗应用中,LLMs 必须理解医学术语、诊断、治疗方案和药物相互作用。例如,生物医学问答 [Pei et al., 2024] 和医疗报告摘要依赖于整合来自医学文献(如 PubMed [Dernoncourt and Lee, 2017])的知识。为满足这些需求,研究人员探索了多种将领域特定知识整合到 LLMs 中的方法。本文旨在对这些注入方法进行全面综述。2.2 知识表示与编码知识可以根据结构和应用需求以不同形式呈现。例如,知识图谱 [Zhang et al., 2024c] 将信息表示为图中的实体和关系,从而实现结构化推理和推断。这些图谱广泛应用于问答系统和推荐系统等任务中,其中实体之间的关系至关重要。同样,以文本形式存在的知识(如维基百科 [Jeong et al., 2024])提供了大量非结构化信息。知识也可以以向量空间的形式存储,而非可读文本或图谱格式。例如,软提示调优 [Singhal et al., 2023a] 学习向量形式的有用知识,并将其与原始输入连接,以指导 LLMs 执行特定的下游任务。除了外部表示,知识还可以从模型内部涌现。例如,思维链提示 [Yao et al., 2024] 引入了中间推理步骤,帮助模型将复杂任务分解为可管理的部分。通过显式地推理这些步骤,LLM 可以更有效地利用其内部存储的信息,从而在需要逻辑推理、多步计算或决策的任务中表现更佳。
本节介绍了四种主要的知识注入范式:动态知识注入、静态知识嵌入、适配器和提示优化。这些范式展示了将外部领域特定知识整合到LLMs中的多种机制。我们使用统一的符号(如表1所述)系统地表示这些过程。外部知识K通过修改原始参数θ、引入额外参数ϕ或利用辅助机制整合到LLMs中。
动态知识注入定义为首先从外部知识库或知识图谱中检索信息,然后将其与输入结合以供LLMs使用的过程:
该范式提供了快速的推理,因为它消除了额外的检索步骤,并且通常表现更强。然而,它也面临一些挑战,例如更新成本高(每当领域知识变化时都需要微调)以及可扩展性问题,因为嵌入大型或频繁变化的知识库可能计算成本高昂。3.3 模块化知识适配器为解决静态知识嵌入的高更新成本问题,另一种范式——模块化知识适配器——引入了小型可训练模块,这些模块可以插入基础模型或与其并行运行,以存储领域特定知识,同时节省计算资源。在这种方法中,LLM的原始参数θθ通常保持冻结,以保留模型的通用能力。给定知识数据集KK,适配器参数ϕϕ通过最小化以下目标进行训练:
其中,pp 表示包含隐式领域知识或特定指令的文本提示。提示优化具有显著优势,包括消除对外部领域知识库的依赖并避免训练。然而,它也面临一些挑战,因为设计有效的提示可能既复杂又耗时。此外,长提示可能会减少可用的上下文窗口,从而可能影响模型的效率和性能。3.5 四种范式的比较 表2:基于训练成本、推理速度和局限性的知识注入范式选择指南动态知识注入在运行时整合外部知识,提供了灵活性和对新信息的适应性,而无需增加训练成本。然而,它需要一个有效的检索模块,推理速度高度依赖检索性能,这可能会减慢整体过程。静态知识嵌入在预训练或微调期间嵌入领域专业知识,需要大规模的领域特定数据和大量的训练资源(如GPU和时间)。虽然它不会产生额外的推理成本,但其局限性在于潜在的灾难性遗忘风险以及无法适应不断变化的信息。模块化适配器作为一种折中方案,允许即插即用的组件以最少的训练数据增强领域特定能力。只需训练少量参数,从而降低了训练成本,且推理速度几乎不受影响。然而,训练数据的质量显著影响该方法的性能。提示优化则完全避免了重新训练,通过精心设计的输入激活已有知识。它对推理速度没有影响,但依赖于大量人工努力来找到最佳提示。该方法在利用新知识方面能力有限,主要激活已有知识。我们在表2中总结了这些比较,作为实用指南,帮助根据具体任务需求和场景确定最合适的方法。
4 应用
4.1 生物医学
生物医学领域受益于丰富的专业语料库,如PubMed [Dernoncourt and Lee, 2017] 和MedQA [Jin et al., 2021],这使得开发专门针对生物医学文本训练的LLMs成为可能。这些模型通常采用静态知识嵌入方法,充分利用生物医学数据的领域特定丰富性。例如,PMC-LLaMA [Wu et al., 2023] 通过在S2ORC数据集 [Lo et al., 2020] 中筛选的490万篇PubMed Central文章上进行进一步预训练,扩展了LLaMA 7B模型,完成了五个训练周期以有效嵌入生物医学知识。类似地,Med-PaLM 2 [Singhal et al., 2023b] 基于PaLM 2通过指令微调构建。该微调结合了多种医学问答数据集,包括MedQA、MedMCQA [Pal et al., 2022] 和HealthSearchQA [Singhal et al., 2023a]。除了基础模型外,整合外部工具和知识可以进一步提升性能。例如,GeneGPT [Jin et al., 2024] 利用在代码任务上预训练的LLM,通过使用NCBI Web API来应对GeneTuring测试。该方法结合了上下文学习和增强的解码算法,能够识别并执行API调用。类似地,Med-PaLM [Singhal et al., 2023a] 引入了向量提示——存储和检索医学领域知识的表示——以扩展Flan-PaLM [Chung et al., 2024] 的能力。
4.2 金融
经过微调的金融LLMs通过任务特定训练,展示了将通用模型适应领域特定任务的显著进展。PIXIU [Xie et al., 2023] 在13.6万条针对金融任务的指令样本上微调LLaMA,使模型能够处理广泛的领域相关场景。InstructFinGPT [Zhang et al., 2023] 在来自两个金融情感分析数据集的1万条指令样本上微调LLaMA,主要专注于金融分类任务。FinGPT [Yang et al., 2023] 引入了一个端到端的框架,用于在金融行业中训练和部署FinLLMs。利用LoRA技术,FinGPT在大约5万条任务特定样本上微调开源LLMs(如LLaMA和ChatGLM),实现了无需完全重新训练的高效微调。相比之下,从头训练的金融LLMs旨在创建专门为金融任务设计的模型。BloombergGPT [Wu et al., 2023] 利用来自Bloomberg特定数据的50亿个token子集(仅占其总训练语料库的0.7%)来定制其模型以适应金融应用。XuanYuan 2.0 [Zhang and Yang, 2023] 结合了3660亿个token进行预训练,并额外使用130亿个token进行微调,创建了最大的中文金融聊天模型。类似地,Fin-T5 [Lu et al., 2023] 引入了基于T5架构的中文金融预训练语言模型,使用了300GB的金融语料库。此外,SNFinLLM [Zhao et al., 2024a] 在推理过程中动态整合实时金融数据,以增强决策能力,展示了领域特定预训练和适应性在金融LLMs中的价值。4.3 材料科学与生物医学领域不同,在材料和化学领域,由于缺乏大规模语料库,研究主要集中在利用任务相关工具,这与动态知识注入范式一致。例如,Xie et al. [2024] 展示了Darwin 1.5如何利用自然语言输入和两阶段训练策略,在材料发现和设计任务中取得显著改进。Bran et al. [2023] 引入了ChemCrow,这是一个通过化学专家设计的工具增强LLMs的框架,用于有机合成和药物发现等下游任务。还有关于提示优化的研究 [Tang et al., 2025],表明设计更好的规划提示可以有效利用模型的内部知识来协调复杂任务。这种方法利用多个LLMs的规划和执行能力,实现化学实验的自主性。最近,化学领域对静态知识嵌入和模块化知识适配器的探索兴趣日益增加。例如,Chen et al. [2024] 策划了一个QA数据集,用于微调预训练模型(如BERT和LLMs中的Llama),旨在提高其在化学相关任务中的表现。类似地,Xie et al. [2024] 引入了Darwin 1.5,这是一个为材料科学量身定制的开源大型语言模型。
4.4 人本科学
我们介绍的最后一个领域是人本科学,涵盖了广泛的应用,如心理咨询、金融预测、社会行为预测和法律推理。所有这些领域都围绕理解和满足人类需求、行为和决策过程展开。在心理健康领域,PsyQA [Sun et al., 2021] 等数据集为训练心理咨询场景中的模型提供了基础。例如,SoulChat [Chen et al., 2023] 是一个在10万条长文本心理咨询会话上通过静态知识嵌入微调的模型,专为共情对话设计。类似地,MeChat [Qiu et al., 2023] 采用动态知识注入以适应实时输入,显著增强了其情感支持能力。这些进展展示了人本科学通过个性化和情境感知解决方案应对复杂现实挑战的潜力。在教育领域,LLMs在应对个性化学习、课程对齐和互动教学等挑战方面展现了巨大潜力。例如,个性化学习要求模型适应个体需求,提供定制反馈和情感支持。EduChat [Dan et al., 2023] 通过静态知识嵌入利用心理学和教育学的教育理论,支持开放问答、作文批改和情感支持等任务。类似地,QiaoBan [Weixiang et al., 2023] 专注于以儿童为中心的教育,通过提示优化根据儿童心理和情感状态调整模型行为,专门为年轻学习者服务。领域特定教育和互动教学也通过LLMs取得了进展。CyberQ [Agrawal et al., 2024] 通过AISecKG [Agrawal, 2023] 结合静态知识嵌入和动态知识注入,生成基于网络安全最佳实践的问答。互动教学则受益于SocraticLM [Liu et al., 2024c] 等模型,该模型通过在SocraTeach数据集上微调的适配器,引导学生进行批判性思维和问题解决。在社会科学领域,SocialLLM [Jiang and Ferrara, 2023] 等模型结合静态知识嵌入和动态知识注入,分析社交网络中的人类行为。适配器促进大规模数据整合,而提示优化则引导模型关注特定的社会行为模式。FPS [Liu et al., 2024e] 和FUSE [Liu et al., 2024f] 等模型使用提示优化来模拟虚假新闻在社交网络中的传播和演变,帮助理解 misinformation 的影响。表3总结了主流模型及其信息。更多跨领域的模型可访问:Survey-official-repo。
5 工具、资源与分析
5.1 知识注入框架
本节详细介绍了四种开源框架,分别对应不同的知识注入方法,以促进理解与应用:KnowGPT [Zhang et al., 2024c] 用于动态知识注入,StructTuning [Liu et al., 2024d] 用于静态知识嵌入,K-Adapter [Wang et al., 2021] 用于模块化知识适配器,以及SelfLift [Cheng et al., 2024] 用于提示优化。KnowGPT 通过强化学习从知识图谱中提取高度相关的子图,动态结合知识图谱与提示优化。这些子图以三元组形式表示,并通过多样化的提示模板转化为自然语言提示,供语言模型解释和利用。KnowGPT框架显著降低了LLMs的API调用成本,同时提升了其在领域特定任务中的表现。StructTuning 采用结构感知的方法,通过两阶段策略将领域知识嵌入预训练模型:结构感知持续预训练将知识编码到模型参数中,而结构感知监督微调通过结构化问答任务优化理解。该框架在关系分类和问答等知识驱动任务中展现了显著的性能提升,实现了通用性与效率的平衡。K-Adapter 将知识存储在适配器模块中。其核心方法是冻结原始模型参数,并为每种知识类型分配一个独立的任务特定适配器。这些适配器作为独立模块插入模型的中间层,以生成特定知识的增强表示。该设计有效缓解了灾难性遗忘问题,防止新注入的知识覆盖模型的已有知识。SelfLift 则通过迭代使用检索增强生成器创建无界记忆池,并利用记忆选择器选择输出作为下一轮生成的记忆。这是提示优化的一个优秀示例,模型的输出被动态优化并重复使用,以增强其在后续任务中的整体性能和连贯性。
5.2 数据集与基准测试
我们在表3中总结了领域特定LLM研究中常用的数据集或基准测试,观察到不同领域的数据集丰富度存在显著差异。生物医学领域拥有众多高质量数据集,如PubMed、PubMedQA [Jin et al., 2019] 和BioASQ [Tsatsaronis et al., 2012],支持问答和临床摘要等任务。相比之下,材料和化学领域的资源较为有限,数据集如USPTO和Enzymes主要关注化学反应。其他领域的多样化数据集则分散在心理健康(如PsyQA和SmileChat)和教育(如SocraTeach和儿童情感教育对话数据集)等领域。这种多样性突显了为LLMs定制领域特定数据集的努力,同时也强调了在代表性不足的领域中更广泛地策划基准测试的必要性。
5.3 领域特定LLM与通用LLM的性能对比
由于通用领域的强大LLMs也存在,因此有必要讨论领域特定LLMs与通用LLMs的对比,以确定特定知识注入过程是否必要。这里我们以生物医学领域为例,因为该领域的研究成果显著,如表4所示。结果来自相关论文或paperswithcode.com。首先,我们可以观察到闭源LLMs目前是最有效的模型,而通用领域与领域特定LLMs之间的性能差距相对较小。例如,GPT-4和Med-Gemini [Saab et al., 2024] 在MedQA数据集上均表现出色,得分超过90。然而,由于闭源LLMs缺乏透明度,开源LLMs的努力不应被忽视。在这一领域,领域特定LLMs通常优于通用领域模型。例如,PMC LLaMA-13B在MedQA数据集上比LLaMA2-70B高出10多分。这证明了领域特定LLMs在专业任务中实现卓越性能的价值。尽管通用领域模型可以提供强大的结果,但结合领域特定知识可以显著提升性能,尤其是在开源项目中。这突显了投资领域特定LLMs以应对专业领域独特挑战的重要性。
6 挑战与机遇
6.1 知识一致性整合知识注入使LLMs能够整合不同的领域特定知识。然而,检索到的知识可能与模型的预训练表示或其他检索到的事实冲突,导致输出不一致 [Xu et al., 2024a]。例如,在医疗或法律分析中,可能会出现冲突的治疗方案或矛盾的法律先例,从而导致不可靠的决策并削弱系统的可信度。为解决这一问题,未来研究必须专注于检测不一致性、解决冲突并保持整合知识的一致性。可以通过优先考虑可靠来源、应用领域特定规则或使用集成技术来平衡多重视角来解决冲突。对齐算法和验证模块可以进一步确保检索到的知识与模型的推理过程一致,并在影响输出之前验证其可靠性。这些努力对于增强知识增强型LLMs在复杂、高风险领域中的可靠性和适用性至关重要。6.2 跨领域知识迁移跨领域知识迁移涉及使LLMs具备在不同领域间泛化知识的能力。尽管这显著扩展了其适用性,但也因领域特定术语、本体和推理模式的复杂性和多样性而引入了挑战。例如,将化学知识迁移到医疗领域可能需要协调不同的数据结构和推理框架。克服这些挑战需要在模块化知识表示和迁移学习技术方面取得进展。未来研究可以探索混合方法,将静态嵌入与动态检索相结合,使LLMs能够在不牺牲深度的情况下灵活适应跨领域知识。此外,创建标准化的跨领域基准测试和数据集可以促进系统化评估,并推动多领域知识迁移方法的创新。7 结论通过领域特定知识增强的LLMs展现了显著的潜力,并引起了越来越多的研究兴趣。本综述系统回顾了LLM知识注入系统,探讨了知识表示方法、整合策略以及保持模型通用性的机制。我们还总结了生物医学、化学和计算社会科学等领域的应用。通过突出标准数据集、基准测试、挑战和未来机遇,我们旨在为激发进一步探索知识增强型LLMs以应对领域特定挑战提供有价值的资源。
人工智能在科学领域的应用涵盖了广泛的范围,从原子层面,解决量子系统的偏微分方程,到分子层面,预测化学或蛋白质结构,甚至扩展到像传染病爆发这样的社会预测。近年来,大型语言模型(LLMs)取得了显著的进展,诸如ChatGPT等模型在涉及自然语言的任务中表现出了强大的能力,例如语言翻译、构建聊天机器人和回答问题。当我们考虑科学数据时,我们会注意到它们在序列上与自然语言有相似之处——如以文本呈现的科学文献和健康记录、按序列排列的生物组学数据,或像脑电信号这样的传感器数据。问题随之而来:我们能否利用这些最新LLMs的潜力推动科学进步?在本教程中,我们将探讨大型语言模型在科学数据三大关键类别中的应用:1)文本数据,2)生物医学序列,3)脑电信号。此外,我们还将深入探讨LLMs在科学研究中的挑战,包括确保可信度、实现个性化和适应多模态数据表示。
Xuan Wang 是弗吉尼亚理工大学计算机科学系的助理教授。她的研究兴趣包括自然语言处理、数据挖掘、科学中的人工智能以及医疗保健中的人工智能。她目前的研究方向包括基于有限监督的自然语言理解、大型语言模型的复杂推理与规划,以及通过多模态科学基础模型推动科学发现。她曾获得2025年思科研究奖、2024-2025年NSF NAIRR试点奖以及2021年NAACL最佳演示论文奖。她分别于2022年、2017年和2015年在伊利诺伊大学香槟分校获得计算机科学博士学位、统计学硕士学位和生物化学硕士学位,并于2013年获得清华大学生物科学学士学位。她曾在IEEE-BigData 2019、WWW 2022、KDD 2022和EMNLP 2024等会议上举办教程。
人工智能(AI)在科学领域的卓越能力涵盖了广泛的范畴,从原子层面(如尝试求解量子系统的偏微分方程)到分子层面(如精准预测化学物质和蛋白质的结构),甚至延伸到社会预测(如预测传染病爆发)(Zhang et al., 2023a)。在这一充满可能性的背景下,大语言模型(LLMs)的最新进展,尤其是以ChatGPT为代表的模型,已崭露头角,展示了在自然语言相关任务中的显著能力。这些任务包括语言翻译、构建聊天机器人和回答问题(Yang et al., 2023)。有趣的是,当我们将注意力转向科学数据时,会发现其与自然语言在序列形式上有着惊人的相似性。科学文献和健康记录以文本叙述的形式呈现,生物组学数据表现为分子序列,甚至像脑信号这样的传感器数据本质上也是序列化的(Wang et al., 2021a; Thirunavukarasu et al., 2023)。这一观察引发了一个引人深思的问题:我们能否利用这些先进的大语言模型的潜力来推动科学进步?在本教程中,我们将踏上探索这一交叉领域的旅程——将尖端的大语言模型与科学研究相结合。我们的探索聚焦于三类关键的科学数据:1)文本数据(Alsentzer et al., 2019; Singhal et al., 2022; Beltagy et al., 2019; Lee et al., 2020; Gu et al., 2021; Alrowili and Vijay-Shanker, 2021; Yasunaga et al., 2022),2)生物医学序列(Ji et al., 2021; Zvyagin et al., 2022; Fishman et al., 2023; Dalla-Torre et al., 2023; Nguyen et al., 2023; Yamada and Hamada, 2022; Yang et al., 2022; Chen et al., 2022; Zhang et al., 2023b; Rives et al., 2021; Bepler and Berger, 2021; Brandes et al., 2022; Madani et al., 2023; Lin et al., 2023; Zheng et al., 2023; Xu et al., 2023),以及3)脑信号(Wang et al., 2022a; Wang and Ji, 2022; Tang et al., 2023)。通过借鉴大语言模型的变革性能力,我们试图在每个领域中揭示新的理解和创新。随着教程的深入,我们还将讨论将AI融入科学研究过程中伴随的复杂挑战。可信赖性是其中至关重要的一点——我们如何确保AI增强的科学洞察力的可靠性?个性化的概念也成为一个关键考量,促使我们根据科学研究的特定需求定制大语言模型。此外,科学数据的多维度特性要求我们掌握处理跨模态数据表示的艺术。
教程大纲
本教程预计时长为3小时,中间包含30分钟的休息时间。
内容大纲如下:
1 背景与动机 [20分钟]我们将首先介绍大语言模型(LLMs)的背景知识以及“科学人工智能”(AI for Science)的整体概况。随后,我们将围绕三类关键科学数据(1)文本数据,(2)生物医学序列,以及(3)脑信号,激发对大语言模型在科学领域应用的兴趣。
2 大语言模型在科学文本数据中的应用 [40分钟]首先,我们将介绍大语言模型在科学文本数据中的应用。科学文本数据涵盖多个领域,例如生物医学文献(Beltagy et al., 2019; Lee et al., 2020; Gu et al., 2021; Alrowili and Vijay-Shanker, 2021; Yasunaga et al., 2022)和电子健康记录(Alsentzer et al., 2019; Singhal et al., 2022)。这类数据与大语言模型的基本结构高度契合,广泛应用于科学和医疗领域,支持信息提取(Wang et al., 2021b; Zhong et al., 2023; Wang et al., 2022b)和问答任务(Krithara et al., 2023)。
3 大语言模型在生物医学序列中的应用 [60分钟]接下来,我们将探讨大语言模型在复杂的生物序列数据中的应用。这一领域充满可能性,我们重点关注以下三类相互交织的生物序列:DNA序列:从生命的蓝图出发,我们深入研究了(Ji et al., 2021)、(Zvyagin et al., 2022)、(Fishman et al., 2023)、(Dalla-Torre et al., 2023)和(Nguyen et al., 2023)等开创性工作。这些研究为解密生物体本质中的秘密铺平了道路。DNA大语言模型在下游任务中应用广泛,例如从DNA序列中预测调控元件(如增强子、启动子、表观遗传标记和剪接位点)(Grešová et al., 2023; Dalla-Torre et al., 2023)。RNA序列:在基因表达的复杂世界中,我们借鉴了(Yamada and Hamada, 2022)、(Yang et al., 2022)、(Chen et al., 2022)和(Zhang et al., 2023b)等创新成果。这些进展帮助我们解码由RNA调控的生物过程。RNA大语言模型在RNA结构与功能预测(Yamada and Hamada, 2022; Zhang et al., 2023b)、RNA-蛋白质相互作用预测(Chen et al., 2022)以及细胞类型注释(Yang et al., 2022)中应用广泛。蛋白质序列:进入蛋白质的复杂领域,我们参考了(Rives et al., 2021)、(Bepler and Berger, 2021)、(Brandes et al., 2022)、(Madani et al., 2023)、(Lin et al., 2023)、(Zheng et al., 2023)和(Xu et al., 2023)等重要研究。这些研究揭示了分子功能与相互作用的复杂机制。蛋白质大语言模型在功能性蛋白质生成(Leinonen et al., 2004)和蛋白质结构预测(Suzek et al., 2015)中具有广泛应用。在这些领域中,大语言模型的变革性能力体现在众多高影响力的下游应用中。从预测分子结构到预测分子相互作用,从揭示分子功能到与疾病进展过程建立关联,大语言模型作为创新的灯塔,引导我们更深入地理解生命的基石。4 大语言模型在脑信号中的应用 [30分钟]最后,我们将探讨大语言模型在脑信号领域的迷人应用。本节首先介绍一种开创性的预训练脑信号表征模型(Wang et al., 2022a)。在此基础上,我们进一步探讨一个激动人心的主题——开放式词汇脑信号到文本的翻译(Wang and Ji, 2022; Tang et al., 2023)。这一研究旨在训练翻译模型,自动解读个体思维中的复杂内容,为技术与认知过程的潜在融合提供了引人入胜的视角。
**4.5 未来研究方向 [30分钟]**作为总结,我们将深入探讨将AI应用于科学研究中的挑战。其中一个重要挑战是确保AI增强的科学洞察力的可靠性和可信度,包括模型的可解释性、对抗攻击的鲁棒性、对不同人群的模型偏见以及数据隐私问题。我们还将探讨个性化的概念,即根据不同的个性化数据调整大语言模型。例如,不同人在相同语境下思考同一个词时,脑信号存在显著的个体差异。我们能否基于不同人的脑信号模式构建个性化的大语言模型,而非使用单一模型适应所有人?此外,科学信息的多样性要求我们掌握高效处理多类型数据的技能。例如,谷歌发布的Med-PaLM-2(Singhal et al., 2023)整合了电子健康记录中的图像、文本和基因组数据,展示了专家级的医学问答能力。我们能否开发更高效的方法,将多模态和多组学的大语言模型整合为一个强大的统一模型?
人工智能为作战理论变革、武器装备智能化发展带来重大机遇。随着信息技术的发展,人工智能技术大量运用于军事领域已成现实,并逐渐向情报分析、指挥决策等领域渗透。未来,软件助力数据驱动决策、算法优化杀伤和架构增强弹性,进而从辅助工具到战略资产,并重新定义战争。AI的快速发展为这一路径提供了极大可能性。我国需在自主可控的软件生态、军民融合的技术转化、以及人机协同的作战理论层面加速布局。 AI在战场上的运用主要包括四个方面:第一,替代重复性的军事劳动,比如测算导弹发射轨迹;第二,态势感知的实时决策,将AI技术赋能OODA(基于感知-判断-决策-行动),缩短环路解算时间,从而为打赢战争提供关键支撑;第三,非理想环境下作业,比如在极冷或极热环境中执行任务;第四,将人工智能技术赋能无人系统,进行敌我识别或攻击。 对标美军激进的AI战略,我国AI+军工发展正当时。美军将AI视为推动“第三次抵消战略”的核心驱动力和赢得大国高端战争的关键,推出“联合战争概念”以指导智能化战争能力开发。按照美军规划,2025年初步具备智能化作战能力,2035年实现作战装备、信息系统、作战指挥、组织形态的智能化转型。美国军事化战略已向智能化演进,国防预算将持续向AI与防务的结合方向倾斜。我国《军队装备科研条例》3月1日起施行,将推动军队装备科研自主创新与智能化转型。顶层设计持续推进,有望驱动军工快速“AI化”。 AI时代重构美国军工市场竞争格局。美国AI龙头企业Palantir和Anduril计划与SpaceX、OpenAI、自动驾驶船舶制造商Saronic以及AI数据公司ScaleAI等多家科技企业联手竞标近9000亿美元的国防预算,从而打破美国“传统”国防承包商的垄断。美国军工复合体或将重构,AI时代将重塑美国军工市场竞争格局。我国由于军事装备特殊性和数据保密性,AI+军工将形成以军工央企为主导,以各细分领域民营龙头科技企业为重要补充的发展模式。 国防AI应用:由点及面突破,实战需求提升。对当前AI+军事发展阶段进行梳理,我们发现我国AI与军工领域的结合正处于技术单点突破到实战化运用的初级发展阶段,市场发展空间广阔,其中,AI在无人作战系统方面的应用最为领先,尤其是军用无人机和军用机器人。根据MarketsandMarkets,2023年全球人工智能的军事市场规模为92亿美元,预计到2028年将达388亿美元,CAGR为33.3%,增长迅速,产业链相关企业有望显著受益。 投资建议:拥抱AI,聚焦无人和情报系统优化。考虑到应用的急迫性和可行性,我们认为未来AI+泛军工最先取得快速发展的领域包括:1)现役装备“+AI”:加强装备的战场数据智能感知、机动打击精确制导、协同作战智能指控、装备运行智能保障等方面的综合作战效能提升;2)无人智能装备;3)人机协同作战;4)AI赋能军民融合:AI+低空、AI+卫星。AI向军事/军工/军民融合领域的渗透将由点及面迅速铺开,细分赛道增速可观,建议关注: AI+指挥/情报:对标Palantir的中科星图、华如科技和兴图新科; AI+应用的观想科技、七一二、智明达、国星宇航; AI特种芯片供应商紫光国微和AI服务器电源供应商新雷能等。
本报告从DeepSeek-R1部署优化、场景应用与风险挑战三大维度,系统解构DeepSeek大模型技术的落地实践路径。报告首先详细阐述了API调用与本地化部署在数据安全、成本及稳定性方面的差异,并针对DeepSeek-R1全量版、蒸馏版、量化版的部署流程与注意事项进行了讲解。在此基础上,本报告提炼了十大提示词策略,结合11个垂直领域(包括智慧政务、教育、医疗、办公等)的真实场景,分享了26个应用实例及DeepSeek的实测回复。在报告的第三部分,我们深入探讨了大模型安全分类体系,涉及价值观错位、越狱攻击、误用滥用及AI自主意识四类前沿风险,并给出不当用例和DeepSeek实测结果,以此揭示现有大型模型在安全问题上的不足,为未来优化大型模型安全体系提供了改进方向。 **
**
AI以极快的速度融入到每个人的日常,影响工作、学习、生活等方方面面。云计算、AI等浪潮下,IT从业者面临新挑战,也迎来新机遇。未来,AI预计会成为像计算机语言一样的基础IT技能。 本书面向广大IT从业者及学生,作者将尽可能通俗易懂的把机器学习、深度学习、神经网络等基本原理讲解清楚,并分享大语言模型、知识库等当下很火爆的AIGC应用,探讨大语言模型“知识茧房”问题及解法。期望本书能成为AI技术爱好者的启蒙书籍、学习手册。希望人人都能了解AI,知其然并知其一点所以然,看完后能有感而发:“原来AI是这么回事”,且能自己动手实践,构建自己的AI应用。
本报告探讨了人工智能(AI)技术的快速发展及其对人机协作模式的深远影响。报告涵盖四个主要方面:智能演变、人机协作、产业现状及教育成长。 首先,在智能演变部分,回顾了从GPT-1到最新DeepSeek-V3等大模型的进化,强调了训练数据规模、参数量和架构优化的突破。AI从简单的文本生成发展至多模态理解与复杂推理能力,使通用人工智能(AGI)的实现路径逐步清晰。 其次,在人机协作方面,AI的应用模式正从“辅助决策”向“深度合作”演变,形成了小助理(Embedding模式)、副驾驶(Copilot模式)及代理人(Agent模式)三大协作模式。AI的增强推理能力推动了各行业的智能化进程,提高了生产力,并重塑了人类的工作方式。 在产业现状部分,报告分析了AI在搜索引擎、政务系统、智能制造、医疗、金融等领域的深度集成,以及全球AI基础设施的竞争态势。此外,对比了Grok-3、DeepSeek-V3等前沿AI模型的技术能力,探讨了算力成本、能耗优化及推理效率的核心挑战。 最后,教育成长领域正在经历范式转变,AI赋能教育成为新常态。AI模型在个性化学习、教师辅助、自动评估等方面的应用,提升了教育效率,推动“AI-教师-学生”三元结构的形成。此外,AI促进批判性思维、创造性思维的发展,并影响未来职业发展趋势,使技能提升成为关键议题。 总体而言,AI正加速成为社会基础设施的一部分,人机协作进入新阶段,推动产业与教育的深度融合。本报告强调,面对智能时代的全面到来,拥抱AI并与之协作是未来发展的关键。
1.大型语言模型(LLM)部署(A-): 我们将看到新型语言模型的部署,如小型语言模型和特殊用途模型。
2.人机的采用(A/B): 无人机即服务(DaaS)将重新定义物流、农业和灾难响应,为各行各业提供可靠、低成本和快速周转的解决方案。
3.智能体(A/B): 结合了 LLM、机器学习(ML)模型和基于规则的系统的人工智能体将为金融、制造和零售业务提供自主、高度专业化的解决方案。
4.人工智能增强型机器人(B+): 嵌入式智能将使机器人能够在动态环境中感知、学习和协作,实现前所未有的自主性和类似人类的适应性。
5.医疗/健康领域的可穿戴设备/生物标志物(B+): 可穿戴设备将追踪生物标志物,用于早期疾病检测和前瞻性健康,从健身追踪扩展到慢性病的医疗级监测。
6.信息技术与能源的融合(B+): 能源的数字化转型将反映信息技术的发展,实现可持续的电网、可再生能源的整合以及人工智能的指数级增长,从而实现高效的电力传输。
7.增强型人工智能(B+): 增强型人工智能将重新定义人机协作,将机器的精确性与人类的监督相结合,在医疗保健、金融和教育领域提供包容、道德的解决方案。
8.自动驾驶(B+): 自动驾驶汽车将减少排放、提高安全性并改变城市物流,但广泛采用取决于监管部门的批准和公众的信任。
9.智能农业(B+): 人工智能驱动的系统将提高作物产量、资源管理和可持续性,通过实时土壤和气候监测解决粮食安全问题。
10.功能安全/自动驾驶汽车(B): 先进的安全框架将确保自动驾驶汽车在公共和商业领域可靠运行,赢得信任,从而得到更广泛的采用。
11.人工智能辅助药物发现(B): 人工智能的进步将加速药物发现,确定新型化合物和治疗方法,尽管数据质量和监管障碍依然存在。
12.可持续计算(B): 数据中心将采用节能硬件、智能资源管理和可再生能源,但推广可持续发展实践仍是一项挑战。
13.错误/虚假信息(B): 人工智能工具将检测并减少错误信息,抵制其在社交网络上的快速传播,以保护公众舆论和信任。
14.基于人工智能的医疗诊断(B): 人工智能将提高诊断的精确度,尤其是在放射学和病理学方面,从而改善患者的治疗效果,同时减少临床医生的工作量。
15.人工智能优化的绿色高性能计算(B-): 人工智能将优化高性能计算工作流程,降低能耗。面临的挑战包括高成本和开发可靠的能源测量与分配方法。
16.下一代网络战(B-): 人工智能驱动的网络防御将应对不断变化的威胁。挑战包括国际合作、响应速度以及抵御日益增强的人工智能攻击。
17.新型电池化学(B-): 固态电池和钠离子电池将提高能量密度和安全性。面临的挑战包括扩大生产规模和管理供应链依赖性。
18.数据封建主义(B-): 新工具将赋予用户重新控制数据的能力。面临的挑战包括实施公平访问和调整全球监管框架。
19.核动力数据中心(B/C): 小型模块化反应堆(SMR)将为数据中心提供稳定、碳中性的能源。监管审批、可扩展性和公众接受度仍是重大障碍。
20.人工智能监管的工具和政策(B/C): 人工智能伦理和治理框架将会出现。挑战包括统一全球标准和确保有效的执行机制。
21.脑计算机接口(BCIs)(C+): 脑机接口将帮助残疾人并加强交流。高成本、安全问题和可扩展性阻碍了更广泛的应用。
22.空间计算(C+): 可靠的自主计算将为深空任务提供支持。面临的挑战包括辐射加固、有限的电力供应和极端的环境条件。
一本关于强大基于图的深度学习模型的实践指南。在《图神经网络实战》一书中,您将学习如何:
图神经网络将深度学习的能力扩展到传统的表格数据、文本和图像之外。这种令人兴奋的新方法将深度学习的惊人能力引入图数据结构,为从推荐引擎到制药研究的各个领域开辟了新的可能性。
在《图神经网络实战》中,您将创建适用于处理互联图数据的深度学习模型。从全面介绍图数据的独特属性开始,然后直接深入构建现实世界的模型,包括能够从社交网络生成节点嵌入的GNN,推荐电子商务产品,并从社交网站中提取见解。本书全面介绍了包括PyTorch Geometric、DeepGraph Library以及阿里巴巴的GraphScope等关键的GNN库,支持大规模训练。
本书适合熟悉机器学习和深度学习基础的Python程序员。
Keita Broadwater博士,MBA,是一位拥有超过十年数据科学、分析和机器学习应用经验的机器学习工程师。他是candidates.ai的机器学习负责人,该公司利用AI提升高管搜索的效率。Broadwater博士曾为各类组织提供数据科学和机器学习项目支持,从小型初创公司到财富500强企业,并在保险、HR招聘和供应链等行业开展过与图相关的项目开发和咨询工作。
“终于有了一本全面介绍图和图机器学习的书,我等了很久!” — Davide Cadamuro“写得非常好,解释清晰。” — Maxim Volgin“如果你想保持在知识管理和AI领域的最新进展,赶紧买这本书吧。” — George Loweree Gaines“如果你想把神经网络的知识应用到图数据中,这本书是你正确的资源。” — Ninoslav Cerkez
关于本书
在《图神经网络实战》一书中,您将创建深度学习模型,适用于处理互联图数据。从对图数据独特性质的全面介绍开始,然后直接进入构建实际应用模型的过程,包括能够从社交网络中生成节点嵌入、推荐电子商务产品以及从社交网站中提取见解的GNN模型。本书全面覆盖了关键的GNN库,包括PyTorch Geometric、DeepGraph Library以及阿里巴巴的GraphScope,用于大规模训练。适合读者
本书适合熟悉机器学习和深度学习基础的Python程序员。
摘要—近年来,生成模型在生成任务中的卓越表现激发了人们对其在决策过程中应用的浓厚兴趣。由于其处理复杂数据分布的能力和强大的模型能力,生成模型可以通过生成轨迹,有效地融入决策系统,引导智能体朝向高回报的状态-动作区域或中间子目标。本文全面回顾了生成模型在决策任务中的应用。我们对七种基础生成模型进行了分类:能量模型、生成对抗网络、变分自编码器、标准化流、扩散模型、生成流网络和自回归模型。关于它们的应用,我们将其功能分为三个主要角色:控制器、建模器和优化器,并讨论每个角色如何为决策提供贡献。此外,我们还探讨了这些模型在五个关键实际决策场景中的部署情况。最后,我们总结了当前方法的优缺点,并提出了三条推进下一代生成决策模型的关键方向:高性能算法、大规模通用决策模型以及自我进化与自适应模型。 关键词—生成模型、决策制定、生成决策制定
生成模型已成为学术界和工业界的热门话题,主要由于它们能够生成大量高质量和多样性的合成数据。从早期的系统如 DALL-E [1](用于图像生成)和 GPT-3 [2](用于文本生成)到最近的进展,如 DALL-E3 [3]、ChatGPT 和 GPT-4 [4],生成模型在其输出的质量和规模上迅速发展。 内容生成旨在创造与训练样本相似的连贯材料,而决策制定则专注于生成能够实现最佳结果的行动序列。与内容生成不同,决策制定涉及复杂、动态的环境和长期的决策。因此,尽管生成模型在内容生成方面取得了成功,将它们应用于决策制定仍面临诸多挑战。这些挑战包括:1)如何通过与环境的交互来学习策略,而不仅仅是模仿专家行为;2)如何基于学习到的行为生成新策略,从策略学习过渡到策略生成;3)如何建立一个能够在各种环境中适应的稳健基础决策生成模型,且只需最少的调优工作;4)如何构建策略的多步推理和长期演化能力。这些挑战强调了生成模型不仅仅是生成数据的需要。
在实际应用中,决策制定通常被称为序列决策制定,其中决策者随着时间推移做出一系列观察,每个决策都会影响随后的选择。目标是识别一个策略,以优化期望的回报或最小化跨越序列行动的成本。经典算法,如动态规划(DP)和强化学习(RL),广泛应用于解决建模为马尔可夫决策过程(MDPs)的问题。这些方法通过基于观察到的回报和状态转移来更新策略,而不是生成新策略,来优化决策制定。尽管这些传统方法在许多应用中取得了成功,但它们通常依赖于试错或预定义的状态和转移,这限制了探索,并可能错过更好的解决方案。此外,它们需要大量的计算和优化,这在高维或大规模问题中可能不切实际。传统方法还需要在面对新环境时进行大规模的重新配置或再训练,从而降低了灵活性。
另一方面,生成模型被设计为对数据分布进行建模,而不仅仅是拟合标签。一旦训练完成,它们可以生成与原始数据相似的新样本,从而能够探索不同的场景和结果。这一能力使得在传统方法可能难以立即显现的情况下,发现新的策略成为可能。在复杂或标签不明确的数据场景中,生成模型提供了对可能决策路径的更深入理解,有时能引导出更符合高回报或期望目标的策略。然而,传统方法如优化或强化学习在决策空间较清晰、目标更直接的简单环境中仍然有效。选择这些方法之间的差异,取决于任务的复杂性和环境的特点。 认识到这些优势,近年来,开发新的生成模型并将其应用于决策制定的研究工作大幅增加。图 1 展示了生成模型及其在决策制定中的应用的研究趋势,进一步强调了这些方法在解决此类挑战中的重要性。然而,目前缺乏全面的综述,能够总结过去的工作并为新的研究方向铺平道路。这个空白促使我们撰写本文综述。该综述的三大贡献包括:1)提出了一个全面的分类法,用于分类当前的生成决策制定方法。我们识别了七种用于决策制定的生成模型,并将其功能分类为三个关键角色:控制器、建模器和优化器;2)我们回顾了生成模型在决策制定中的多样化实际应用,重点讨论了机器人控制、结构生成、游戏、自动驾驶和优化任务;3)最后,我们总结了现有工作的优缺点,并讨论了未来在决策制定任务中开发高性能生成模型的前景。 本文其余部分的组织结构如下(参见图 2 了解总体大纲):第二部分作为引言,介绍了序列决策制定的基本公式,并提供了所有研究方法的基础知识。具体而言,我们详细介绍了七种生成模型,并将它们与传统方法进行对比。第三部分提出了用于分类生成决策制定方法的分类法。第四部分根据介绍的分类法回顾并分析现有文献。第五部分展示了生成模型在决策制定中的实际应用。最后,第六部分讨论了生成模型在决策制定中的未来发展方向,第七部分总结了本文的整体内容。
决策制定是人工智能(AI)系统的核心能力,使智能体能够在复杂环境中导航、实现目标,并适应不断变化的条件。传统的决策框架通常依赖变量之间的关联或统计相关性,但如果忽视底层因果关系,则可能导致次优结果(Pearl et al., 2009)。因果推断领域的兴起为解决这些挑战提供了强大的框架和工具,例如结构因果模型(Structural Causal Models, SCMs)和潜在结果框架(Potential Outcomes Framework)(Rubin, 1978; Pearl, 2000)。 与传统方法不同,因果决策制定(Causal Decision Making, CDM)专注于识别和利用因果关系,使智能体能够推理其行动的后果、预测反事实场景,并以严谨的方式优化决策(Spirtes et al., 2000b)。近年来,基于因果推理的各种决策方法得到了发展,并在推荐系统(Zhou et al., 2017)、临床试验(Durand et al., 2018)、金融(Bai et al., 2024)和网约车平台(Wan et al., 2021b)等领域得到了广泛应用。尽管取得了诸多进展,但一个基本问题仍然存在:
在何时以及为何需要因果建模进行决策制定?
这一问题与反事实思维(Counterfactual Thinking)密切相关,即推理在不同决策或行动下可能发生的情况。在某些领域,未选择的决策结果难以甚至无法直接观察,因此反事实分析至关重要。例如,商业领导者在选择一种营销策略而非另一种时,可能永远无法完全得知未选策略的结果(Rubin, 1974; Pearl et al., 2009)。类似地,在计量经济学、流行病学、心理学和社会科学等领域,由于无法直接观察反事实,因果方法往往是必要的(Morgan & Winship, 2015; Imbens & Rubin, 2015)。 另一方面,在某些情况下,非因果分析可能足够。例如,个人投资者的决策对股票市场动态的影响可以忽略不计,因此可以从已有的股票价格时间序列推断不同投资决策的潜在结果(Angrist & Pischke, 2008)。然而,即使在理论上可以计算反事实结果的情况下,如在已知模型(例如 AlphaGo)环境中,穷举计算所有可能的结果在计算上是不可行的(Silver et al., 2017, 2018)。在这些场景下,因果建模仍然具有优势,它提供了结构化的方法来高效推断结果并制定稳健决策。
现有研究通常假设决策者具有复杂的先验知识或强因果模型,以进行后续决策。要做出有效且可信的决策,深入理解行动、环境和结果之间的因果关系至关重要。因此,本综述综合了因果决策制定(CDM)领域的最新研究进展,并提供了一个涵盖基础概念、最新进展和实际应用的全面概览。 本研究重点讨论因果视角下决策制定的三大核心任务:
设S 表示环境状态,包含决策者所接触的所有相关特征信息,A 代表采取的行动,π 为决定采取何种行动的策略,R 为采取行动 A 后观察到的回报。如图 1 所示,CDM 通常从 CSL 开始,以发现变量之间的未知因果关系。一旦因果结构被建立,CEL 可用于评估特定行动对结果回报的影响。为了进一步优化复杂的行动策略,CPL 可用于评估给定策略或识别最优策略。在实践中,也可能直接从 CSL 过渡到 CPL,而不经过 CEL。此外,CPL 还可以通过改进实验设计(Zhu & Chen, 2019; Simchi-Levi & Wang, 2023)或自适应调整因果结构(Sauter et al., 2024)来提升 CEL 和 CSL 的效果。
基于上述框架,文献中的决策问题可以进一步归纳为六种范式,如图 2 所示。这些范式总结了实践中常见的数据依赖假设:
这些范式还反映了不同的状态依赖假设:
在不同的范式下,CSL 主要在范式 1 下展开,CEL 和离线 CPL 涉及范式 1-3,而在线 CPL 则涵盖范式 4-6。本综述围绕这三个任务和六种范式,提供了一个系统性框架,以帮助理解因果决策制定在不同任务和数据结构下的应用。
报告深入剖析了DeepSeek-R1系列及其相关强推理模型从研发历程、核心技术创新至未来展望的全方位信息。聚焦于强化学习(RL)在大语言模型推理领域的运用,报告详细探讨了DeepSeek-R1 Zero与DeepSeek-R1如何在不依赖监督微调(SFT)的前提下,采用纯粹的强化学习策略,实现推理能力的突破性提升。 **
**
随着大语言模型(LLMs)的最新进展,智能体人工智能(Agentic AI)在现实世界应用中变得愈发显著,逐渐向基于多LLM的智能体发展,使其能够感知、学习、推理并协同行动。这些基于LLM的多智能体系统(MASs)使得一组智能体能够协调并大规模地共同解决复杂任务,从孤立的模型转向以协作为核心的方法。本文对MASs的协作方面进行了广泛综述,并引入了一个可扩展的框架以指导未来研究。我们的框架基于关键维度对协作机制进行了分类:参与者(涉及的智能体)、类型(如合作、竞争或竞合)、结构(如点对点、集中式或分布式)、策略(如基于角色或基于模型)以及协调协议。通过对现有方法的回顾,我们的研究结果为揭示和推进基于LLM的MASs提供了基础,旨在为复杂的现实世界用例提供更智能和协作的解决方案。此外,本文还探讨了MASs在多个领域的广泛应用,包括5G/6G网络、工业5.0、问答系统以及社会和文化场景,展示了其广泛采用和深远影响。最后,我们总结了关键经验教训、开放挑战以及MASs在实现人工集体智能方面的潜在研究方向。 https://arxiv.org/pdf/2501.06322
近年来,大语言模型(LLMs)的进展彻底改变了人工智能(AI)领域,使其能够执行复杂的任务,如创意写作、推理和决策,甚至在某些方面可与人类水平相媲美 [156]。然而,尽管这些模型在个体层面展现了卓越的能力,它们仍存在一些固有局限性,例如幻觉问题 [57]、自回归特性(如无法进行慢思考 [49])以及扩展规律 [55, 69]。为了解决这些挑战,智能体人工智能(Agentic AI)将LLMs作为“大脑”或“协调者”,将其与外部工具和议程(如规划)相结合,使基于LLM的智能体能够采取行动、解决复杂问题,并与外部环境进行学习和交互 [1,2]。此外,研究人员越来越多地探索水平扩展——利用多个基于LLM的智能体协同工作,以实现集体智能。这种方法与多智能体系统(MASs)和协作AI的研究方向一致,后者专注于使智能体群体能够协调、共享知识并共同解决问题。这些领域的融合催生了基于LLM的MASs,它们利用多个LLM的集体智能来应对复杂的多步骤挑战 [118]。MASs的灵感不仅来自技术进步,还源于人类集体智能(如“心智社会” [87]、“心智理论” [45])。人类社会擅长通过团队合作和专业化实现共同目标,从日常任务到科学发现皆是如此。类似地,MASs旨在模拟这些原则,使AI智能体能够通过结合各自的优势和视角进行有效协作。基于LLM的MAS可以具有多种不同特性的协作渠道,如图1所示。MASs在各个领域取得了显著成功,通过利用专业智能体之间的协作和协调,增强了个体LLM的能力。这些系统在智能体之间分配任务,使智能体能够共享知识、执行子任务,并将其努力与共同目标对齐。MASs的潜在益处是变革性的。它们在知识记忆方面表现出色,使分布式智能体能够保留和共享多样化的知识库,而不会使单个系统过载 [51, 154]。它们通过将任务分配给多个智能体来增强长期规划能力,支持在长期交互中持续解决问题 [58]。此外,MASs通过汇集具有专门提示/角色的多个模型的专业知识,实现了有效的泛化,使其能够比独立模型更有效地解决多样化问题。最后,MASs通过同时管理由专业智能体处理的子任务,提高了交互效率,加速了复杂多步骤任务的解决。MAS致力于实现集体智能,即多个智能体的综合能力超越其个体贡献的总和 [24]。有效MASs的一个主要关注点是协作机制 [33, 74, 75, 97, 132],这些机制推动了从传统的孤立模型向强调交互的方法的转变,使智能体能够连接、协商、决策、规划并共同行动,从而在集体环境中推动AI能力的提升。深入了解协作机制在MASs中的运作方式,对于释放其全部潜力至关重要。
由于基于LLM的多智能体协作系统的重要性和迫切需求,已有一些关于该主题的综述。然而,这些工作往往未能全面探讨基于LLM的MASs的协作方面和机制,而这些对于使智能体能够有效实现共同目标至关重要,如表1所总结。例如,[47, 107, 136] 主要关注单智能体系统,仅浅显地涉及多智能体协作。[136] 提出了一个基于LLM的智能体框架,包括三个组件:大脑、感知和行动。他们的工作强调了将LLMs作为智能体的“大脑”,利用输入模态集成、提示、检索和工具使用等技术。然而,他们对多智能体协作的讨论仅限于智能体行为和个性,缺乏对使智能体协同工作的机制的深入探讨。[47] 调查了基于LLM的MASs成功应用的领域和场景,分析了这些系统的通信结构(分层、去中心化、集中式和共享消息池),但未涉及协作的其他特征,如类型、策略或协调架构。其他工作,如[82],专注于协作策略,将其分类为合并、集成和合作。尽管他们的综述讨论了这些策略如何应用于LLMs,并将合作扩展到传统融合技术之外,但忽略了其他关键的协作机制,如竞争和竞合,以及除流行协作类型之外的维度。相比之下,[120] 提出了一个通过MASs增强LLM能力的通用框架,展示了Auto-GPT等工具如何与其框架对齐。然而,协作机制仍停留在概念层面,缺乏详细的实现和特征描述。[50] 的重点是配置LLMs以利用多样化的能力和角色,例如集成记忆和信息检索组件。他们对多智能体协作的探索主要集中在规划和协调架构上,强调基于智能体角色和专业化的全局和局部任务规划。与此同时,[46] 将其研究范围缩小到基于LLM的MASs在基于智能体的建模和模拟中的应用,讨论了环境感知、人类对齐、行动生成和评估等挑战。尽管对模拟特定应用具有启发性,但它缺乏对深入协作机制的更广泛视角。类似地,[68] 调查了这些系统在数字孪生中的应用,而[52, 70] 则专注于软件工程领域。从上述总结和解释中可以看出,现有研究在全面探索基于LLM的MASs的协作方面和机制方面存在明显不足,而这些对于使智能体能够共同实现目标至关重要。本文旨在提供基于LLM的智能体在多智能体协作系统中协作基础的全面视角。以协作为核心,我们的研究基于参与者(涉及的智能体)、类型(如合作、竞争或竞合)、结构(如点对点、集中式或分布式)、策略(如基于角色、基于规则或基于模型)以及协调层对智能体之间的协作进行了特征化。我们强调了促进有效协作的机制和关键技术,识别了MAS设计中的关键特征和趋势。通过对现有方法的综述和开放挑战的识别,我们将这些发现综合为一个连贯的框架。该框架为未来研究奠定了基础,推动了LLMs在MASs中的集成,并为开发更具适应性、智能性和协作性的AI系统铺平了道路,以应对复杂的现实世界应用。我们的主要贡献如下:
本文的结构如下:第2节提供了理解本工作所需的背景知识,包括LLMs、MASs和协作AI的概述。第3节通过数学符号介绍了基于LLM的多智能体协作系统的基础概念,强调了协作的关键作用。接着,第4节对基于LLM的多智能体协作系统进行了广泛综述,按协作的关键特征(包括类型、策略、结构和协调与编排)分类。第5节回顾了基于LLM的多智能体协作系统在学术界和工业界的关键应用。第6节讨论了这一新兴研究领域的开放问题和未来研究方向。最后,第7节总结了这篇关于基于LLM的多智能体协作系统的综述论文。