人类本质上是复杂社会环境中协同运作的多智能体集群,需通过交互与协作实现目标。正是这种内在社会性推动了人类发展与物种成功:合作、沟通与群体整合能力使我们能解决个体无法独立应对的问题并把握机遇。例如,劳动分工与社会化组织催生的专业化,对促进尖端技术与文化成就具有关键作用。自然界多智能体系统面临的挑战与机遇,与人工智能领域研究存在诸多共性。基于此认知,多智能体强化学习(MARL)已成为开发复杂交互环境中高性能智能体的范式。

现实世界多智能体系统本质具有生成性——智能体可在动态环境中交互、学习与适应,但如何在MARL中复现人类复杂社会结构并迁移先验知识至新情境(无需大量训练),仍是重大挑战。例如,人类具备生成新创意的能力(如结合既有知识与新洞察开发技术),类似地,多智能体系统应能基于积累知识、推理能力与创造力设计高效近优解。赋予MARL算法类人的近优决策生成能力,可使其更有效应对现实多智能体系统的约束与挑战(相比从零开始通过反复交互学习协作策略)。本论文提出生成策略网络(GPN)框架,赋予单/多智能体在复杂环境中的知识储备与决策能力。该方法填补当前研究空白——现实应用中的MARL系统在样本效率、稳定性与整体性能方面存在显著不足(快速适应与协调能力至关重要)。

任务间知识迁移本质是MARL领域的另一根本挑战,源于交互复杂性、学习环境非平稳性及高维状态/动作空间的维度灾难。此外,任务异质性、现实场景部分可观测性及涌现复杂行为加剧迁移难度。更多智能体引入导致可扩展性问题,不同多智能体任务环境间的策略泛化亦趋困难。这些挑战要求开发能有效捕获与迁移知识的方法,但MARL场景间的知识迁移仍极具挑战。理解MARL算法训练目标中各组件的影响对开发高效迁移算法至关重要,包括:(1) 状态表征——探究不同编码方法如何影响知识迁移;(2) 动作空间——研究离散表征对可迁移性的作用;(3) 学习算法——聚焦"中心化训练-分散化执行"(CTDE)问题。为应对知识迁移难题,本研究分解MARL训练过程的构成要素,并深入探索任务结构及其在迁移中的关键作用。任务结构指多智能体场景中的潜在模式、层级与关联关系。为此,提出动态内部选项混合(DIOMIX)技术——通过任务分解将复杂多智能体任务拆解为更简明的子任务。通过解析任务结构,揭示可泛化原则以指导开发更鲁棒、自适应的MARL系统,实现跨场景高效知识迁移。

本研究攻克MARL两大核心难题:赋予智能体类人生成式决策能力;复杂动态环境中的任务间知识迁移。所提系统不仅能从环境中学习,还可通过生成式推理快速制定近优解(体现人类认知关键特征)。本论文提出系列创新技术突破多智能体系统固有挑战,旨在拓展MARL在现实动态环境中的应用边界。

贡献

为应对前述挑战并解答研究问题,本研究在多智能体强化学习(MARL)领域取得以下核心贡献:提出方法学、分析与算法以解决相关难题。主要贡献可归纳如下:
• 参数空间直接生成策略网络的新方法:提出"潜在嵌入策略生成"(Policy Generation from Latent Embeddings, PGLE)技术。实验表明,在单智能体场景中,基于变分推断范式并给定充足最优数据,神经网络能够生成决策策略网络。
• MARL范式下的PGLE增强方法:针对PGLE的局限性,提出新型架构以提升生成能力。尽管该方法展现出优异性能,本文亦探讨其现阶段局限,为后续研究指明方向。
• MARL知识迁移本质问题的系统性探究:提出缓解知识迁移难题的技术方案,揭示与架构设计间接关联的迁移必要条件。
• 任务分解创新方法:通过重构经典策略网络实现分层动作执行(高层与底层协同),提出在参数共享范式下改进CTDE框架约束动作执行的替代方案。

成为VIP会员查看完整内容
3

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《多智能体合作强化学习中的通信》139页
专知会员服务
39+阅读 · 2月17日
《用于自主网络行动的竞争性强化学习》113页
专知会员服务
25+阅读 · 1月12日
《基于特质的多机器人协调建模》191页
专知会员服务
38+阅读 · 2024年6月10日
《理解数字认知背后的认知机制》350页
专知会员服务
41+阅读 · 2024年5月23日
多智能体自主系统《群体自主系统的实时路径规划》248页
张潼新书《机器学习算法数学分析》,477页pdf
专知会员服务
206+阅读 · 2023年7月6日
专知会员服务
76+阅读 · 2021年7月21日
最新《可解释机器学习:原理与实践》综述论文,33页pdf
专知会员服务
160+阅读 · 2020年10月10日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
37+阅读 · 2022年7月13日
清华大学《高级机器学习》课程
专知
39+阅读 · 2020年7月21日
深度多模态表示学习综述论文,22页pdf
专知
32+阅读 · 2020年6月21日
【新书册】贝叶斯神经网络,41页pdf
专知
29+阅读 · 2020年6月3日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《多智能体合作强化学习中的通信》139页
专知会员服务
39+阅读 · 2月17日
《用于自主网络行动的竞争性强化学习》113页
专知会员服务
25+阅读 · 1月12日
《基于特质的多机器人协调建模》191页
专知会员服务
38+阅读 · 2024年6月10日
《理解数字认知背后的认知机制》350页
专知会员服务
41+阅读 · 2024年5月23日
多智能体自主系统《群体自主系统的实时路径规划》248页
张潼新书《机器学习算法数学分析》,477页pdf
专知会员服务
206+阅读 · 2023年7月6日
专知会员服务
76+阅读 · 2021年7月21日
最新《可解释机器学习:原理与实践》综述论文,33页pdf
专知会员服务
160+阅读 · 2020年10月10日
相关资讯
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员