多智能体强化学习(MARL)近年来大受欢迎。虽然已开发出许多方法,但它们大致可分为三大类:集中式训练和执行(CTE)、分布式执行的集中式训练(CTDE)以及分布式训练和执行(DTE)。

CTE 方法假定在训练和执行期间是集中的(例如,具有快速、自由和完美的通信),并且在执行期间拥有最多的信息。也就是说,每个智能体的行动可以依赖于所有智能体的信息。因此,通过使用具有集中行动和观测空间的单智能体 RL 方法(在部分可观测的情况下保持集中的行动观测历史),可以实现一种简单形式的 CTE。CTE 方法有可能优于分散执行方法(因为它们允许集中控制),但可扩展性较差,因为(集中的)行动和观察空间会随着智能体数量的增加而呈指数级扩展。CTE 通常只用于合作式 MARL 情况,因为集中控制意味着要协调每个智能体将选择哪些行动。

CTDE 方法是最常见的方法,因为它们在训练过程中利用集中信息,同时实现分散执行--在执行过程中只使用该智能体可用的信息。CTDE 是唯一一种需要单独训练阶段的模式,在训练阶段可以使用任何可用信息(如其他智能体策略、底层状态)。因此,它们比 CTE 方法更具可扩展性,不需要在执行过程中进行通信,而且通常性能良好。CTDE 最自然地适用于合作情况,但也适用于竞争或混合情况,这取决于假定观察到哪些信息。

分布式训练和执行方法所做的假设最少,通常也很容易实现。事实上,只要让每个智能体分别学习,任何单智能体 RL 方法都可以用于 DTE。当然,这些方法各有利弊,下面将对此进行讨论。值得注意的是,如果没有集中训练阶段(如通过集中模拟器),就需要 DTE,要求所有智能体在没有事先协调的情况下在在线交互过程中学习。DTE 方法可用于合作、竞争或混合情况。MARL 方法可进一步分为基于价值的方法和策略梯度方法。基于价值的方法(如 Q-learning)学习一个价值函数,然后根据这些价值选择行动。策略梯度法学习明确的策略表示,并试图沿着梯度方向改进策略。这两类方法在 MARL 中都得到了广泛应用。

本文介绍的是合作 MARL-MARL,其中所有智能体共享一个单一的联合奖励。它旨在解释 CTE、CTDE 和 DTE 设置的设置、基本概念和常用方法。它并不涵盖合作 MARL 的所有工作,因为该领域相当广泛。

成为VIP会员查看完整内容
30

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《因果强化学习导论》最新180页技术报告
专知会员服务
34+阅读 · 2024年12月31日
自动驾驶中的多智能体强化学习综述
专知会员服务
40+阅读 · 2024年8月20日
《深度学习多标签学习》最新综述
专知会员服务
42+阅读 · 2024年1月31日
《多智能体强化学习:基础与现代方法》2023最新320页书稿
专知会员服务
121+阅读 · 2023年10月26日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
44+阅读 · 2023年7月11日
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
147+阅读 · 2022年7月8日
专知会员服务
83+阅读 · 2021年6月20日
【MIT博士论文】数据高效强化学习,176页pdf
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月8日
A Survey of Large Language Models
Arxiv
424+阅读 · 2023年3月31日
VIP会员
相关VIP内容
《因果强化学习导论》最新180页技术报告
专知会员服务
34+阅读 · 2024年12月31日
自动驾驶中的多智能体强化学习综述
专知会员服务
40+阅读 · 2024年8月20日
《深度学习多标签学习》最新综述
专知会员服务
42+阅读 · 2024年1月31日
《多智能体强化学习:基础与现代方法》2023最新320页书稿
专知会员服务
121+阅读 · 2023年10月26日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
44+阅读 · 2023年7月11日
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
147+阅读 · 2022年7月8日
专知会员服务
83+阅读 · 2021年6月20日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员