In recent years, reinforcement learning and its multi-agent analogue have achieved great success in solving various complex control problems. However, multi-agent reinforcement learning remains challenging both in its theoretical analysis and empirical design of algorithms, especially for large swarms of embodied robotic agents where a definitive toolchain remains part of active research. We use emerging state-of-the-art mean-field control techniques in order to convert many-agent swarm control into more classical single-agent control of distributions. This allows profiting from advances in single-agent reinforcement learning at the cost of assuming weak interaction between agents. However, the mean-field model is violated by the nature of real systems with embodied, physically colliding agents. Thus, we combine collision avoidance and learning of mean-field control into a unified framework for tractably designing intelligent robotic swarm behavior. On the theoretical side, we provide novel approximation guarantees for general mean-field control both in continuous spaces and with collision avoidance. On the practical side, we show that our approach outperforms multi-agent reinforcement learning and allows for decentralized open-loop application while avoiding collisions, both in simulation and real UAV swarms. Overall, we propose a framework for the design of swarm behavior that is both mathematically well-founded and practically useful, enabling the solution of otherwise intractable swarm problems.


翻译:近年来,强化学习及其多试剂类比在解决各种复杂控制问题方面取得了巨大成功;然而,多试剂强化学习在理论分析和算法实验设计方面仍然具有挑战性,特别是对于大型成形机器人剂的理论分析和实验设计,特别是对于大型成形机器人剂而言,一个确定的工具链仍然是积极研究的一部分。我们使用新兴的尖端平均场控制技术,将许多试剂的暖流控制转换成更经典的分布式单一试剂控制。这有利于从单一试剂强化学习的进展中获利,而牺牲了代理剂之间的薄弱互动。然而,由于实际系统的性质,其内装有体、物理交织剂,因此,暗地模型被违反。因此,我们把避免碰撞和学习中值控制纳入一个统一框架,以利设计智能机器人暖气行为。在理论方面,我们为连续空间和避免碰撞的普通场控制提供了新的近似保证。在实际方面,我们的方法优于多试剂强化学习,并允许分散开路应用,同时避免碰撞,同时在模拟和真实的滚动式总体设计中,我们提出了一个有用的、实际的、有根基的、有根基的、有根的UAVAV-AV-G-H-G-G-G-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Prois-Prois-Prois-Pro/-Pro/-Pro-Pro-Prois-Prois-Procal-Pro-Pro-Procal-Lis-Lu-Lu-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-Pro-

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
26+阅读 · 2023年1月5日
Arxiv
23+阅读 · 2022年2月4日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员