LIGS:为多机构学习选择可学习的内在-奖励生成 (LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning) - 专知论文

会员服务 ·

0

学习器 · 学成 · Performer · Performance · 评论员 ·

2021 年 12 月 5 日

LIGS: Learnable Intrinsic-Reward Generation Selection for Multi-Agent Learning

翻译：LIGS:为多机构学习选择可学习的内在-奖励生成

David Henry Mguni,Taher Jafferjee,Jianhong Wang,Nicolas Perez-Nieves,Oliver Slumbers,Feifei Tong,Yang Li,Jiangcheng Zhu,Yaodong Yang,Jun Wang

from arxiv, arXiv admin note: substantial text overlap with arXiv:2103.09159

Efficient exploration is important for reinforcement learners (RL) to achieve high rewards. In multi-agent systems, coordinated exploration and behaviour is critical for agents to jointly achieve optimal outcomes. In this paper, we introduce a new general framework for improving coordination and performance of multi-agent reinforcement learners (MARL). Our framework, named Learnable Intrinsic-Reward Generation Selection algorithm (LIGS) introduces an adaptive learner, Generator that observes the agents and learns to construct intrinsic rewards online that coordinate the agents' joint exploration and joint behaviour. Using a novel combination of reinforcement learning (RL) and switching controls, LIGS determines the best states to learn to add intrinsic rewards which leads to a highly efficient learning process. LIGS can subdivide complex tasks making them easier to solve and enables systems of RL agents to quickly solve environments with sparse rewards. LIGS can seamlessly adopt existing multi-agent RL algorithms and our theory shows that it ensures convergence to joint policies that deliver higher system performance. We demonstrate the superior performance of the LIGS framework in challenging tasks in Foraging and StarCraft II.

翻译：高效的探索对于强化学习者(RL)获得高回报非常重要。在多试剂系统中,协调的探索和行为对于代理商共同取得最佳成果至关重要。在本文中,我们引入了一个新的总体框架来改进多剂强化学习者(MARL)的协调与绩效。我们的名为“可学习的内在-再生”选择算法(LIGS)的框架引入了适应性学习者、观察代理商并学会在网上构建内在收益以协调代理商的联合探索和联合行为。在强化学习(RL)和转换控制的新组合中,LIGS决定了最佳国家学习增加内在收益以导致高效的学习过程。 LIGS可以将复杂任务细分为辅助,使其更容易解决并使RL代理商系统能够以微薄的回报快速解决环境。 LIGS可以无缝地采用现有的多剂RL算法,以及我们的理论表明,它能确保与提供更高系统绩效的联合政策趋同。我们展示LIGS框架在挑战调控控和StarCraft II的任务方面的优异表现。

0

相关内容

学习器

【图与几何深度学习，53页ppt】Graph and geometric deep learning

专知会员服务

90+阅读 · 2021年6月14日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

131+阅读 · 2020年5月14日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Decoupled Reinforcement Learning to Stabilise Intrinsically-Motivated Exploration

Arxiv

0+阅读 · 2022年2月9日

Contextualize Me -- The Case for Context in Reinforcement Learning

Arxiv

0+阅读 · 2022年2月9日

Local Explanations for Reinforcement Learning

Arxiv

0+阅读 · 2022年2月8日

A Ranking Game for Imitation Learning

Arxiv

0+阅读 · 2022年2月7日

Generative Planning for Temporally Coordinated Exploration in Reinforcement Learning

Arxiv

0+阅读 · 2022年2月3日

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Arxiv

6+阅读 · 2021年9月15日

Hyperparameter Selection for Imitation Learning

Arxiv

7+阅读 · 2021年5月25日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications

Arxiv

4+阅读 · 2018年12月31日

ALMN: Deep Embedding Learning with Geometrical Virtual Point Generating

Arxiv

5+阅读 · 2018年6月5日

VIP会员

文章信息

相关主题

相关VIP内容

【图与几何深度学习，53页ppt】Graph and geometric deep learning

专知会员服务

90+阅读 · 2021年6月14日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

131+阅读 · 2020年5月14日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

84+阅读 · 2020年2月18日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【强化学习资源集合】Awesome Reinforcement Learning

【强化学习资源集合】Awesome Reinforcement Learning

专知会员服务

97+阅读 · 2019年12月23日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Decoupled Reinforcement Learning to Stabilise Intrinsically-Motivated Exploration

Arxiv

0+阅读 · 2022年2月9日

Contextualize Me -- The Case for Context in Reinforcement Learning

Arxiv

0+阅读 · 2022年2月9日

Local Explanations for Reinforcement Learning

Arxiv

0+阅读 · 2022年2月8日

A Ranking Game for Imitation Learning

Arxiv

0+阅读 · 2022年2月7日

Generative Planning for Temporally Coordinated Exploration in Reinforcement Learning

Arxiv

0+阅读 · 2022年2月3日

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Arxiv

6+阅读 · 2021年9月15日

Hyperparameter Selection for Imitation Learning

Arxiv

7+阅读 · 2021年5月25日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications

Deep Reinforcement Learning for Multi-Agent Systems: A Review of Challenges, Solutions and Applications

Arxiv

4+阅读 · 2018年12月31日

ALMN: Deep Embedding Learning with Geometrical Virtual Point Generating

Arxiv

5+阅读 · 2018年6月5日

微信扫码咨询专知VIP会员