当前,强化学习(包括深度强化学习DRL和多智能体强化学习MARL)在游戏、机器⼈等领域有⾮常出⾊的表现,但尽管如此,在达到相同⽔平的情况下,强化学习所需的样本量(交互次数)还是远远超过⼈类的。这种对⼤量交互样本的需求,严重阻碍了强化学习在现实场景下的应⽤。为了提升对样本的利⽤效率,智能体需要⾼效率地探索未知的环境,然后收集⼀些有利于智能体达到最优策略的交互数据,以便促进智能体的学习。近年来,研究⼈员从不同的⻆度研究RL中的探索策略,取得了许多进展,但尚⽆⼀个全⾯的,对RL中的探索策略进⾏深度分析的综述。

本⽂介绍深度强化学习领域第⼀篇系统性的综述⽂章Exploration in Deep Reinforcement Learning: A Comprehensive Survey。该综述⼀共调研了将近200篇⽂献,涵盖了深度强化学习和多智能体深度强化学习两⼤领域近100种探索算法。总的来说,该综述的贡献主要可以总结为以下四⽅⾯:

  • 三类探索算法。该综述⾸次提出基于⽅法性质的分类⽅法,根据⽅法性质把探索算法主要分为基于不确定性的探索、基于内在激励的探索和其他三⼤类,并从单智能体深度强化学习和多智能体深度强化学习两⽅⾯系统性地梳理了探索策略。

  • 四⼤挑战。除了对探索算法的总结,综述的另⼀⼤特点是对探索挑战的分析。综述中⾸先分析了探索过程中主要的挑战,同时,针对各类⽅法,综述中也详细分析了其解决各类挑战的能⼒。

  • 三个典型benchmark。该综述在三个典型的探索benchmark中提供了具有代表性的DRL探索⽅法的全⾯统⼀的性能⽐较。

  • 五点开放问题。该综述分析了现在尚存的亟需解决和进⼀步提升的挑战,揭⽰了强化学习探索领域的未来研究⽅向。

成为VIP会员查看完整内容
82

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
167+阅读 · 2021年8月3日
专知会员服务
51+阅读 · 2021年4月6日
专知会员服务
128+阅读 · 2021年3月13日
专知会员服务
136+阅读 · 2021年1月13日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
专知会员服务
207+阅读 · 2019年8月30日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
10+阅读 · 2020年9月9日
清华朱军教授:机器学习未来的几大挑战与目前进展
DeepTech深科技
4+阅读 · 2018年10月29日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
21+阅读 · 2017年7月10日
Arxiv
9+阅读 · 2021年3月25日
Arxiv
8+阅读 · 2020年10月7日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2017年7月25日
VIP会员
相关VIP内容
基于强化学习的推荐研究综述
专知会员服务
83+阅读 · 2021年10月21日
专知会员服务
167+阅读 · 2021年8月3日
专知会员服务
51+阅读 · 2021年4月6日
专知会员服务
128+阅读 · 2021年3月13日
专知会员服务
136+阅读 · 2021年1月13日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
鲁棒模式识别研究进展
专知会员服务
40+阅读 · 2020年8月9日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
专知会员服务
207+阅读 · 2019年8月30日
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
10+阅读 · 2020年9月9日
清华朱军教授:机器学习未来的几大挑战与目前进展
DeepTech深科技
4+阅读 · 2018年10月29日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【团队新作】深度强化学习进展: 从AlphaGo到AlphaGo Zero
中国科学院自动化研究所
17+阅读 · 2018年1月31日
如何做文献综述:克雷斯威尔五步文献综述法
清华大学研究生教育
21+阅读 · 2017年7月10日
相关论文
Arxiv
9+阅读 · 2021年3月25日
Arxiv
8+阅读 · 2020年10月7日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2017年7月25日
微信扫码咨询专知VIP会员