必读论文 | 20篇强化学习研究必读论文速递

2020 年 5 月 15 日 学术头条

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

本期特推出 20 篇强化学习必读论文。

1. Emergent Tool Use From Multi-Agent Autocurricula
作者：Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch
本篇论文作者前六位来自 Open AI, 第七位作者来自 Google Brain. OpenAI 是在游戏开发行业中使用机器学习的领先者之一。此论文展示了一个游戏 AI 演示，它学习如何在捉迷藏游戏中形成自己的获胜策略。通过隐式的课程学习中，在一个具备互动和竞争机制的环境中，不同的智能体之间可以持续地找到新任务，它们也就可以持续地学会新的策略。

2. Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
作者：Kate Rakelly, Aurick Zhou, Deirdre Quillen, Chelsea Finn, Sergey Levine
这篇论文由 Berkeley Artificial Intelligence Research (BAIR) Lab 发表在 ICML 2019 上。主要贡献在于提出了一种新的视角来解决元学习中任务的学习样本利用率不高的问题。这篇工作致力于用 task encoding 的方法来解决如何从过去学习的任务中针对新的任务获取有效的信息，以及如何对新任务的不确定性做出更准确的判断的问题。此篇论文将 task inference 与 learning 过程分离的点子来自于 POMDPs 的探索过程，通过这样的分离，使得 meta-RL 中对样本的利用率提高。

3. Guided Meta-Policy Search
作者：Russell Mendonca, Abhishek Gupta, Rosen Kralev, Pieter Abbeel, Sergey Levine, Chelsea Finn
传统的元强化学习方法在 meta-training 过程中需要大量的数据，因为很多是 on-policy 的。在许多问题中很难满足。本篇论文探索在元学习阶段（learn a RL procedure；外循环）提供监督信息，实际使用有监督的模仿学习，这样可以充分利用 off-policy 数据，内循环仍然是一个 RL 学习。模仿的专家策略可以是标准强化学习方法自动产生的，这样实际上不需要额外的监督假设。如果能结合人类的范例，可以更有效地训练。在 meta-training 阶段使用范例能在元优化阶段有效帮助探索，使其在稀疏奖励环境下更有效地学习。

4. Using a Logarithmic Mapping to Enable Lower Discount Factors in Reinforcement Learning
作者：Harm van Seijen, Mehdi Fatemi, Arash Tavakoli
为了更好地了解折现系数的不同方式是如何影响强化学习的优化过程，本篇论文设计了一套单独研究每种效果的实验。研究表明传统的观点，即低折扣因子表现欠佳是由（太）小的行动差距引起需要修订。研究提出状态空间中行动差距的规模差异是主要的原因，并提出一种新的方法来，以帮助近似的强化学习方法启用较低的折扣因子。

5. Distributional Reinforcement Learning for Efficient Exploration
作者：Borislav Mavrin, Shangtong Zhang, Hengshuai Yao, Linglong Kong, Kaiwen Wu, Yaoliang Yu
在分布强化学习中，价值函数模型的估计分布具有参数和固有的不确定性。本篇论文具有两个组成部分的深度强化学习提供一种新颖且有效的探索方法。首先是通过衰减的时间表，以抑制内在的不确定性。第二是探索根据上分位数计算的奖金学习分配。在 Atari 2600 游戏中，研究的 14 个方法中有 12 个方法优于 QR-DQN 硬游戏。

6.How to Combine Tree-Search Methods in Reinforcement Learning
作者：Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor
本篇论文作者来自以色列理工学院、法国国家信息与自动化研究所。获得 2019 年 AAAI 会议的最佳论文奖。有限时域前瞻策略（Finite-horizon lookahead policies）被大量用于强化学习，并得到了令人印象深刻的实证成果。通常，前瞻策略是使用特定的规划方法实现的，例如蒙特卡罗树搜索（例如在 AlphaZero 中）。这些实现中有一种合理的做法是将规划问题视为树搜索，其仅在叶节点处备份值，而在根节点下获取的信息不用于更新策略。本文对这种方法的有效性提出质疑。即，后一个过程通常是非收缩的，并且其收敛性不能保证。本篇论文提出使用最佳树路径的返回值来备份根节点的后代的值。

7. Better Exploration with Optimistic Actor Critic
作者：Kamil Ciosek, Quan Vuong, Robert Loftin, Katja Hofmann
本文是一个对 actor-critic 算法的改进，这是一种无模型的强化学习算法，它被用于解决连续的控制任务。但是由于它的低样本效率，难以被广泛采用。因此文章将它的问题总结成两个现象：一是悲观的不探索现象，即由于贪婪 actor 的更新来源于一个悲观的 critic 的估计而导致的不选择 agent 不了解的动作的情况；第二个是方向的未知性，即总是以同样的可能性在与当前平均值左右相反的两个方向去采样行动，这种浪费的现象。文章提出一种新算法，被称为 OAC，它使用两个一高一低的置信区间进行估计 state-action 的 value 函数，高的用于指导探索，低的用于防止过拟合。文章面对的问题是有挑战性的连续控制任务。实验结果证明，使用面对不确定性的乐观原则可以提高策略梯度算法的抽样效率同时几乎不增加额外的计算负担。

8. Policy Certificates: Towards Accountable Reinforcement Learning
作者：Christoph Dann, Lihong Li, Wei Wei, Emma Brunskill
当前强化学习算法很少在执行之前提供有关其当前策略质量的信息，本篇论文提出算法输出策略证书的方法来解决这一问题，以允许人类在认证质量不满意时进行干预。

9. Rainbow: Combining Improvements in Deep Reinforcement Learning
作者：Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Daniel Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, David Silver
本篇论文的核心思想在于将深度 Q-Networks 算法的改进方法结合在一起，形成一个全能的网络，被命名为 Rainbow。

10. Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models
作者：Kurtland Chua, Roberto Calandra, Rowan McAllister, Sergey Levine
本文主要关注在 model-based 方法中利用什么模型以及如何利用模型的问题。

11. Model-Ensemble Trust-Region Policy Optimization
作者：Thanard Kurutach, Ignasi Clavera, Yan Duan, Aviv Tamar, Pieter Abbeel

12. Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

作者：Jacob Buckman, Danijar Hafner, George Tucker, Eugene Brevdo, Honglak Lee

13. Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning

作者：Vladimir Feinberg, Alvin Wan, Ion Stoica, Michael I. Jordan, Joseph E. Gonzalez, Sergey Levine

14. Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning
作者：Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro A. Ortega, Dj Strouse,Joel Z. Leibo, Nando de Freitas

15. Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection
作者：Sergey Levine, Peter Pastor, Alex Krizhevsky, Julian Ibarz, Deirdre Quillen

16. Noisy Networks For Exploration
作者：Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Matteo Hessel, Ian Osband, Alex Graves, Volodymyr Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell

17. Neural Architecture Search with Reinforcement Learning
作者：Barret Zoph, Quoc V. Le

18. A Distributional Perspective on Reinforcement Learning
作者：Marc G. Bellemare, Will Dabney, Rémi Munos

19. Evolution Strategies as a Scalable Alternative to Reinforcement Learning
作者：Tim Salimans, Jonathan Ho, Xi Chen, Ilya Sutskever

20. Value Prediction Network
作者：Junhyuk Oh, Satinder Singh, Honglak Lee