这两天我阅读了一篇猛文Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向。原文归纳出深度强化学习中的常见科学问题,并列出了目前解法与相关综述,我在这里做出整理,抽取了相关的论文。


prediction, policy evaluation

万变不离其宗,Temporal Difference方法仍然是策略评估的核心哲学【Sutton 1988】。TD的拓展版本和她本身一样鼎鼎大名——1992年的Q-learning2015年的DQN

美中不足,TD Learning中很容易出现Over-Estimate(高估)问题,具体原因如下:

The max operator in standard Q-learning and DQN use the same values both to select and to evaluate an action. —— van Hasselt

旷世猛将van Hasselt先生很喜欢处理Over-Estimate问题,他先搞出一个Double Q-learning【van Hasselt 2010】大闹NIPS,六年后搞出深度学习版本的Double DQN【van Hasselt 2016a】


control, finding optimal policy



  1. 最传统的方法是Value-Based,就是选择有最优Value的Action。最经典方法有:Q-learning 【Watkins and Dayan 1992】、SARSA 【Sutton and Barto 2017】

  2. 后来Policy-Based方法引起注意,最开始是REINFORCE算法Williams 1992,后来策略梯度Policy Gradient【Sutton 2000】出现。

  3. 最时行的Actor-Critic 【Barto 1983】把两者做了结合。楼上Sutton老爷子的好学生、AlphaGo的总设计师David Silver同志提出了Deterministic Policy Gradient,表面上是PG,实际讲了一堆AC,这个改进史称DPG【Silver 2014】



Instability and Divergence when combining off-policy,function approximation,bootstrapping

早在1997年Tsitsiklis就证明了如果Function Approximator采用了神经网络这种非线性的黑箱,那么其收敛性和稳定性是无法保证的。

分水岭论文Deep Q-learning Network【Mnih 2013】中提到:虽然我们的结果看上去很好,但是没有任何理论依据(原文很狡猾的反过来说一遍)。

This suggests that, despite  lacking any theoretical convergence guarantees, our method is able to train large neural networks using a reinforcement learning signal and stochastic gradient descent in stable manner



  1. 经验回放【Lin 1993】(虽然做不到完美的独立同分布,但还是要尽力减少数据之间的关联性)

  2. Target Network【Mnih 2015】(Estimated Network和Target Network不能同时更新参数,应该另设Target Network以保证稳定性)

Since  the network Q being updated is also used in calculating the target value, the Q update is prone to divergence.(为什么我们要用Target Network)


  1. 经验回放升级版:Prioritized Experience Replay 【Schaul 2016】

  2. 更好探索策略 【Osband 2016】

  3. DQN加速 【He 2017a】

  4. 通过平均减少方差与不稳定性Averaged-DQN 【Anschel 2017】


Duel DQN【Wang 2016c】(ICML2016最佳论文

Tips:阅读此文请掌握DQN、Double DQN、Prioritized Experience Replay这三个背景。

异步算法A3C 【Mnih 2016】

TRPO(Trust Region Policy Optimization)【Schulman 2015】

Distributed Proximal Policy Optimization 【Heess 2017】

Policy gradient与Q-learning 的结合【O'Donoghue 2017】【Nachum 2017】【Gu 2017】【Schulman 2017】

GTD 【Sutton 2009a】【Sutton 2009b】【Mahmood 2014】

Emphatic-TD 【Sutton 2016】


train perception and control jointly end-to-end

现有解法是Guided Policy Search 【Levine 2016a】


data/sample efficiency


经验回放下的actor-critic 【Wang 2017b】

PGQ,policy gradient and Q-learning 【O'Donoghue 2017】

Q-Prop, policy gradient with off-policy critic 【Gu 2017】

return-based off-policy control的工作有:Retrace【Munos 2016】, Reactor【Gruslyset 2017】

learning to learn【Duan 2017】【Wang 2016a】【Lake 2015】


reward function not available


吴恩达的逆强化学习【Ng and Russell 2000)】

learn from demonstration 【Hester 2017】

imitation learning with GANs 【Ho and Ermon 2016】【Stadie 2017】 (其TensorFlow实现在imitation)

train dialogue policy jointly with reward model 【Su 2016b】


exploration-exploitation tradeoff


unify count-based exploration and intrinsic motivation 【Bellemare 2017】

under-appreciated reward exploration 【Nachum 2017)】

deep exploration via bootstrapped DQN 【Osband 2016)】

variational information maximizing exploration 【Houthooft 2016】


model-based learning


Sutton老爷子教科书里的经典案例:Dyna-Q【Sutton 1990】

model-free与model-based的结合使用【Chebotar 2017】


model-free planning


  1. Value Iteration Networks【Tamar 2016】是勇夺NIPS2016最佳论文头衔的猛文,知乎上已经有专门的文章解说了:Value iteration Network,还有作者的采访NIPS 2016最佳论文作者:如何打造新型强化学习观?VIN的TensorFlow实现在tensorflow-value-iteration-networks。

Value Iteration Network的框架

  1. DeepMind的Silver大神发表的Predictron方法 【Silver 2016b】,其TensorFlow实现是predictron。


focus on salient parts

@贾扬清 大神曾经说过:

强化学习和Robotics、  统计和概率图模型、  计算机视觉和图像处理、  语音和自然语言处理、  核方法及其理论、  搜索,CSP,逻辑,Planning等

因此,一个很好的思路是从计算机视觉与自然语言处理领域汲取灵感,例如下文中将会提到的unsupervised auxiliary learning方法借鉴了RNN+LSTM中的大量操作

下面是CV和NLP方面的几个简介:物体检测 【Mnih 2014】机器翻译 【Bahdanau 2015】图像标注【Xu 2015】用Attention代替CNN和RNN【Vaswani 2017】等等。


data storage over long time, separating from computation

最出名的解法是在Nature上大秀一把的Differentiable Neural Computer【Graves et al 2016】


benefit from non-reward training signals in environments


Horde 【Sutton 2011】

没有回报就用辅助函数,一篇极其优秀的工作:unsupervised reinforcement and auxiliary learning 【Jaderberg 2017】

learn to navigate with unsupervised auxiliary learning 【Mirowski 2017】

下面是大名鼎鼎的GANs 【Goodfellow et al 2014】


learn knowledge from different domains

现有解法全部围绕迁移学习走 【Taylor and Stone, 2009】【Pan and Yang 2010】【Weiss 2016】,learn invariant features to transfer skills 【Gupta 2017】


benefit from both labelled and unlabelled data

现有解法全部围绕半监督学习 【Zhu and Goldberg 2009】

learn with MDPs both with and without reward functions 【Finn 2017】

learn with expert's trajectories and those may not from experts 【Audiffren 2015】


learn, plan, and represent knowledge with spatio-temporal abstraction at multiple levels

现有解法:多层强化学习 【Barto and Mahadevan 2003】

strategic attentive writer to learn macro-actions 【Vezhnevets 2016】

integrate temporal abstraction with intrinsic motivation 【Kulkarni 2016】

stochastic neural networks for hierarchical RL 【Florensa 2017】

lifelong learning with hierarchical RL 【Tessler 2017】


adapt rapidly to new tasks

现有解法基本上是learn to learn

learn a flexible RNN model to handle a family of RL tasks 【Duan 2017】【Wang 2016a】

one/few/zero-shot learning 【Duan 2017】【Johnson 2016】【Kaiser 2017b】【Koch 2015】【Lake 2015】【Li and Malik 2017】【Ravi and Larochelle 2017】【Vinyals 2016】


gigantic search space

现有解法依然是蒙特卡洛搜索,详情可以参考初代AlphaGo的实现【Silver 2016a】


neural networks architecture design

现有的网络架构搜索方法【Baker 2017】【Zoph and Le 2017】,其中Zoph的工作分量非常重

新的架构有【Kaiser 2017a】【Silver 2016b】【Tamar 2016】【Vaswani 2017】【Wang 2016c】


190+阅读 · 2020年5月24日
205+阅读 · 2020年5月22日
274+阅读 · 2020年4月19日
175+阅读 · 2020年2月8日
183+阅读 · 2020年2月1日
59+阅读 · 2020年1月16日
182+阅读 · 2019年12月14日
177+阅读 · 2019年10月11日
211+阅读 · 2019年8月30日
30+阅读 · 2019年9月16日
14+阅读 · 2018年12月12日
17+阅读 · 2018年11月10日
11+阅读 · 2018年11月10日
强化学习初探 - 从多臂老虎机问题说起
10+阅读 · 2018年4月3日
8+阅读 · 2018年2月26日
深度强化学习的 18 个关键问题 | PaperDaily #30
4+阅读 · 2017年12月22日
21+阅读 · 2017年11月13日
Optimization for deep learning: theory and algorithms
105+阅读 · 2019年12月19日
7+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
17+阅读 · 2018年11月26日
Relational Deep Reinforcement Learning
10+阅读 · 2018年6月28日
11+阅读 · 2018年4月25日
