强化学习是我最兴奋的领域之一。在过去的几年中,像从原始像素学习Atari游戏和掌握Go 游戏这样的令人惊叹的结果得到了很多关注,但RL也被广泛用于机器人,图像处理和自然语言处理。
强化学习和深度学习技术的结合非常好。两个领域都相互影响。在强化学习方面深度神经网络被用作函数逼近器来学习好的表示,例如处理Atari游戏图像或理解Go的棋盘状态。另一方面,RL技术正在成为通常由深度学习解决的监督问题。例如,RL技术被用来实现图像处理中的注意力机制,或者优化会话界面和神经翻译系统的长期回报。最后,由于强化学习是关于做出最佳决策的,它与人类心理学和神经科学(以及许多其他领域)有一些非常有趣的相似之处。
有很多开放性的问题和基础研究的机会,我想我们将在未来几年看到多个强化学习的突破。还有什么比教书机玩星际争霸和Doom更有趣?
那里有很多优秀的强化学习资源。两个我最推荐的是:
David Silver的强化学习课程
理查德·萨顿和安德鲁·巴托的“强化学习:简介”(第二版)一书。
后者仍在进行中,但已经完成了80%。这门课程是基于这本书,所以两者在一起工作得很好。事实上,这两个涵盖了你最需要了解的大部分最近的研究论文。先决条件是基础数学和机器学习的一些知识。
这涵盖了理论。但是实际资源呢?实际上实现本书/课程中涵盖的算法呢?这就是这篇文章和Github仓库的介绍。我试图用Python,OpenAI Gym和Tensorflow 来实现大部分的标准增强算法。我把它们分成几章(简要概述)和练习和解答,以便你可以用它们来补充上面的理论材料。所有这些都在Github存储库中。
https://github.com/dennybritz/reinforcement-learning
一些更耗时的算法仍在进行中,所以请随时做出贡献。我会在我实施这个帖子的时候更新这个帖子。
RL问题介绍,OpenAI体育馆
MDP和Bellman方程
动态规划:基于模型的RL,策略迭代和值迭代
蒙特卡罗模型预测与控制
时间差分无模型预测与控制
函数逼近
深度学习(WIP)
政策梯度方法(WIP)
学习与规划(WIP)
探索和开发(WIP)
动态编程策略评估
动态编程策略迭代
动态规划值迭代
蒙特卡洛预测
蒙特卡洛控制与Epsilon-Greedy政策
蒙特卡洛关闭政策控制与重要性抽样
SARSA(政策TD学习)
Q-Learning(关闭政策TD学习)
用线性函数逼近的Q学习
雅达利游戏的深度Q学习
雅达利游戏的双深度学习
深度Q学习与优先体验重播(WIP)
政策梯度:增强基线
政策梯度:演员对基线的评论
策略梯度:连续行为空间基准的演员评论家
持续作用空间的确定性政策梯度(WIP)
深度确定性政策梯度(DDPG)(WIP)
异步优势演员评论员(A3C)(WIP)
原文出处:http://www.wildml.com/2016/10/learning-reinforcement-learning/