资源 | 《深度强化学习》手稿开放了!

2018 年 10 月 17 日 机器之心

机器之心专栏

作者:Yuxi Li


一年前,机器之心发布了加拿大阿尔伯塔大学计算机系博士 Yuxi Li 的深度强化学习综述论文,该论文概述了在深度强化学习(Deep Reinforcement Learning)方面喜人的进展。而这本刚上线的《深度强化学习》手稿对前面的版本《深度强化学习综述》做了大规模的改进;从一年多前的 70 页扩充到现在的 150 页。本文对此手稿进行了介绍。



《深度强化学习》希望帮助初学者了解深度强化学习,也希望为教授、研究人员、学生、工程师、管理人员、投资者等广大读者提供一份深度强化学习参考资料。


她在描绘深度强化学习领域大方向的同时兼顾了许多技术细节。她在历史背景中讨论最新进展。她努力回答了下面三个问题:1)为什么用深度学习?2)最前沿的发展有哪些?3)有什么问题及解决方案?手稿中难免有不足乃至错误之处,真诚欢迎宝贵建议和意见。


这个博客收集了很多深度强化学习的资料: https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.



《深度强化学习》讨论了六个核心元素 (core elements): 值函数 (value function)、策略 (policy)、奖赏 (reward)、模型 (model)、探索与利用 (exploration vs. exploitation)、以及表征 (representation); 


六个重要机制 (important mechanisms):注意力与存储机制 (attention and memory)、无监督学习 (unsupervised learning)、层次强化学习 (hierarchical RL)、多智能体强化学习 (multi-agent RL)、关系强化学习 (relational RL)、和元学习 (learning to learn); 


以及十二个应用场景 (applications):游戏 (games)、机器人学 (robotics)、自然语言处理 (natural language processing, NLP)、计算机视觉 (computer vision)、金融 (finance)、商务管理 (business management)、医疗 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、计算机系统 (computer systems)、以及科学、工程和艺术 (science, engineering, and art).



深度强化学习最近取得了世人瞩目的成绩,比如,应用于雅达利游戏 (Atari games) 上的 DQN 算法吹响了这波深度强化学习前进的号角;在计算机围棋 (AlphaGo/AlphaGo Zero) 和德州扑克 (DeepStack) 上面取得了人工智能里程碑级别的成就。深度强化学习有很多新颖的算法被研发出来,比如,DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。


深度强化学习也被应用于很多很广的方向,比如,夺旗游戏 (Capture the Flag)、刀塔 (Dota 2)、星际争霸 (StarCraft II)、机器人学、动画人物模拟、智能对话、神经元网络结构设计、机器学习自动化、数据中心降温系统、推荐系统、数据扩充、模型压缩、组合优化、程序合成、定理证明、医学成像、音乐合成、化学逆合成,等等。


这个博客收集了很多强化学习的应用场景: https://medium.com/@yuxili/rl-applications-73ef685c07eb


什么情况下强化学习会有帮助?答案是:如果一个问题可以被描述成或转化成序贯决策 (sequential decision making) 问题,可以构造出强化学习需要用的状态 (state)、动作 (action)、可能还有奖赏 (reward) 等元素的时候。有时候一个问题可以用强化学习解决,但这个问题从表面上看可能不像强化学习问题。笼统地说,如果一个问题中包含人工设计的某种「策略」,那么强化学习就有可能发挥作用,自动化并且优化这些策略。创造性会在核心元素、重要机制、应用场景等方面进一步向前推动深度强化学习的发展。


深度强化学习虽然已经取得了很多傲人的成绩,但是,她也有很多问题亟需解决,比如成绩分配 (credit assignment), 稀疏奖赏 (sparse reward), 采样效率 (sample efficiency), 不稳定性 (instability), 发散性 (divergence), 可解释性 (interpretability), 安全性 (safety),等等;甚至可复制性 (reproducibility) 仍然是一个问题。



《深度强化学习》提出了六个研究方向,同时作为挑战和机遇。应该提到的是,在这些方向,已经有了一些进展,比如,Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causal InfoGAN, meta-gradient RL, 等等。(这些进展的参考资料请参阅英文原版,见文末。) 这些方向的发展,会大幅度促进强化学习乃至人工智能的发展。


  1. 系统地比较深度强化学习算法

  2. 「解决」多智能体问题

  3. 基于实体 (entities) 学习,而不只是基于原始数据学习

  4. 为强化学习设计最优的表征形式

  5. 自动化强化学习 (AutoRL)

  6. 研发强化学习杀手级应用


希望强化学习可以与人工智能深度结合,在端到端 (end-to-end) 的学习方式中加入更多智能去完成从原始输入到决策的设计工作、加入知识、加入常识、以更高效、更容易理解的方式去学习、同时避免犯显然的错误;而不是像以前深度学习那样以黑盒子的方式学习。



深度学习和强化学习分别于 2013 年和 2017 年被《麻省理工学院科技评论》评选为十项突破性技术之一;她们会在通向强人工智能的道路上发挥关键作用。David Silver 提出了一个假设:人工智能=强化学习+深度学习。深度学习和强化学习都会进一步繁荣发展。深度学习正在经历爆炸性的大发展。而现在正是培育、教育、引领强化学习市场的大好时机。


深度学习在这次第三波人工智能的蓬勃发展中,会发挥越来越深远的影响;我们也在深度学习的很多成就中看到了她的作用。强化学习提供更通用的学习和决策模式;她会深远影响深度学习、机器学习、乃至人工智能的进一步发展。


强化学习时代马上就来。让我们做好准备!


欢迎阅读本文的英文版,Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 里面包含了大量的超链接。欢迎下载阅读《深度强化学习》,Deep Reinforcement Learning, arXiv 地址:https://arxiv.org/abs/1810.06339



本文为机器之心专栏,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

登录查看更多
21

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
《强化学习》简介小册,24页pdf
专知会员服务
270+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
117+阅读 · 2020年1月15日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
专知会员服务
205+阅读 · 2019年8月30日
【资源】强化学习实践教程
专知
43+阅读 · 2019年9月11日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【RL前沿】深度强化学习的最新进展
量化投资与机器学习
8+阅读 · 2017年12月18日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
《强化学习》简介小册,24页pdf
专知会员服务
270+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
117+阅读 · 2020年1月15日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
专知会员服务
205+阅读 · 2019年8月30日
相关资讯
【资源】强化学习实践教程
专知
43+阅读 · 2019年9月11日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
【RL前沿】深度强化学习的最新进展
量化投资与机器学习
8+阅读 · 2017年12月18日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Top
微信扫码咨询专知VIP会员