一份简明《深度强化学习初学者指南》实用的教程

【导读】最近深度神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破,它们也可以与强化学习算法相结合,创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法,它学习如何获得复杂的目标(目标)或在许多步骤中沿着特定的维度最大化;例如,在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始,在适当的条件下,他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子,当他们做出错误的决定时,这些算法会受到惩罚,当他们做出正确的决定时,这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军,也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道,但与他们之前的成就相比,这是一个巨大的进步,目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样,强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行,在这种环境中,很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好,同时可以从任意数量的可能动作中进行选择,而不是从视频游戏的有限选项中进行选择。也就是说,随着时间的推移,我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟,以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。

内容目录

  • 强化学习定义

  • 强化学习的领域选择

  • 状态-行为对&报酬的复概率分布

  • 机器学习与时间的关系

  • 神经网络与深度强化学习

  • 模拟与深度强化学习

  • 脚注



https://pathmind.com/wiki/deep-reinforcement-learning


便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RLBD” 就可以获取强化学习初学者指南下载链接索引~ 



专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
展开全文
Top
微信扫码咨询专知VIP会员