【导读】最近深度神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破,它们也可以与强化学习算法相结合,创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法,它学习如何获得复杂的目标(目标)或在许多步骤中沿着特定的维度最大化;例如,在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始,在适当的条件下,他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子,当他们做出错误的决定时,这些算法会受到惩罚,当他们做出正确的决定时,这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军,也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道,但与他们之前的成就相比,这是一个巨大的进步,目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样,强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行,在这种环境中,很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好,同时可以从任意数量的可能动作中进行选择,而不是从视频游戏的有限选项中进行选择。也就是说,随着时间的推移,我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟,以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。
内容目录
强化学习定义
强化学习的领域选择
状态-行为对&报酬的复概率分布
机器学习与时间的关系
神经网络与深度强化学习
模拟与深度强化学习
脚注
https://pathmind.com/wiki/deep-reinforcement-learning
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“RLBD” 就可以获取强化学习初学者指南下载链接索引~