一份简明《深度强化学习初学者指南》实用的教程- 专知

一份简明《深度强化学习初学者指南》实用的教程

【导读】最近深度神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破，它们也可以与强化学习算法相结合，创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法，它学习如何获得复杂的目标（目标）或在许多步骤中沿着特定的维度最大化；例如，在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始，在适当的条件下，他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子，当他们做出错误的决定时，这些算法会受到惩罚，当他们做出正确的决定时，这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军，也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道，但与他们之前的成就相比，这是一个巨大的进步，目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样，强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行，在这种环境中，很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好，同时可以从任意数量的可能动作中进行选择，而不是从视频游戏的有限选项中进行选择。也就是说，随着时间的推移，我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟，以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。

内容目录