【强化学习】深度强化学习初学者指南

指南简介

最近神经网络在计算机视觉、机器翻译和时间序列预测等问题上得到了重大突破，但它们也可以与强化学习算法相结合，创造出像AlphaGo这样令人震惊的东西。强化学习指的是面向目标的算法，它学习如何获得复杂的目标（目标）或在许多步骤中沿着特定的维度最大化；例如，在许多动作中最大化在游戏中赢得的分数。他们可以从一块白板开始，在适当的条件下，他们可以达到超人的表现。就像一个被鞭打和糖果激励的孩子，当他们做出错误的决定时，这些算法会受到惩罚，当他们做出正确的决定时，这些算法会得到奖励——这就是强化。包含深度学习的强化算法可以在围棋游戏中击败世界冠军，也可以在玩许多阿塔里电子游戏的人类专家。虽然这听起来微不足道，但与他们之前的成就相比，这是一个巨大的进步，目前的技术正在迅速进步。强化学习解决了将即时行为与其产生的延迟回报关联起来的难题。与人类一样，强化学习算法有时需要等待一段时间才能看到决策的成果。它们在延迟返回的环境中运行，在这种环境中，很难理解在许多时间步骤中哪些操作会导致哪些结果。强化学习算法可以期望在更模糊、真实的环境中执行得越来越好，同时可以从任意数量的可能动作中进行选择，而不是从视频游戏的有限选项中进行选择。也就是说，随着时间的推移，我们期望它们对实现现实世界中的目标是有价值的。Skymind将深度强化学习应用于真实世界用例的模拟，以帮助企业优化他们如何建立工厂、员工呼叫中心、建立仓库和供应链以及管理流量。

内容目录

强化学习定义
强化学习的领域选择
状态-行为对&报酬的复概率分布
机器学习与时间的关系
神经网络与深度强化学习
模拟与深度强化学习
脚注

成为VIP会员查看完整内容

A Beginner's Guide to Deep Reinforcement Learning _ Pathmind.pdf

184

相关内容

深度强化学习

关注 156

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日