资源 | 「OpenAI Five」战胜的秘诀

会员服务 ·

资源 | 「OpenAI Five」战胜的秘诀

2018 年 8 月 15 日 AI研习社

资源从上周四上线到今天

在大家的共同建设下

资源板块越来越丰富了

截止到目前为止

资源总共被下载1300+次

看来

有很多社区小伙伴在利用空闲时间

默默学习升级打怪呢

今天社长就给大家推荐一个好资源

【深度强化学习】

当AlphaGO战胜了世界围棋冠军李世石之后，整个工业界都为之振奋，越来越多的学者意识到强化学习在人工智能领域可以带来更多的惊喜，因此也有越来越多的人关注强化学习。

最新里程碑，美国时间 8 月 5 日星期天，OpenAI 开发的基于强化学习的 DOTA 5v5 AI 「OpenAI Five」以2：1的比分在即时战略游戏DOTA2中击败了由5名人类高手（前职业选手）组成的队伍。

这说明强化学习已经越来强大了。

强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

在强化学习的世界里，算法称之为Agent，它与环境发生交互，Agent从环境中获取状态（state），并决定自己要做出的动作（action）.环境会根据自身的逻辑给Agent予以奖励（reward）。奖励有正向和反向之分。比如在游戏中，每击中一个敌人就是正向的奖励，掉血或者游戏结束就是反向的奖励。

这个资源包是一个强化学习的课程，你可以下载后，利用业余时间学习，进一步了解强化学习！

扫码即可下载资源

【课程内容】

强化学习简介
强化学习基本概念
马尔科夫决策过程
Bellman方程
值迭代求解
代码实战求解过程
QLearning基本原理
QLearning迭代计算实例
QLearning迭代效果
求解流程详解
DeepQnetwork原理
DQN网络细节
DQN网络参数配置
搭建DQN网络模型
DQN卷积操作定义
数据预处理
实验阶段数据存储
实现训练模块
Debug解读训练代码
完整代码流程分析
DQN效果演示

欢迎大家学习后

在社区发布学习笔记

或者分享相关的感受

毕竟爱分享的童鞋

会进步得更快喔~

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

80+阅读 · 2020年7月2日

《强化学习》简介小册，24页pdf

专知会员服务

276+阅读 · 2020年4月19日

【硬核书】数学博弈论与应用，431页pdf，Mathematical Game Theory and Applications

专知会员服务

169+阅读 · 2020年4月18日