OpenAI强化学习实战

2018 年 5 月 14 日 炼数成金订阅号

在过去的几年里，强化学习(RL，Reinforcement Learning)在很多方面取得了突破。DeepMind公司将深度学习与增强学习结合在一起，在众多的Atari游戏中来取得超越人类的表现，基于深度学习和强化学习训练得到的AlphaGo Zero更是完全从零开始，仅通过自我对弈就能天下无敌。虽然RL目前在许多游戏环境中都表现很出色，但它对解决需要最优决策和效率的问题而言是种全新方法，而且肯定会在机器智能中发挥作用。

OpenAI成立于2015年底，是一个非营利组织。它的目的是“建立安全的人工通用智能(AGI)，并确保AGI的福利被尽可能广泛和均匀地分布”。除了探索关于AGI的诸多问题之外，OpenAI对机器学习世界的一个主要贡献是开发了Gym和Universe软件平台。

Gym是为测试和开发RL算法而设计的环境/任务的集合。它让用户不必再创建复杂的环境。Gym用Python编写，它有很多的环境，比如机器人模拟或Atari 游戏。它还提供了一个在线排行榜，供人们比较结果和代码。

课程大纲：

第1周强化学习与常用的仿真环境平台介绍（MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2等）

第2周 OpenAI gym中的常用仿真环境介绍，包括Atari 2600 游戏系列、MuJoCo 物理模拟器、Toy text 文本环境、Robotics机械手与机械臂模拟器等

第3周马尔科夫决策过程MDP

第4周基于gym的MDP实例讲解，基于OpenAI Gym构建股票市场交易环境

第5周基于gym的强化学习实践：基于值函数的强化学习方法实现；基于策略梯度的强化学习方法实现

第6周虚拟环境Universe：一个用于训练解决通用问题 AI 的基础架构

第7周基于Universe的强化学习实践：用OpenAI公司的Gym工具库和Universe平台为游戏创建人工智能机器人

开课时间：

本期课程将于6月9日开课，预计课程持续时间为9周

目标人群：

有简单的强化学习基础，希望学习强化学习的落地实现的同学

课程环境：

python3+OpenAI GYM+OpenAI Universe

收获预期：

学习结束后均能自己动手编写一个仿真环境，训练强化学习

授课讲师：

何翠仪毕业于中山大学统计学专业，炼数成金专职讲师。

在炼数成金上开设了多门关于数据分析与数据挖掘相关的课程，如《大数据的统计学基础》、《大数据的矩阵基础》《金融时间序列分析》等，也曾到不同的公司开展R语言与数据分析的相关培训。对数据分析有深刻认识，曾与不同领域公司合作，参与到多个数据分析的项目中，如华为、广州地铁等

点击下方二维码或阅读原文报名课程：

登录查看更多

相关内容

OpenAI

关注 27

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

344+阅读 · 2020年3月17日