「深度理解强化学习」课程更新,完善资料免费学习新课!

2019 年 5 月 9 日 AI研习社

AI 研习社「深度理解强化学习」课程更新啦~

强化学习是一种重要的机器学习类型,我们训练的智能体通过执行操作和查看结果来了解如何在环境中执行操作。最广为人知的强化学习例子就是Alphago。2016年Alphago战胜围棋世界冠军李世石,震撼全人类,AI学术界和工业界也积极投入到强化学习的研究和探索中。

本期更新的内容为第三课「RL 环境介绍与搭建」。在本期课程中,授课讲师将会一步步教你如何搭建 Python 环境、强化学习环境和深度学习环境,帮助初学者上手强化学习。

现在 AI 研习社的用户可通过完善个人资料获取解锁卡,免费解锁观看本系列课程最新课时,具体操作如下:

0
1
进入课程页面,点击未解锁的课时

0
2
跳转至个人资料页完善资料

在解锁方式页面,点击「去完善」按钮,跳转至个人资料页。

0
3
完善个人资料至完善度 100%

将个人资料填写至完善度 100%,然后点击提交按钮,即可获得解锁卡一张。



彩  蛋

完善个人资料后会立即获得 100 研值,您可以跳转至研习社福利市集兑换价值 100 元的课程优惠券。

扫描下方优惠券进行兑换:

https://ai.yanxishe.com/page/vouchersDetail/5cc50cf1e5794

完善个人资料会生成你的社区专有名片,有助于你结识更多社区内相同技术方向、研究兴趣的朋友。

后续 AI 研习社将会上线更多有趣有料的社交功能,帮助用户构建行业人脉。

授课讲师

王湛,上海交通大学硕士,研究方向为强化学习、计算机视觉等方向,在ACM MM Asia等国际会议上发表过相关论文。并对强化学习与计算机视觉的结合有很深的理解。

课程大纲

第一课 简介

1.1 强化学习初步介绍

1.2 强化学习基本要素和概念

1.3 课程要求

第二课 马尔科夫决策过程(MDP)

2.1 强化学习模型构建

2.2 马尔科夫奖赏过程

2.3 马尔科夫决策过程

第三课 RL环境介绍与搭建

3.1 Python环境

3.2 强化学习环境

3.3 深度学习环境搭建

第四课 强化学习解法1

4.1 动态规划(DP)-值函数

4.2 动态规划(DP)-动作值函数

4.3 动态规划(DP)-总结

第五课 强化学习解法2

5.1 蒙特卡洛学习(Monte-Carlo Prediction)

5.2 蒙特卡洛学习(Monte-Carlo Control)

5.3 蒙特卡洛学习(Coding exercise)

第六课 强化学习解法3

6.1 时序差分学习(Temporal-Difference Learning)

6.2 Sarsa算法

6.3 总结

第七课 强化学习解法4

7.1 时序差分学习之(Q-learning)

7.2 Q-learning(Coding exercise)

7.3 总结

第八课 深度Q网络

8.1 值函数的近似

8.2 Deep Q network

8.3 Coding exercise

第九课 策略梯度(Policy Gradient)

9.1 策略梯度思想

9.2 Reinforce算法

9.3 Coding exercise

第十课 Actor Critic

10.1 Actor Critic介绍

10.2 Deep Deterministic Policy Gradient (DDPG)

10.3 Asynchronous Advantage Actor-Critic (A3C)

10.4 RL新型算法的自我学习与提升


扫码加入强化学习课程群,和老师交流学习问题


点击
阅读原文
加入课程,新学员可以再得一张解锁卡哦!
登录查看更多
2

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
263+阅读 · 2020年4月19日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
114+阅读 · 2020年1月15日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
强化学习精品书籍
平均机器
24+阅读 · 2019年1月2日
公开课 | 强化学习之基础入门
AI100
6+阅读 · 2018年1月7日
深度强化学习小白入门攻略篇
StuQ
5+阅读 · 2017年9月7日
Arxiv
5+阅读 · 2019年10月31日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
22+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关论文
Arxiv
5+阅读 · 2019年10月31日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
22+阅读 · 2018年8月30日
A Multi-Objective Deep Reinforcement Learning Framework
Top
微信扫码咨询专知VIP会员