伯克利《深度强化学习》更新 | 第五讲：策略梯度简介

会员服务 ·

伯克利《深度强化学习》更新 | 第五讲：策略梯度简介

2019 年 4 月 12 日 AI研习社

AI 研习社获得官方授权，汉化翻译伯克利 CS 294-112 《深度强化学习》，今天更新至第五讲啦~

我们先来一睹为快——

第五讲

策略梯度简介

上手视频约 8 分钟

翻译 | 于志鹏周恒旭赵婉淇

字幕 | 菠萝妹

看完是不是不够过瘾！

点开小组小程序，加入2018秋季CS294-112深度强化学习小组

即可观看完整视频

↓ ↓ ↓

同时，针对这门课程，我们同样开设了微信社群，

回复字幕君（微信：leiphonefansub）

你加入该课程小组的截图

我们将你拉入微信群聊

加我时备注“CS294加群”~

小组介绍

截止到今日，AI研习社学习2018秋季CS294-112深度强化学习小组成员人数突破 2000+人啦！

在AI研习社，这里有浓厚的学习氛围——

小组成员在这里打卡，记录自己的学习成果，在这里交流笔记心得——

「小组」产品上线后，AI 研习社推出了一系列的激励计划，鼓励各位组员学习视频课程，表现积极的学员还将获得由 AI 研习社提供的福利，这些福利包括但不限于机械键盘、双肩背包以及 AI 研习社定制的「浪中求稳」保温杯。

心动了吗，赶快将“AI研习小组”小程序添加到“我的小程序”吧！随时随地都能学习名校经典课程，和上千位小伙伴们一起，共同进步。

课程介绍

伯克利 CS 294-112 《深度强化学习》为官方开源最新版本，由伯克利大学该门课程授课讲师 Sergey Levine 授权 AI 研习社翻译。

12 月 20 日开始正式同步更新在 AI 研习社，大约 1 到 2 周更新一次。

该课程主题选择深度增强学习，即紧跟当前人工智能研究的热点，又可作为深度学习的后续方向，值得推荐。

先修要求

想要学习伯克利 CS 294-112 《深度强化学习》这门课程，学生需要先学习 CS189 或者其他同等学力课程。本课程将假定学生掌握强化学习、数值优化和机器学习的相关背景知识。

如果你对上述主题不是非常了解，那么需要自主学习补充以下知识点：

增强学习和马尔科夫决策过程（MDPs）

MDPs的定义

具体算法：策略迭代和价值迭代

搜索算法

数值最优化方法

梯度下降和随机梯度下降

反向传播算法

机器学习

分类和回归问题：用什么样的损失函数，如何拟合线性或非线性模型

训练/测试误差，过拟合

视频截图

译者评价

比较有趣，讲课用很多例子来解释，不是那种光给你一大堆公式概念的，感觉偏重实际应用和前沿技术一点，推荐大家来看。

@周清逸

这门课是基本覆盖了强化学习的主要内容和前沿的研究话题，通过理论到应用例子的讲述，以及五次作业（实际上是七次）的实践练习对经典算法的复现，可以让学生达到在强化学习领域的入门研究水平。重点是免费！课程有中文字幕！有作业参考！不过这门课并不是零门槛，需要上过机器学习课程，最好是还上过深度学习（比如cmu deeplearning），最最好用过tensorflow（因为作业的官方基础代码只有tensorflow版本）。

@朱海浩