AI 研习社获得官方授权,汉化翻译 2019 加州大学伯克利分校 CS285 《深度强化学习》课程,今天正式上线中英双语字幕版课程啦!
友情提示:本文篇幅较长,提前收藏分享给小伙伴吧~
索引
课程介绍
课后资料
课程截图
译者评价
先修要求
课程大纲
相关材料
课程介绍
本课程是好评如潮的 2018 加州大学伯克利分校 CS294-112 《深度强化学习》课程 新版,依旧是由 Sergey Levine 老师授课,基本覆盖了强化学习的主要内容和前沿的研究话题,通过理论到应用例子的讲述,以及五次作业的实践练习对经典算法的复现,可以让学生达到在强化学习领域的入门研究水平。重点是在研习社你可以免费观看中英双语字幕!
第一讲已经新鲜出炉,我们来一睹为快——
第一讲
课程介绍和概览
上手视频约 5 分钟
翻译 | 侯言旭 李东达 陈晨 宋克凡
校对 审核 | 酱番梨 唐里
压制 后期 | 酱番梨
这门课程的译者会持续招募,
感兴趣的小伙伴可以添加“研习社小学妹”报名翻译哦!
备注“285报名翻译”即可
与此同时,AI 研习社喊你加入UC 伯克利 CS 285 这门课程学习小组,和上万名热爱学习的小伙伴们,一起研习海外经典课程。
扫描上方小程序二维码,加入285课程小组,截图发送给字幕君或者研习社小学妹如下,PC端和手机端截图都可,我们将你拉入285课程讨论微信群
PPT:CS285 加州大学伯克利分校第一讲至第二十一讲(AI 研习社整理)
下载地址:https://www.yanxishe.com/resourceDetail/1118
课程截图
CS285,从事强化学习相关工作人员必听课程。课程由浅入深,内容覆盖广泛,紧跟科研前沿。强烈建议刷课后作业,对理解算法非常有帮助!
@侯言旭
终于学完了 CS285 的课程,被 Sergey 老师圈粉了。Sergey 老师对于强化学习的理解非常深入,同时他的研究态度为给我们提供了很好的榜样,他主要致力于强化学习泛化性以及落地问题的研究,从他的课程中不仅仅学到了知识本身,更学到了什么样的研究才是真正有意义的。
此课程后面部分更强调解决强化学习在实际场景中的应用并提出的一些新方法和思路,从不同角度去尝试解决目前强化学习落地所面临的挑战,相比其他课程可能更加深入和前沿。看到雷锋字幕组翻译 CS285,遂加入字幕组希望把最优质的学习资源分享给更多的朋友们。
@李东达
相比其他机器学习课程,如果横向比较的话,个人觉得没有什么可比性,毕竟大家关注的点不一样的。像Andrew和Hinton的课程讲的是机器学习理论本身,有的是讲机器学习在计算机视觉或者是自然语言处理等具体问题上的应用。如果纵向比较的话,和以往的课程相比,这个课程更系统,更全面。像Silver的课程就比较简单,而且就讲了几个重点;像DeepMind的课程关注点是深度学习在RL上的应用。 自己听的时候更多是走马观花,对细节问题可能会有所遗漏。翻译的时候,哪怕只有一段也需要对前后的细节有深入的了解和掌握。这次翻译285课程自己的语言能力得到了很大的锻炼!
@常滔
我自己也是刚刚接触到深度强化学习,也一直在看各种学校的公开课。AI研习社提供了一个很好的平台,第一时间把课程翻译上线,我收益了很多,因此我也希望自己能够投身到翻译工作中去,把最新的课程尽快的翻译好提供给广大用户。相比David silver那种基础课来说,课程涵盖的比较全面,也基本上提及了深度强化学习的前沿工作,对基础的要求也比较高。我觉得学了这门课可以很快的对强化学习的各种工作进展有个大概的了解,对学习者来说也是一个巨大的挑战,花费的精力比较长,同时收获也是巨大的。
@王宇
我当时学强化学习的时候是看的David Sliver的课程,那时字幕感觉翻译的不太好,学着蛮吃力,靠着前人总结的学习笔记挺过来的。当时看到雷锋字幕组翻译的 CS294 课程,觉得翻译的非常赞,所以也想加入进来,一起做些能帮助其他人学习的事吧。传统的机器学习比较着重分类的应用,强化学习主要是序列决策的,David的课主要讲强化学习的理论。285这门课我感觉侧重点是深度学习和强化学习的融合,这部分也是我想学习的。
@陈晨
一般高校的这种公开课要比在线的慕课系统和详细,同时时间也会更长,难度也会更大一些,当然收获也会更多。强化学习是机器自主学习,或者是适用于真实应用场景的主要实现途径,所以这门课的主题还是很前沿,同时内容也是比较完整的。这次参与翻译既能够加强理解,也能助益他人,很好的事情。
@蓝愚
先修要求
想要学习伯克利大学 CS 285 《深度强化学习》这门课程,学生需要先学习 CS189 或者其他同等学历课程。本课程将假定学生掌握强化学习、数值优化和机器学习的相关背景知识。
如果你对上述主题不是非常了解,那么需要自主学习补充以下知识点:
增强学习和马尔科夫决策过程(MDPs)
MDPs的定义
具体算法:策略迭代和价值迭代
搜索算法
数值最优化方法
梯度下降和随机梯度下降
反向传播算法
机器学习
分类和回归问题:用什么样的损失函数,如何拟合线性或非线性模型
训练/测试误差,过拟合
课程大纲
第一讲:课程介绍和概览
第二讲:针对行为的监督学习
第三讲:TensorFlow 和神经网络简述
第四讲:强化学习简介
第五讲:策略梯度
第六讲:Actor-Critic 算法
第七讲:价值函数
第八讲:深度强化学习之Q函数
第九讲:高级策略梯度
第十一讲:基于模型的规划
第十一讲:基于模型的强化学习
第十二讲:基于模型的策略学习
第十三讲:变分推断和生成模型
第十四讲:强化学习对控制的概率推断
第十五讲:逆向强化学习
第十六讲:迁移学习与多任务学习
第十七讲:分布式强化学习
第十八讲:探索(上)
第十九讲:探索(下)
第二十讲:元学习
第二十一讲:信息理论,开放性问题探讨
相关材料
有关强化学习与 MDP 的介绍资料:
CS188 EdX 课程,从马尔可夫决策过程 I 开始:http://ai.berkeley.edu/home.html
Richard S. Sutton 与 Andrew G. Barto 的《强化学习导论》,第三章和第四章:http://incompleteideas.net/book/the-book-2nd.html
有关 MDP 的介绍,请参阅吴恩达的论文《Shaping and policy search in Reinforcement learning》:http://rll.berkeley.edu/deeprlcourse/docs/ng-thesis.pdf
David Silver 的课程:http://rll.berkeley.edu/deeprlcourse/#related-materials
有关机器学习和神经网络的介绍性资料,请参阅:
Andrej Karpathy 的课程:http://cs231n.github.io/
Geoff Hinton 的 Coursera 课程:https://www.coursera.org/learn/neural-networks
吴恩达的 Coursera 课程:https://www.coursera.org/learn/machine-learning/
Yaser Abu-Mostafa 的课程:https://work.caltech.edu/telecourse.html
阅读原文 观看课程