李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

会员服务 ·

李宏毅强化学习完整笔记！开源项目《LeeDeepRL-Notes》发布

2020 年 11 月 25 日 机器之心

机器之心转载

来源：Datawhale

核心贡献者：王琦、杨毅远、江季

李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一，Datawhale开源项目组成员总结了李宏毅的强化学习视频，实现了视频教程的完整梳理和复现。

提起李宏毅老师，熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。

现在，强化学习爱好者有更完善的学习资料了！Datawhale开源项目组成员总结了李宏毅的强化学习视频，实现了视频教程的完整梳理和复现，再也不用担心强化学习。

目前，项目已完全开源，包括课程内容、配套的习题和项目，供大家使用。

1. 李宏毅深度强化学习简介

李宏毅老师现任台湾大学电气工程系副教授，主要研究方向是机器学习，特别是深度学习。他有一系列公开的强化学习课程视频，也是很多人入门的教程。

李宏毅老师的课程包括很多常见的强化学习算法，比如策略梯度、PPO、DQN、DDPG、演员-评论员算法、模仿学习、稀疏奖励等算法。此外，我们还补充了马尔可夫决策过程、Q-learning、Sarsa、REINFORCE 等强化学习常见的算法及概念。

李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一。李老师幽默风趣的上课风格让晦涩的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。

此外，为了课程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

但是，考虑到很多强化学习爱好者对于课程笔记的需求，我们不仅仅需要的是教学视频。我们需要一份课程笔记，能够引领学习者的思路，帮助引导他们进入这个领域。因此，就诞生了这款《LeeDeepRL-Notes》李宏毅深度强化学习笔记。

2.《LeeDeepRL-Notes》李宏毅深度强化学习笔记

LeeDeepRL-Notes 是 Datawhale 自《李宏毅机器学习笔记》后的又一开源学习项目，由团队成员王琦、杨毅远、江季历时四个月协作而成，实现了李宏毅老师深度强化学习课程内容的 100% 复现，并且在此基础上补充了有助于学习理解的相关资料和内容，对重难点公式进行了补充推导。

期间，Datawhale 组织了《深度强化学习基础》学习，在众多学习者共同的努力下，对该内容进行了迭代和补充。下面，让我们来详细了解下工作详情吧。

具体工作：

2020 年 6 月 -- 2020 年 7 月：笔记整理初级阶段，视频 100% 复现；
2020 年 7 月 -- 2020 年 10 月：添加相关的习题和项目，对笔记内容及排版迭代优化；
2020 年 10 月 -- 2020 年 11 月：组队学习《深度强化学习基础》并对内容进行迭代完善；
2020 年 11 月：最后内容修正，正式推广。

3.《LeeDeepRL-Notes》学习笔记框架

3.a 亮点

这份学习笔记具有以下优点：

完全将李宏毅老师的讲课内容转为文字，方便学习者查阅参考。
为了课程的完整性，我们还整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。
配有相关的习题和项目。

3.b 笔记框架

内容在整体框架上与李宏毅老师的深度强化学习课程保持一致。建议学习过程中将李宏毅老师的视频和这份资料搭配使用，效果极佳。笔记也和课程视频完全同步。

内容导航见下：

4. 笔记内容细节展示

4.a 对 Q-learning 概念的解析

4.b Actor-Critc 算法的引入

在整理过程中，我们并不对视频语音直接转文字，而是根据内容整理成知识点，方便读者理解阅读。

4.c 利用贴近学生的例子解释知识点

5. 习题（查漏补缺）

只有教程怎么够，来点儿课后习题和关键字总结帮助大家查漏补缺也是极好的。我们根据每一章的内容，并结合其他的网络资料，原创了课后习题以及关键字的总结，辅助你在更短的时间内查漏补缺，令你更快的将“零碎、无序”的知识“拼接”完整。

5.a 关键字让你快速 get 到文章的要点

在每章教程的后面，我们都会结合每章的内容，将定义、具体算法、专业名词等关键字和知识点，使用最短、最精确且最白话的方式总结，供大家吸收与巩固。

5.b 习题与参考答案助力你的查漏补缺

除了关键词，我们还提供了章节对应的习题供大家查漏补缺，并且结合其他资料，提供了详细、易懂的答案供大家参考。

6. 项目（动手实践）

强化学习少了实践怎么行，这边挑了三个项目，都基于流行的 OpenAI gym 环境，让你快速入门，循序渐进，主要包括：

6.a 对项目的简易描述

6.b 层次清晰的手写代码

将整个强化学习过程分成以上几个子模块，方便拆解与改动，并且契合原论文的伪代码，在main.py中提供基本接口：

6.c 使用 Tensorboard 进行可视化

6.d 丰富的持续更新

在刚刚结束的组队学习中，助教耐心地解答了大家的疑惑，并且会根据反馈的情况，在之后的一个月内，持续更新项目的设计方法和详细的代码思路讲解，敬请期待～

7. 配套视频

视频地址：https://www.bilibili.com/video/BV1MW411w79n

8. 开源地址

项目地址：https://github.com/datawhalechina/leedeeprl-notes，还可点击阅读原文获取，欢迎star！

NeurIPS 2020线上分享：超越CNN的加法神经网络

论文：《Kernel Based Progressive Distillation for Adder Neural Networks》。

本篇论文中，研究者通过一种基于核的渐进式蒸馏方法构建了性能更好的加法神经网络。研究者表示，这项研究使得 ANN 性能超越了同结构的 CNN，从而在功耗更少的情况下实现更佳性能。这项研究还将有益于智能手机和物联网等的应用。

11月25日，论文一作、诺亚方舟实验室研究员许奕星将为大家详细解读此前沿研究。

识别二维码，入群一起看直播。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

李宏毅

关注 18

李宏毅（Hung-yi Lee）目前任台湾大学电机工程学系和电机资讯学院的助理教授，他曾于 2012 年获得台湾大学博士学位，并于 2013 年赴麻省理工学院（MIT）计算机科学和人工智能实验室（CSAIL）做访问学者。他的研究方向主要是机器学习（深度学习）和语音识别。

最新《计算控制理论》笔记与课程，60页pdf

专知会员服务

54+阅读 · 2020年12月24日

机器学习理论最佳入门！周志华宝箱书搭档，开源教程《钥匙书-KeyBook》发布

专知会员服务

79+阅读 · 2020年10月31日

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

专知会员服务

176+阅读 · 2020年5月10日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知会员服务

167+阅读 · 2019年10月28日

李宏毅《机器学习》完整笔记 —— 这可能是Github上最好的机器学习资源

大数据技术

18+阅读 · 2019年8月20日

中文课程！台大李宏毅机器学习公开课2019版上线

全球人工智能

14+阅读 · 2019年3月18日

强化学习从入门到放弃：汪军李宏毅等大佬资源大放送！

新智元

23+阅读 · 2018年12月29日

送你一份深度学习资源&教程！

THU数据派

13+阅读 · 2017年11月30日

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

专知

9+阅读 · 2017年10月29日

Best Practices in Scientific Computing

Arxiv

0+阅读 · 2021年1月28日

Predicting future state for adaptive clinical pathway management

Arxiv

0+阅读 · 2021年1月27日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Arxiv

4+阅读 · 2018年8月17日

Triplet-based Deep Similarity Learning for Person Re-Identification

Arxiv

3+阅读 · 2018年2月9日

VIP会员