【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版 - 专知

会员服务 ·

0

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

2017 年 10 月 29 日 专知叶强

点击上方“专知”关注获取更多AI知识!

【导读】Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！（关注专知公众号，获取强化学习pdf资料，详情文章末尾查看！）

叶博士创作的David Silver的《强化学习》学习笔记包括以下：

笔记序言：【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

以及包括也叶博士独家创作的强化学习实践系列！

强化学习实践一迭代法评估4*4方格世界下的随机策略
强化学习实践二理解gym的建模思想
强化学习实践三编写通用的格子世界环境类
强化学习实践四 Agent类和SARSA算法实现
强化学习实践五 SARSA(λ)算法实现
强化学习实践六给Agent添加记忆功能
强化学习实践七 DQN的实现

作者简介：

叶强，眼科专家，上海交通大学医学博士, 工学学士，现从事医学+AI相关的研究工作。

特注：

请登录www.zhuanzhi.ai或者点击阅读原文，

顶端搜索“强化学习” 主题，直接获取查看获得全网收录资源进行查看, 涵盖论文等资源下载链接，并获取更多与强化学习的知识资料！如下图所示。

此外，请关注专知公众号（扫一扫最下面专知二维码，或者点击上方蓝色专知），后台回复“强化学习” 就可以获取深度强化学习知识资料全集(论文/代码/教程/视频/文章等)的pdf文档！

欢迎转发到你的微信群和朋友圈，分享专业AI知识！

请感兴趣的同学，扫一扫下面群二维码，加入到专知-深度强化学习交流群！

请扫描小助手，加入专知人工智能群，交流分享~

获取更多关于机器学习以及人工智能知识资料，请访问www.zhuanzhi.ai, 或者点击阅读原文，即可得到！

-END-

欢迎使用专知

专知，一个新的认知方式！目前聚焦在人工智能领域为AI从业者提供专业可信的知识分发服务, 包括主题定制、主题链路、搜索发现等服务，帮你又好又快找到所需知识。

使用方法>>访问www.zhuanzhi.ai, 或点击文章下方“阅读原文”即可访问专知

中国科学院自动化研究所专知团队

@2017 专知

专 · 知

关注我们的公众号，获取最新关于专知以及人工智能的资讯、技术、算法、深度干货等内容。扫一扫下方关注我们的微信公众号。

点击“阅读原文”，使用专知！

登录查看更多

9

相关内容

David Silver

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

机器学习研究会

13+阅读 · 2017年10月31日

【David Silver 深度强化学习教程代码实战07】 DQN的实现

【David Silver 深度强化学习教程代码实战07】 DQN的实现

专知

17+阅读 · 2017年10月29日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

专知

5+阅读 · 2017年10月23日

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

专知

10+阅读 · 2017年10月22日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space

Arxiv

11+阅读 · 2019年2月26日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

VIP会员

相关主题

Google DeepMind

深度强化学习

相关VIP内容

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】从推理服务到模型训练：面向大规模 LLM 智能体的高效系统构建

面向作战人员负责任地寻求生成式人工智能

《Hello-Agents》项目正式发布，一起从零学习智能体！

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

相关资讯

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

机器学习研究会

13+阅读 · 2017年10月31日

【David Silver 深度强化学习教程代码实战07】 DQN的实现

【David Silver 深度强化学习教程代码实战07】 DQN的实现

专知

17+阅读 · 2017年10月29日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

专知

5+阅读 · 2017年10月23日

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

专知

10+阅读 · 2017年10月22日

相关论文

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space

Arxiv

11+阅读 · 2019年2月26日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

大家都在搜

蓝牙安全攻防

分布式事务

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员