【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版 - 专知

会员服务 ·

0

【教程实战】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记以及实战代码完整版

2017 年 10 月 31 日 机器学习研究会 叶强

点击上方 “机器学习研究会”可以订阅

摘要

转自：专知

【导读】Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！（关注专知公众号，获取强化学习pdf资料，详情文章末尾查看！）

叶博士创作的David Silver的《强化学习》学习笔记包括以下：

笔记序言：【教程】AlphaGo Zero 核心技术 - David Silver深度强化学习课程中文学习笔记

以及包括也叶博士独家创作的强化学习实践系列！

作者简介：

叶强，眼科专家，上海交通大学医学博士, 工学学士，现从事医学+AI相关的研究工作。

原文链接：

https://mp.weixin.qq.com/s/y1aa_nIimSv4wlprGFHR7g

“完整内容”请点击【阅读原文】

↓↓↓

登录查看更多

13

相关内容

Google DeepMind

Google DeepMind

Google DeepMind 是一家英国的人工智能公司。公司创建于 2010 年，最初名称是 DeepMind 科技，在 2014 年被谷歌收购。

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【干货书】机器学习Python实战教程，366页pdf

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

346+阅读 · 2020年3月17日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

148+阅读 · 2019年12月25日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【David Silver 深度强化学习教程代码实战07】 DQN的实现

【David Silver 深度强化学习教程代码实战07】 DQN的实现

专知

17+阅读 · 2017年10月29日

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

专知

9+阅读 · 2017年10月29日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战04】Agent类和SARSA算法实现

【AlphaGo Zero 核心技术-深度强化学习教程代码实战04】Agent类和SARSA算法实现

专知

4+阅读 · 2017年10月27日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战03】编写通用的格子世界环境类

【AlphaGo Zero 核心技术-深度强化学习教程代码实战03】编写通用的格子世界环境类

专知

6+阅读 · 2017年10月26日

【AlphaGo Zero 核心技术-深度强化学习教程笔记06】价值函数的近似表示

【AlphaGo Zero 核心技术-深度强化学习教程笔记06】价值函数的近似表示

专知

4+阅读 · 2017年10月26日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战02】理解gym的建模思想

【AlphaGo Zero 核心技术-深度强化学习教程代码实战02】理解gym的建模思想

专知

5+阅读 · 2017年10月24日

【DeepMind 公开课-深度强化学习教程代码实战01】迭代法评估4*4方格世界下的随机策略

【DeepMind 公开课-深度强化学习教程代码实战01】迭代法评估4*4方格世界下的随机策略

专知

6+阅读 · 2017年10月23日

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

专知

5+阅读 · 2017年10月23日

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

专知

10+阅读 · 2017年10月22日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

A generic framework for privacy preserving deep learning

Arxiv

6+阅读 · 2018年11月13日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

The Matrix Calculus You Need For Deep Learning

The Matrix Calculus You Need For Deep Learning

Arxiv

12+阅读 · 2018年7月2日

Zero-Resource Neural Machine Translation with Multi-Agent Communication Game

Arxiv

4+阅读 · 2018年2月9日

CryptoRec: Secure Recommendations as a Service

Arxiv

6+阅读 · 2018年2月7日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

A guide to convolution arithmetic for deep learning

Arxiv

6+阅读 · 2018年1月11日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

VIP会员

相关主题

Google DeepMind

深度强化学习

相关VIP内容

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

一份循环神经网络RNNs简明教程，37页ppt

一份循环神经网络RNNs简明教程，37页ppt

专知会员服务

173+阅读 · 2020年5月6日

【干货书】机器学习Python实战教程，366页pdf

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

346+阅读 · 2020年3月17日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

2019必读的十大深度强化学习论文

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

148+阅读 · 2019年12月25日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

【干货】谷歌Joshua Gordon 《TensorFlow 2.0讲解》，63页PPT

专知会员服务

28+阅读 · 2019年11月2日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

反无人机：乌克兰拦截型无人机系列一览

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

物理学中的高级深度学习

观点动力学：全面综述

相关资讯

【David Silver 深度强化学习教程代码实战07】 DQN的实现

【David Silver 深度强化学习教程代码实战07】 DQN的实现

专知

17+阅读 · 2017年10月29日

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

【教程】Google DeepMind David Silver《深度强化学习》公开课教程学习笔记完整版

专知

9+阅读 · 2017年10月29日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战04】Agent类和SARSA算法实现

【AlphaGo Zero 核心技术-深度强化学习教程代码实战04】Agent类和SARSA算法实现

专知

4+阅读 · 2017年10月27日

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

【AlphaGo Zero 核心技术-深度强化学习教程笔记07】策略梯度

专知

7+阅读 · 2017年10月27日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战03】编写通用的格子世界环境类

【AlphaGo Zero 核心技术-深度强化学习教程代码实战03】编写通用的格子世界环境类

专知

6+阅读 · 2017年10月26日

【AlphaGo Zero 核心技术-深度强化学习教程笔记06】价值函数的近似表示

【AlphaGo Zero 核心技术-深度强化学习教程笔记06】价值函数的近似表示

专知

4+阅读 · 2017年10月26日

【AlphaGo Zero 核心技术-深度强化学习教程代码实战02】理解gym的建模思想

【AlphaGo Zero 核心技术-深度强化学习教程代码实战02】理解gym的建模思想

专知

5+阅读 · 2017年10月24日

【DeepMind 公开课-深度强化学习教程代码实战01】迭代法评估4*4方格世界下的随机策略

【DeepMind 公开课-深度强化学习教程代码实战01】迭代法评估4*4方格世界下的随机策略

专知

6+阅读 · 2017年10月23日

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

专知

5+阅读 · 2017年10月23日

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

【AlphaGo核心技术-教程学习笔记03】深度强化学习第三讲动态规划寻找最优策略

专知

10+阅读 · 2017年10月22日

相关论文

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

A generic framework for privacy preserving deep learning

Arxiv

6+阅读 · 2018年11月13日

Close to Human Quality TTS with Transformer

Arxiv

3+阅读 · 2018年11月13日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

The Matrix Calculus You Need For Deep Learning

The Matrix Calculus You Need For Deep Learning

Arxiv

12+阅读 · 2018年7月2日

Zero-Resource Neural Machine Translation with Multi-Agent Communication Game

Arxiv

4+阅读 · 2018年2月9日

CryptoRec: Secure Recommendations as a Service

Arxiv

6+阅读 · 2018年2月7日

Experience-driven Networking: A Deep Reinforcement Learning based Approach

Arxiv

9+阅读 · 2018年1月17日

A guide to convolution arithmetic for deep learning

Arxiv

6+阅读 · 2018年1月11日

Long-Term Visual Object Tracking Benchmark

Arxiv

7+阅读 · 2017年12月28日

大家都在搜

大型语言模型

生成式人工智能

朱克爱德华兹家族

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员