2小时学强化学习？DeepMind 首席科学家、原牛津大学教授Nando教程来了！

2019 年 11 月 21 日 新智元

新智元报道

来源：专知

【新智元导读】任职于 DeepMind 的Nando de Freitas（原牛津大学教授）在KHIPU 2019上做了关于强化学习（RL）的教程，涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法，并介绍了RL的应用。下文将包含Nando de Freitas个人及其课程的简介。

在KHIPU 2019（Latin American Meeting In Artificial Intelligence）上，在DeepMind任职的Nando de Freitas做了教程《Reinforcement Learning》，用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。

Nando de Freitas简介

Nando出生在津巴布韦，患有疟疾。他是莫坎比克战争的难民。他的父母借钱从贪官给他买一本护照，让他能够生活在葡萄牙马德拉的一个火山岩小屋，没有水和电，父母忙着偿还债务也不在身边，这种情况一直持续到欧盟到达那里。

他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位，后幸获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位，这要归功于慈善人士提供的奖学金。

他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位，并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授，随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年，他以首席科学家的身份加入了DeepMind的全职工作，帮助解决智能问题的愿景，让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员，并获得了一些学术奖项。

主页介绍：

https://khipu.ai/03_nando_de_freitas/

《Reinforcement Learning》教程的内容

强化学习概念
策略梯度
动态规划
深度Q网络
分布式强化学习
D4PG（Distributed Distributional Deep Deterministic Policy Gradients）
PPO（Proximal Policy Optimization）和MPO（Maximum aposteriori Policy Optimisation）
R2D3（Recurrent Replay Distributed DQN from Demonstrations）
强化学习应用：

AlphaX
Batch强化学习

教程部分截图如下所示：

参考链接：

https://khipu.ai/program/
https://khipu.ai/03_nando_de_freitas/
https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing

完整PPT下载，可关注“专知”公众号，后台回复“KHIPURL”获取教程完整PPT下载链接。

新智元AI朋友圈详细使用教程，8000名AI大玩家和实践者都在这里！

登录查看更多

相关内容

Nando de Freitas

关注 0

Nando曾在加州大学伯克利分校（UC Berkeley）从事人工智能工作，并于2001年成为加拿大不列颠哥伦比亚大学的教授，随后于2013年成为英国牛津大学的教授。2017年，他全职加入DeepMind，担任首席科学家，以帮助他们解决智力问题，使子孙后代可以过上更好的生活。 Nando还是加拿大高级研究所的资深研究员，并曾获得多个学术奖项。