2小时学强化学习?DeepMind 首席科学家、原牛津大学教授Nando教程来了!

2019 年 11 月 21 日 新智元




  新智元报道  

来源:专知

【新智元导读】任职于 DeepMind 的Nando de Freitas(原牛津大学教授)在KHIPU 2019上做了关于强化学习(RL)的教程,涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用。下文将包含Nando de Freitas个人及其课程的简介。


在KHIPU 2019(Latin American Meeting In Artificial Intelligence)上,在DeepMind任职的Nando de Freitas做了教程《Reinforcement Learning》,用图文、公式等详细地介绍了强化学习的基础和一些进阶算法。


Nando de Freitas简介


Nando出生在津巴布韦,患有疟疾。他是莫坎比克战争的难民。他的父母借钱从贪官给他买一本护照,让他能够生活在葡萄牙马德拉的一个火山岩小屋,没有水和电,父母忙着偿还债务也不在身边,这种情况一直持续到欧盟到达那里。



他在威特沃特斯兰德大学(University of the Witwatersrand)获得了电气工程理学学士学位和控制理学硕士学位,后幸获得剑桥大学三一学院(Trinity College, Cambridge University)神经网络贝叶斯方法博士学位,这要归功于慈善人士提供的奖学金。


他在加州大学伯克利分校(UC Berkeley)获得了人工智能的博士后学位,并于2001年成为加拿大不列颠哥伦比亚大学(University of British Columbia)的教授,随后在2013年成为英国牛津大学(University of Oxford)的教授。2017年,他以首席科学家的身份加入了DeepMind的全职工作,帮助解决智能问题的愿景,让未来几代人能够过上更好的生活。Nando也是加拿大高级研究所的高级研究员,并获得了一些学术奖项。


主页介绍:

https://khipu.ai/03_nando_de_freitas/


《Reinforcement Learning》教程的内容



  • 强化学习概念
  • 策略梯度
  • 动态规划
  • 深度Q网络
  • 分布式强化学习
  • D4PG(Distributed Distributional Deep Deterministic Policy Gradients)
  • PPO(Proximal Policy Optimization)和MPO(Maximum aposteriori Policy Optimisation)
  • R2D3(Recurrent Replay Distributed DQN from Demonstrations)
  • 强化学习应用:
    • AlphaX
    • Batch强化学习


教程部分截图如下所示:



参考链接:
  • https://khipu.ai/program/
  • https://khipu.ai/03_nando_de_freitas/
  • https://drive.google.com/file/d/1kPc3fyOzt0I3Sdwt5EgHH5Bsn1Ng-h11/view?usp=sharing


完整PPT下载,可关注“专知”公众号,后台回复“KHIPURL”获取教程完整PPT下载链接。



新智元AI朋友圈详细使用教程,8000名AI大玩家和实践者都在这里!

登录查看更多
2

相关内容

Nando曾在加州大学伯克利分校(UC Berkeley)从事人工智能工作,并于2001年成为加拿大不列颠哥伦比亚大学的教授,随后于2013年成为英国牛津大学的教授。2017年,他全职加入DeepMind,担任首席科学家,以帮助他们解决智力问题,使子孙后代可以过上更好的生活。 Nando还是加拿大高级研究所的资深研究员,并曾获得多个学术奖项。
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
100+阅读 · 2020年1月13日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
276+阅读 · 2019年10月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
102+阅读 · 2020年3月4日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Arxiv
15+阅读 · 2018年6月23日
VIP会员
Top
微信扫码咨询专知VIP会员