【高级强化学习课程+项目】Advanced Topics in Deep Reinforcement learning开课啦!

2020 年 7 月 1 日 深度强化学习实验室

课程主页深度强化学习实验室报道

来源:https://deeppavlov.ai/

编辑: DeepRL


本课程重点介绍深度强化学习近年来的最新研究进展,涉及强化学习中探索策略,模仿和反向强化学习,分层强化学习,强化学习中的进化策略,分布式强化学习,强化学习组合优化,多智能体强化学习,大规模强化学习,多任务和迁移强化学习,强化学习中的记忆机制,值得大家研究

第一部分:课程

RL#1: 13.02.2020: Exploration in RL

Sergey Ivanov

  • Random Network Distillation [1]

  • Intrinsic Curiosity Module [2,3]

  • Episodic Curiosity through Reachability [4]

RL#2:  20.02.2020:  Imitation and Inverse RL

Just Heuristic

  • Imitation Learning[5]

  • Inverse RL [6,7]

  • Learning from Human Preferences [8]

RL#3:  27.02.2020:  Hierarchical Reinforcement Learning

Petr Kuderov

  • A framework for temporal abstraction in RL [9]

  • The Option-Critic Architecture [10]

  • FeUdal Networks for Hierarchical RL [11]

  • Data-Efficient Hierarchical RL [12]

  • Meta Learning Shared Hierarchies [13] 

RL#4:  5.03.2020:  Evolutionary Strategies in RL

Evgenia Elistratova

  • A framework for temporal abstraction in reinforcement learning [14]

  • Improving Exploration in Evolution Strategies for Deep RL [15]

  • Paired Open-Ended Trailblazer (POET) [16]

  • Sim-to-Real: Learning Agile Locomotion For Quadruped Robots [17]

RL#5:  12.03.2020:  Distributional Reinforcement Learning

Pavel Shvechikov

  • A Distributional Perspective on RL [18]

  • Distributional RL with Quantile Regression [19]

  • Implicit Quantile Networks for Distributional RL [20]

  • Fully Parameterized Quantile Function for Distributional RL [21]

RL#6:  19.03.2020: RL for Combinatorial optimization

Taras Khakhulin

  • RL for Solving the Vehicle Routing Problem [22]

  • Attention, Learn to Solve Routing Problems! [23]

  • Learning Improvement Heuristics for Solving the Travelling Salesman Problem [24]

  • Learning Combinatorial Optimization Algorithms over Graphs [25]

RL#7:  26.03.2020:  RL as Probabilistic Inference

Pavel Termichev

  • RL and Control as Probabilistic Inference: Tutorial and Review [26]

  • RL with Deep Energy-Based Policies [27]

  • Soft Actor-Critic [28]

  • Variational Bayesian RL with Regret Bounds [29]

RL#8:  9.04.2020:  Multi Agent Reinforcement Learning

Sergey Sviridov

  • Stabilising Experience Replay for Deep Multi-Agent RL [30]

  • Counterfactual Multi-Agent Policy Gradients [31]

  • Value-Decomposition Networks For Cooperative Multi-Agent Learning [32]

  • Monotonic Value Function Factorisation for Deep Multi-Agent RL [33]

  • Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments [34]

RL#9:  16.04.2020:   Model-Based Reinforcement Learning

Evgeny Kashin

  • DL for Real-Time Atari Game Play Using Offline MCTS Planning [35]

  • Mastering Chess and Shogi by Self-Play with a General RL Algorithm [36]

  • World Models [37]

  • Model-Based RL for Atari [38]

  • Learning Latent Dynamics for Planning from Pixels [39] 

RL#10:  23.04.2020:  Reinforcement Learning at Scale

Aleksandr Panin

  • Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour [40]

  • HOGWILD!: A Lock-Free Approach to Parallelizing SGD [41]

  • GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism [42]

  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism [43]

  • Learning@home: Crowdsourced Training of Large Neural Networks using Decentralized Mixture-of-Experts [44]

RL#11:  30.04.2020:  Multitask & Transfer RL

Dmitry Nikulin

  • Universal Value Function Approximators [45]

  • Hindsight Experience Replay [46]

  • PathNet: Evolution Channels Gradient Descent in Super Neural Networks [47]

  • Progressive Neural Networks [48]

  • Learning an Embedding Space for Transferable Robot Skills [49]

RL#12:  07.05.2020:  Memory in Reinforcement Learning

Artyom Sorokin

  • Recurrent Experience Replay in Distributed RL [50]

  • AMRL: Aggregated Memory For RL [51]

  • Unsupervised Predictive Memory in a Goal-Directed Agent [52]

  • Stabilizing Transformers for RL [53]

  • Model-Free Episodic Control [54]

  • Neural Episodic Control [55]

RL#13:  14.05.2020:  Distributed RL In the wild

Sergey Kolesnikov

  • Asynchronous Methods for Deep RL [56]

  • IMPALA: Scalable Distributed DRL with Importance Weighted Actor-Learner Architectures [57]

  • Distributed Prioritized Experience Replay [58]

  • Making Efficient Use of Demonstrations to Solve Hard Exploration Problems [59]

  • SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference [60]


第二部分:项目

【1】Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives (Hierarchical RL)

Implement the paper on the test environment of your choice.

【2】 HIRO with Hindsight Experience Replay (Hierarchical RL)

Add Hindsight experience replay to the HIRO algorithm.Compare with HIRO.

【3】 Meta Learning Shared Hierarchies on pytorch (Hierarchical RL)  

Implement the paper with pytorch (author's implementation uses TF). Check its results on the test environment of your choice (not from the paper).

【4】Fast deep Reinforcement learning using online adjustments from the past (Memory in RL)

Try to reproduce the paper or implement the algorithm on a different environment.

Bonus points:
* Comparison with the NEC or a basic DRL algorithm;
* Ablation study.

【5】Episodic Reinforcement Learning with Associative Memory (Memory in  RL)

Try to reproduce the paper or implement the algorithm on a different environment.

Bonus points:
* Comparison with the NEC or a basic DRL algorithm;
* Ablation study.

【6】Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization (Inverse RL)

Implement the algorithm and test it on Atari games. Compare results with common baselines.

【7】Non-Monotonic Sequential Text Generation on TF/chainer (Imitation Learning)

Implement the paper on tensorflow or chainer.

【8】Evolution Strategies as a Scalable Alternative to Reinforcement      Learning (Evolution Strategies)

Implement the algorithm and test it on vizdoom or gym-minigrid. Compare resluts with available baselines.

【9】Improving Exploration in Evolution Strategies for DRL via a Population of Novelty-Seeking Agents (Evolution Strategies)

 Implement the algorithm and test it on vizdoom or gym-minigrid. Compare resluts with available baselines.

【10】Comparative study of intrinsic motivations (Exploration in RL)

Using MountainCar-v0 compare:

1) curiosity on forward dynamics model loss;
2) curiosity on inverse dynamics model loss;
3) ICM;
4) RND.
Bonus points:
* Add motivation for off-policy RL algorithm (e.g. DQN or QR-DQN);
* Try MountainCarContinuous-v0.

【11】Solving Unity Pyramids (Exploration in RL)

Try to reproduce this experiment using any intrinsic motivation you like.

【12】RND Exploratory Behavior (Exploration in RL)

There was a study of exploratory behaviors for curiosity-based intrinsic motivation. Choose any environment, e.g. some Atari game, and discover exploratory behavior of RND.

【13】 Learning Improvement Heuristics for Solving the Travelling Salesman   Problem (RL for Combinatorial Opt.)

Implement the paper on any combinatorial opt. problem you like. Compare with avialable solvers.

【14】Dynamic Attention Model for Vehicle Routing Problems (RL for Combinatorial Opt.)

Implement the paper on any combinatorial opt. problem you like. Compare   with avialable solvers.

【15】Variational RL with Regret Bounds (Variational RL)

Try to reproduce K-learning algorithm from the paper. Pick a finite discrete environment of your choice. Use this paper as an addition to the main one.

Bonus points:
* Compare with exact version of soft actor-critic or soft q-learning from here. Hint: use message-passing algorithm;
* Propose approximate K-learning algorithm with the use of function approximators (neural networks).



第三部分:课程资源


课程主页:https://deeppavlov.ai/rl_course_2020
Bilibili: https://www.bilibili.com/video/av668428103/
Youtube:
https://www.youtube.com/playlist?list=PLt1IfGj6-_-eXjZDFBfnAhAJmCyX227ir

交流请加微信  NeuronDance  务必注明【姓名-学校/单位-研究方向】,否则不通过


总结1:周志华 || AI领域如何做研究-写高水平论文

总结2:全网首发最全深度强化学习资料(永更)

总结3:  《强化学习导论》代码/习题答案大全

总结4:30+个必知的《人工智能》会议清单

总结52019年-57篇深度强化学习文章汇总

总结6:  万字总结 || 强化学习之路

总结7:万字总结 || 多智能体强化学习(MARL)大总结

总结8:经验 || 深度强化学习理论、模型及编码调参技巧


第70篇:DeepMind发布"离线强化学习基准“

第69篇:深度强化学习【Seaborn】绘图方法

第68篇:【DeepMind】多智能体学习231页PPT

第67篇:126篇ICML2020会议"强化学习"论文汇总

第66篇:分布式强化学习框架Acme,并行性加强

第65篇:DQN系列(3): 优先级经验回放(PER)

第64篇:UC Berkeley开源RAD来改进强化学习算法

第63篇:华为诺亚方舟招聘 || 强化学习研究实习生

第62篇:ICLR2020- 106篇深度强化学习顶会论文

第61篇:David Sliver 亲自讲解AlphaGo、Zero

第60篇:滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇:Agent57在所有经典Atari 游戏中吊打人类

第58篇:清华开源「天授」强化学习平台

第57篇:Google发布"强化学习"框架"SEED RL"

第56篇:RL教父Sutton实现强人工智能算法的难易

第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇: DeepMind开源三大新框架!
第14篇: 61篇NIPS2019DeepRL论文及部分解读
第13篇: OpenSpiel(28种DRL环境+24种DRL算法)
第12篇: 模块化和快速原型设计Huskarl DRL框架
第11篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第9篇: 《AutoML》:一份自动化调参的指导
第8篇: ReinforceJS库(动态展示DP、TD、DQN)
第7篇: 10年NIPS顶会DRL论文(100多篇)汇总
第6篇: ICML2019-深度强化学习文章汇总
第5篇: 深度强化学习在阿里巴巴的技术演进
第4篇: 深度强化学习十大原则
第3篇: “超参数”自动化设置方法---DeepHyper
第2篇: 深度强化学习的加速方法
第1篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


第14期论文:  2020-02-10(8篇)

第13期论文:2020-1-21(共7篇)

第12期论文:2020-1-10(Pieter Abbeel一篇,共6篇)

第11期论文:2019-12-19(3篇,一篇OpennAI)

第10期论文:2019-12-13(8篇)

第9期论文:2019-12-3(3篇)

第8期论文:2019-11-18(5篇)

第7期论文:2019-11-15(6篇)

第6期论文:2019-11-08(2篇)

第5期论文:2019-11-07(5篇,一篇DeepMind发表)

第4期论文:2019-11-05(4篇)

第3期论文:2019-11-04(6篇)

第2期论文:2019-11-03(3篇)

第1期论文:2019-11-02(5篇)




登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
相关资讯
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
13+阅读 · 2018年1月20日
Top
微信扫码咨询专知VIP会员