强化学习族谱

2017 年 8 月 2 日 CreateAMind

https://github.com/tigerneil/deep-reinforcement-learning-family



deep-reinforcement-learning-records

Explicitly show the relationships between various techniques of deep reinforcement learning methods.

Dedicated for learning and researching on DRL.

Policy gradient methods

  • Equivalence Between Policy Gradients and Soft Q-Learning

  • Trust Region Policy Optimization

  • Reinforcement Learning with Deep Energy-Based Policies

  • Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

  • Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning 1 Jun 2017

Explorations in DRL

  • Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

  • EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

Actor-Critic methods

  • The Reactor: A Sample-Efficient Actor-Critic Architecture 15 Apr 2017

  • SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY

  • REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS

  • Continuous control with deep reinforcement learning

Connection with other methods

  • Connecting Generative Adversarial Networks and Actor-Critic Methods

Connecting value and policy methods

  • Bridging the Gap Between Value and Policy Based Reinforcement Learning

  • Policy gradient and Q-learning

Unifying

  • Multi-step Reinforcement Learning: A Unifying Algorithm

Faster DRL

  • Neural Episodic Control

Apply RL to other domains

  • TUNING RECURRENT NEURAL NETWORKS WITH REINFORCEMENT LEARNING

Multiagent Settings

  • Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 7 Jun 2017

  • Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games 29 Mar 2017


登录查看更多
26

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《强化学习》简介小册,24页pdf
专知会员服务
262+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
《强化学习》简介小册,24页pdf
专知会员服务
262+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员