强化学习族谱

2017 年 8 月 2 日 CreateAMind
强化学习族谱

https://github.com/tigerneil/deep-reinforcement-learning-family



deep-reinforcement-learning-records

Explicitly show the relationships between various techniques of deep reinforcement learning methods.

Dedicated for learning and researching on DRL.

Policy gradient methods

  • Equivalence Between Policy Gradients and Soft Q-Learning

  • Trust Region Policy Optimization

  • Reinforcement Learning with Deep Energy-Based Policies

  • Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC

  • Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning 1 Jun 2017

Explorations in DRL

  • Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models

  • EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

Actor-Critic methods

  • The Reactor: A Sample-Efficient Actor-Critic Architecture 15 Apr 2017

  • SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY

  • REINFORCEMENT LEARNING WITH UNSUPERVISED AUXILIARY TASKS

  • Continuous control with deep reinforcement learning

Connection with other methods

  • Connecting Generative Adversarial Networks and Actor-Critic Methods

Connecting value and policy methods

  • Bridging the Gap Between Value and Policy Based Reinforcement Learning

  • Policy gradient and Q-learning

Unifying

  • Multi-step Reinforcement Learning: A Unifying Algorithm

Faster DRL

  • Neural Episodic Control

Apply RL to other domains

  • TUNING RECURRENT NEURAL NETWORKS WITH REINFORCEMENT LEARNING

Multiagent Settings

  • Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 7 Jun 2017

  • Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games 29 Mar 2017


登录查看更多
11

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.

0
10
下载
预览
小贴士
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
31+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
12+阅读 · 2019年5月24日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
10+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
14+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
9+阅读 · 2018年11月10日
一文了解强化学习
AI100
10+阅读 · 2018年8月20日
【ICML2018】63篇强化学习论文全解读
专知
5+阅读 · 2018年7月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关VIP内容
专知会员服务
165+阅读 · 2020年4月19日
专知会员服务
107+阅读 · 2020年2月1日
专知会员服务
45+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
51+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
107+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
74+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
148+阅读 · 2019年10月9日
相关论文
Q-value Path Decomposition for Deep Multiagent Reinforcement Learning
Yaodong Yang,Jianye Hao,Guangyong Chen,Hongyao Tang,Yingfeng Chen,Yujing Hu,Changjie Fan,Zhongyu Wei
19+阅读 · 2020年2月10日
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
Tianhe Yu,Deirdre Quillen,Zhanpeng He,Ryan Julian,Karol Hausman,Chelsea Finn,Sergey Levine
28+阅读 · 2019年10月24日
Brett Daley,Christopher Amato
4+阅读 · 2018年10月23日
Steven Hansen,Pablo Sprechmann,Alexander Pritzel,André Barreto,Charles Blundell
3+阅读 · 2018年10月18日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
6+阅读 · 2018年9月25日
GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms
Cédric Colas,Olivier Sigaud,Pierre-Yves Oudeyer
3+阅读 · 2018年8月17日
John D. Co-Reyes,YuXuan Liu,Abhishek Gupta,Benjamin Eysenbach,Pieter Abbeel,Sergey Levine
6+阅读 · 2018年6月7日
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
4+阅读 · 2018年6月5日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
K. Lakshmanan
6+阅读 · 2018年4月24日
Top