RL解决'LunarLander-v2' (SOTA) - 专知

会员服务 ·

1

RL解决'LunarLander-v2' (SOTA)

2019 年 9 月 27 日 CreateAMind

在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境，达到效果和效率上的 state-of-the-art。

'BipedalWalker' 是连续控制问题，'LunarLander-v2' 是离散控制问题，我们使用maxsqn算法来解决，maxsqn是基于Q-值估计的算法，融合了double-Q learning和entropy regularization（SQL, soft Q learning）。算法的伪代码和实现可以参考我们的项目：

https://github.com/createamind/DRL

https://github.com/createamind/DRL/blob/master/video_pic/maxsqn.png

'LunarLander-v2'环境描述的是飞行器降落指定地点，根据降落的平稳程度和降落中使用的燃料来给agent打分。'LunarLander-v2'的observation是基于坐标的而不是图像，Q-network使用两个全连接层就可以解决。'LunarLander-v2'的解决要求是连续100次试验得分在200以上，我们的结果最少只需29个episodes（平均100个episodes）就能解决，比第二名快了一倍以上，learderboard链接：

https://github.com/openai/gym/wiki/Leaderboard#LunarLander-v2

另外，我们也跑了'LunarLander-v2'的连续版本'LunarLanderContinuous-v2'，同样达到了state-of-the-art：

https://github.com/openai/gym/wiki/Leaderboard#lunarlandercontinuous-v2

欢迎加入或支持我们：）

登录查看更多

62

相关内容

SOTA

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

专知会员服务

42+阅读 · 2020年1月15日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

专知会员服务

8+阅读 · 2019年10月3日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

CreateAMind

19+阅读 · 2019年7月18日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

Precise Detection in Densely Packed Scenes

Precise Detection in Densely Packed Scenes

Arxiv

3+阅读 · 2019年4月8日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems

Arxiv

7+阅读 · 2018年5月21日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

VIP会员

相关主题

state-of-the-art

相关VIP内容

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

专知会员服务

42+阅读 · 2020年1月15日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

专知会员服务

8+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

CreateAMind

19+阅读 · 2019年7月18日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

Precise Detection in Densely Packed Scenes

Precise Detection in Densely Packed Scenes

Arxiv

3+阅读 · 2019年4月8日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems

Arxiv

7+阅读 · 2018年5月21日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

大家都在搜

久别重逢话双塔

CMU博士论文

软件无线电

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员