RL解决'LunarLander-v2' (SOTA)

2019 年 9 月 27 日 CreateAMind
RL解决'LunarLander-v2' (SOTA)


在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境,达到效果和效率上的 state-of-the-art。

'BipedalWalker' 是连续控制问题,'LunarLander-v2' 是离散控制问题,我们使用maxsqn算法来解决,maxsqn是基于Q-值估计的算法,融合了double-Q learning和entropy regularization(SQL, soft Q learning)。算法的伪代码和实现可以参考我们的项目:

https://github.com/createamind/DRL

https://github.com/createamind/DRL/blob/master/video_pic/maxsqn.png


'LunarLander-v2'环境描述的是飞行器降落指定地点,根据降落的平稳程度和降落中使用的燃料来给agent打分。'LunarLander-v2'的observation是基于坐标的而不是图像,Q-network使用两个全连接层就可以解决。'LunarLander-v2'的解决要求是连续100次试验得分在200以上,我们的结果最少只需29个episodes(平均100个episodes)就能解决,比第二名快了一倍以上,learderboard链接:

https://github.com/openai/gym/wiki/Leaderboard#LunarLander-v2



另外,我们也跑了'LunarLander-v2'的连续版本'LunarLanderContinuous-v2',同样达到了state-of-the-art:

https://github.com/openai/gym/wiki/Leaderboard#lunarlandercontinuous-v2



欢迎加入或支持我们 :)


登录查看更多
54

相关内容

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。
小贴士
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
35+阅读 · 2019年10月13日
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
28+阅读 · 2019年7月17日
SQN算法效果及代码: Breakout-ram-v4 打砖块
CreateAMind
11+阅读 · 2019年1月21日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
11+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
13+阅读 · 2020年4月28日
Dmitrii Beloborodov,A. E. Ulanov,Jakob N. Foerster,Shimon Whiteson,A. I. Lvovsky
4+阅读 · 2020年2月14日
Precise Detection in Densely Packed Scenes
Eran Goldman,Roei Herzig,Aviv Eisenschtat,Jacob Goldberger,Tal Hassner
3+阅读 · 2019年4月8日
Fréderic Godin,Anjishnu Kumar,Arpit Mittal
3+阅读 · 2019年2月26日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai,Zhilin Yang,Yiming Yang,William W. Cohen,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov
3+阅读 · 2019年1月9日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
6+阅读 · 2018年6月28日
Tambet Matiisen,Aqeel Labash,Daniel Majoral,Jaan Aru,Raul Vicente
4+阅读 · 2018年5月21日
Andrea Madotto,Chien-Sheng Wu,Pascale Fung
7+阅读 · 2018年5月21日
Tao Shen,Tianyi Zhou,Guodong Long,Jing Jiang,Sen Wang,Chengqi Zhang
16+阅读 · 2018年1月31日
Top