This paper details our winning submission to Phase 1 of the 2021 Real Robot Challenge, a challenge in which a three fingered robot must carry a cube along specified goal trajectories. To solve Phase 1, we use a pure reinforcement learning approach which requires minimal expert knowledge of the robotic system or of robotic grasping in general. A sparse goal-based reward is employed in conjunction with Hindsight Experience Replay to teach the control policy to move the cube to the desired x and y coordinates. Simultaneously, a dense distance-based reward is employed to teach the policy to lift the cube to the desired z coordinate. The policy is trained in simulation with domain randomization before being transferred to the real robot for evaluation. Although performance tends to worsen after this transfer, our best trained policy can successfully lift the real cube along goal trajectories via the use of an effective pinching grasp. Our approach outperforms all other submissions, including those leveraging more traditional robotic control techniques, and is the first learning-based approach to solve this challenge.


翻译:本文详细介绍了我们向2021年真正的机器人挑战第一阶段的获胜申请, 3个手指机器人必须随特定目标轨迹携带立方体的挑战。 为了解决第一阶段, 我们使用纯强化学习方法, 需要最起码的机器人系统或一般机器人捕捉的专业知识。 与Hindsight 经验重现一起使用一个稀少的基于目标的奖励来教授控制政策, 将立方体移动到理想的x 和 y 坐标。 同时, 使用密集的远程奖励来教授将立方体提升到理想的 z 坐标的政策。 该政策在传输到真正的机器人之前先用域随机化进行模拟培训。 尽管在转移到真正的机器人进行评估之前,我们经过最佳培训的政策往往会恶化, 但是通过有效抓抓取, 我们的最佳政策可以成功地沿目标轨迹提升真正的立方体。 我们的方法超越了所有其他的提交方法, 包括利用更传统的机器人控制技术, 并且是第一个基于学习的方法来应对这一挑战。

0
下载
关闭预览

相关内容

机器人(英语:Robot)包括一切模拟人类行为或思想与模拟其他生物的机械(如机器狗,机器猫等)。狭义上对机器人的定义还有很多分类法及争议,有些电脑程序甚至也被称为机器人。在当代工业中,机器人指能自动运行任务的人造机器设备,用以取代或协助人类工作,一般会是机电设备,由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【图与几何深度学习】Graph and geometric deep learning,49页ppt
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
99+阅读 · 2020年1月13日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
8+阅读 · 2019年1月30日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
李宏毅-201806-中文-Deep Reinforcement Learning精品课程分享
深度学习与NLP
15+阅读 · 2018年6月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年12月17日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
9+阅读 · 2018年4月20日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
已删除
将门创投
8+阅读 · 2019年1月30日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
李宏毅-201806-中文-Deep Reinforcement Learning精品课程分享
深度学习与NLP
15+阅读 · 2018年6月20日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
8+阅读 · 2021年5月21日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
3+阅读 · 2018年12月17日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
9+阅读 · 2018年4月20日
Top
微信扫码咨询专知VIP会员