Learning from diverse offline datasets is a promising path towards learning general purpose robotic agents. However, a core challenge in this paradigm lies in collecting large amounts of meaningful data, while not depending on a human in the loop for data collection. One way to address this challenge is through task-agnostic exploration, where an agent attempts to explore without a task-specific reward function, and collect data that can be useful for any downstream task. While these approaches have shown some promise in simple domains, they often struggle to explore the relevant regions of the state space in more challenging settings, such as vision based robotic manipulation. This challenge stems from an objective that encourages exploring everything in a potentially vast state space. To mitigate this challenge, we propose to focus exploration on the important parts of the state space using weak human supervision. Concretely, we propose an exploration technique, Batch Exploration with Examples (BEE), that explores relevant regions of the state-space, guided by a modest number of human provided images of important states. These human provided images only need to be collected once at the beginning of data collection and can be collected in a matter of minutes, allowing us to scalably collect diverse datasets, which can then be combined with any batch RL algorithm. We find that BEE is able to tackle challenging vision-based manipulation tasks both in simulation and on a real Franka robot, and observe that compared to task-agnostic and weakly-supervised exploration techniques, it (1) interacts more than twice as often with relevant objects, and (2) improves downstream task performance when used in conjunction with offline RL.


翻译:从不同的离线数据集中学习,是学习通用机器人剂的一条有希望的道路。然而,这一范例中的核心挑战在于收集大量有意义的数据,而不是依赖于在数据收集圈圈中的人,而这种模式的核心挑战在于收集大量有意义的数据,而不是依赖于在数据收集圈中的人。解决这一挑战的一个办法是任务不可知的探索,一个代理试图在没有特定任务奖励功能的情况下探索,并收集对任何下游任务有用的数据。虽然这些方法在简单领域显示了一些希望,但它们往往在更具有挑战性的环境中,例如基于视觉的机器人操纵,探索国家空间的相关区域。这个挑战来自鼓励在潜在广阔的空间中探索一切目标。为了减轻这一挑战,我们提议利用薄弱的人类监督,重点探索国家空间的重要部分。具体地说,我们建议一种探索技术,即利用实例进行探索,探索空间的相关区域,以少量重要国家提供的人类图像为指导。这些人类提供的图像只需在数据收集开始时收集一次,就可以在几分钟内收集,从而鼓励在潜在的广度空间空间中探索所有所有物体。我们能够以更具有挑战性的方式收集不同性的工作,然后用一个具有挑战性的任务,我们可以将一个更精确地收集到更具有挑战性的工作,然后用一个更精确的图像,我们能够用一个比一个更精确的、更精确的、更精确的、更精确的、更精确的、更精确地在操作中,我们用一个更精确的、更精确的、更精确的变压的操作一个比一个比一个比一个更精确的、更精确的、更精确的、更精确的、更精确的、更精确的、更精确的游戏。

0
下载
关闭预览

相关内容

可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
95+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年6月16日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
13+阅读 · 2019年1月26日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员