人类不断地适应我们周围的世界,让我们无缝地获取新技能和探索多样的环境。但是,当前的AI方法不能达到这种多功能性。相反,它们通常使用大量的数据集进行训练,并同时学习所有任务。然而,经过训练的模型在适应变化的上下文时有限的能力,并受到可用数据的限制。在机器人技术中,这一挑战尤为突出,因为真实世界的交互数据非常稀少。

相反,我们设想一个机器人能够从环境和人类互动中持续学习,快速获取新信息而不覆盖过去的知识,并能够适应用户的特定需求。

在这篇论文中,我们将持续学习应用于机器人技术,目标是启用关键能力,包括:将先前的信息应用于新设置,维护旧信息,保持学习新技能的能力,以及理解上下文。我们在两种学习模式下探索这些:持续的强化学习(CRL),代理从经验中学习;以及持续的模仿学习(CIL),它从演示中学习。

然而,许多障碍阻碍了进步,包括有限的开源资源、资源密集型基准和机器人技术的不实用指标。为了应对这些挑战,我们提出CORA(持续强化学习代理),一个带有基准、基线和指标的开源工具包,以增强CRL的可用性。CORA超越了灾难性遗忘,评估模型进行前向转移和泛化的能力。

在此基础上,我们引入SANE(自激活神经集合)来创建一个动态的可适应技能库。SANE的独立模块集合根据需要学习和应用技能,减少遗忘。我们在几个Procgen强化学习任务集上展示了这种方法。

然后,我们将SANE适应到一个物理机器人——Stretch,使用CIL并命名为SANER(SANE用于机器人技术)。借助我们创新的基于注意力的交互策略(ABIP),SANER在少次学习中表现出色,展示了其在各种任务中的泛化效果。 SANERv2进一步增强了这一能力,整合了自然语言,并在一个模拟环境RLBench中,在15个不同的操纵任务上实现了强大的性能。值得注意的是,SANERv2还能展示独立模块的潜力,证明一个节点可以在代理之间移动而不损失性能,这预示着未来可能有组合的集成。

成为VIP会员查看完整内容
25

相关内容

【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
36+阅读 · 2023年4月17日
【CMU博士论文】迈向高效自动机器学习,184页pdf
专知会员服务
31+阅读 · 2023年2月24日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
146+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员