A long-cherished vision in robotics is to equip robots with skills that match the versatility and precision of humans. For example, when playing table tennis, a robot should be capable of returning the ball in various ways while precisely placing it at the desired location. A common approach to model such versatile behavior is to use a Mixture of Experts (MoE) model, where each expert is a contextual motion primitive. However, learning such MoEs is challenging as most objectives force the model to cover the entire context space, which prevents specialization of the primitives resulting in rather low-quality components. Starting from maximum entropy reinforcement learning (RL), we decompose the objective into optimizing an individual lower bound per mixture component. Further, we introduce a curriculum by allowing the components to focus on a local context region, enabling the model to learn highly accurate skill representations. To this end, we use local context distributions that are adapted jointly with the expert primitives. Our lower bound advocates an iterative addition of new components, where new components will concentrate on local context regions not covered by the current MoE. This local and incremental learning results in a modular MoE model of high accuracy and versatility, where both properties can be scaled by adding more components on the fly. We demonstrate this by an extensive ablation and on two challenging simulated robot skill learning tasks. We compare our achieved performance to LaDiPS and HiREPS, a known hierarchical policy search method for learning diverse skills.


翻译:机器人的长期视觉是让机器人掌握与人类多功能性和精密性相匹配的技能。 例如,在玩桌网球时,机器人应该能够以各种方式返回球体,同时准确地将球体置于理想位置。 模拟这种多才多艺行为的常见方法是使用专家混合模型(MOE),每名专家都是背景运动原始的。 然而,学习这种模型具有挑战性,因为大多数目标迫使模型覆盖整个背景空间,从而阻止原始技术的专业化,从而导致相当低质量的组成部分。从最大增压强化学习(RL)开始,我们将目标分解为优化每种混合物组件的较低约束。 此外,我们引入了一种课程,允许组件以当地环境区域为重点,使模型能够学习高度准确的技能表现。为此,我们使用与原始专家一起调整的本地环境分布。 我们的下层支持反复增加新的组成部分,其中新的组成部分将集中于当前模范中未覆盖的本地环境区域。 这种本地和递增学习结果将优化个人组合在模块化的MOE等级上,我们通过高精度和高超度的模化的模版化技能, 学习一种我们所认识的模版化的模版化的模版技术。

0
下载
关闭预览

相关内容

专知会员服务
166+阅读 · 2021年8月3日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
Arxiv
0+阅读 · 2022年2月10日
Arxiv
0+阅读 · 2022年2月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员