论文题目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
摘要: 元强化学习算法可以利用以前的经验来学习如何学习,从而使机器人更快地获得新技能。然而,目前关于元强化学习的研究大多集中在任务分布非常狭窄的情况下。例如,一个常用的元强化学习基准对一个模拟机器人使用不同的运行速度作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,它们不可能泛化到更快速地获取全新的任务。因此,如果这些方法的目的是更快地获取全新的行为,那么我们必须在任务分布上对它们进行评估,这些任务分布足够广泛,从而能够对新行为进行泛化。在本文中,我们提出了一种元强化学习和多任务学习的开源模拟基准,由50个不同的机器人操作任务组成。我们的目标是使开发算法成为可能,从而加速获取全新的、未完成的任务。我们评估了6种最先进的元强化学习和多任务学习算法。令人惊讶的是,虽然每个任务及其变体(例如,具有不同的对象位置)都可以成功地学习,但这些算法很难同时学习多个任务,即使只有10个不同的训练任务。我们的分析和开源环境为未来多任务学习和元学习的研究铺平了道路,这些研究可以使有意义的概括成为可能,从而释放这些方法的全部潜力。
论文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
Sergey Levine于2009年获得斯坦福大学计算机科学学士学位和硕士学位,并获得博士学位。 2014年获得斯坦福大学计算机科学博士学位。他于2016年秋天加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习。他的工作应用包括自动驾驶机器人和车辆,以及计算机视觉和图形。 他的研究包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法,用于逆向强化学习的可扩展算法,深度强化学习算法等。 在许多受欢迎的媒体中,包括纽约时报,BBC,麻省理工学院技术评论和彭博社,他的作品都得到了报道。