论文题目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

摘要: 元强化学习算法可以利用以前的经验来学习如何学习,从而使机器人更快地获得新技能。然而,目前关于元强化学习的研究大多集中在任务分布非常狭窄的情况下。例如,一个常用的元强化学习基准对一个模拟机器人使用不同的运行速度作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,它们不可能泛化到更快速地获取全新的任务。因此,如果这些方法的目的是更快地获取全新的行为,那么我们必须在任务分布上对它们进行评估,这些任务分布足够广泛,从而能够对新行为进行泛化。在本文中,我们提出了一种元强化学习和多任务学习的开源模拟基准,由50个不同的机器人操作任务组成。我们的目标是使开发算法成为可能,从而加速获取全新的、未完成的任务。我们评估了6种最先进的元强化学习和多任务学习算法。令人惊讶的是,虽然每个任务及其变体(例如,具有不同的对象位置)都可以成功地学习,但这些算法很难同时学习多个任务,即使只有10个不同的训练任务。我们的分析和开源环境为未来多任务学习和元学习的研究铺平了道路,这些研究可以使有意义的概括成为可能,从而释放这些方法的全部潜力。

论文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine

Sergey Levine于2009年获得斯坦福大学计算机科学学士学位和硕士学位,并获得博士学位。 2014年获得斯坦福大学计算机科学博士学位。他于2016年秋天加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习。他的工作应用包括自动驾驶机器人和车辆,以及计算机视觉和图形。 他的研究包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法,用于逆向强化学习的可扩展算法,深度强化学习算法等。 在许多受欢迎的媒体中,包括纽约时报,BBC,麻省理工学院技术评论和彭博社,他的作品都得到了报道。

成为VIP会员查看完整内容
元世界_多任务和元强化学习的基准和评估.pdf
26

相关内容

一家美国的跨国科技企业,致力于互联网搜索、云计算、广告技术等领域,由当时在斯坦福大学攻读理学博士的拉里·佩奇和谢尔盖·布林共同创建。创始之初,Google 官方的公司使命为「整合全球范围的信息,使人人皆可访问并从中受益」。 Google 开发并提供了大量基于互联网的产品与服务,其主要利润来自于 AdWords 等广告服务。

2004 年 8 月 19 日, 公司以「GOOG」为代码正式登陆纳斯达克交易所。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
ICML2019《元学习》教程与必读论文列表
专知
42+阅读 · 2019年6月16日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Knowledge Representation Learning: A Quantitative Review
Meta-Transfer Learning for Few-Shot Learning
Arxiv
8+阅读 · 2018年12月6日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
39+阅读 · 2020年3月25日
微信扫码咨询专知VIP会员