机器人研究的一个长期目标是创建能够从零开始自动学习复杂控制策略的算法。将这种算法应用到机器人上的挑战之一是表示的选择。强化学习(RL)算法已经成功地应用于许多不同的机器人任务中,如带有机器人手臂的cup中的Ball-in-a-Cup任务和各种机器人世界杯机器人足球启发的领域。然而,RL算法仍然存在训练时间长、所需训练数据量大的问题。为状态空间、行动空间和策略选择合适的表示可以大大减少所需的训练时间和所需的训练数据。

本文主要研究机器人的深度强化学习。具体来说,状态空间、动作空间和策略表示的选择如何减少机器人学习任务的训练时间和样本复杂度。特别集中注意两个主要领域: 1)通过张量状态-动作空间表示 2)多状态表示的辅助任务学习

第一个领域探索了在环境变化中改进机器人策略迁移的方法。学习策略的成本可能很高,但是如果策略可以在类似的环境中传输和重用,那么训练成本可以平摊。迁移学习是一个被广泛研究的领域,涉及多种技术。在这篇论文中,我们着重设计一个易于传输的表示。我们的方法将状态空间和动作空间映射为多维张量,设计成当环境中机器人和其他对象的数量变化时保持固定维数。我们还提出了全卷积Q-Network (FCQN)策略表示,这是一种特殊的网络架构,与张量表示相结合,允许跨环境大小进行零距离传输。我们在模拟的单代理和多代理任务上演示了这种方法,灵感来自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我们还表明,在真实世界的传感器数据和机器人中使用这样的表示和模拟训练策略是可能的。

第二个领域考察了一个机器人深度RL状态表示的优势如何弥补另一个机器人深度RL状态表示的劣势。例如,我们经常想要利用机器人可用的传感器来学习任务,其中包括像摄像机这样的高维传感器。最近的Deep RL算法可以通过图像进行学习,但是数据的数量对于真实的机器人来说是难以接受的。或者,可以使用任务完成所需的最小集创建状态。这样做的好处是:1)减少策略参数的数量,2)删除不相关的信息。然而,提取这些特征通常会在工程、额外硬件、校准和实验室之外的脆弱性方面有很大的成本。我们在仿真和现实世界的多个机器人平台和任务上演示了这一点。我们证明它在模拟的RoboCup小型联赛(SSL)机器人上工作。我们还演示了这样的技术允许在真实的硬件上从零开始学习,通过机器人手臂执行一个球在一个杯子的任务。

https://www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

成为VIP会员查看完整内容
129

相关内容

卡耐基梅隆大学(Carnegie Mellon University)坐落在宾夕法尼亚州的匹兹堡,是一所享誉世界的私立顶级研究型大学,学校面积不大,学科门类不多,但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
专知会员服务
207+阅读 · 2019年8月30日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
Arxiv
16+阅读 · 2020年5月20日
Monocular Plan View Networks for Autonomous Driving
Arxiv
6+阅读 · 2019年5月16日
Arxiv
12+阅读 · 2018年9月15日
Arxiv
4+阅读 · 2016年9月20日
VIP会员
相关VIP内容
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
172+阅读 · 2020年2月8日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
58+阅读 · 2020年1月16日
专知会员服务
207+阅读 · 2019年8月30日
微信扫码咨询专知VIP会员