论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容
0
32

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
57

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
52

【简介】随着深度表示学习的发展,强化学习(RL)已经成为了一个强大的学习框架,其可以在高维度空间中学习复杂的规则。这篇综述总结了深度强化学习(DRL)算法,提供了采用强化学习的自动驾驶任务的分类方法,重点介绍了算法上的关键挑战和在现实世界中将强化学习部署在自动驾驶方面的作用,以及最终评估,测试和加强强化学习和模仿学习健壮性的现有解决方案。

论文链接: https://arxiv.org/abs/2002.00444

介绍:

自动驾驶(AD)系统由多个感知级任务组成,由于采用了深度学习架构,这些任务现在已经达到了很高的精度。除了感知任务之外,自主驾驶系统还包含多个其他任务,传统的监督学习方法已经不再适用。首先,当对agent行为的预测发生变化时,从自动驾驶agent所处的环境中接收到的未来传感器观察到的结果,例如获取市区最佳驾驶速度的任务。其次,监督信号(如碰撞时间(TTC),相对于agent最佳轨迹的侧向误差)表示agent的动态变化以及环境中的不确定性。这些问题都需要定义随机损失函数来使其最大化。最后,agent需要学习当前环境新的配置参数,预测其所处的环境中每一时刻的最优决策。这表明在观察agent和其所处环境的情况下,一个高维度的空间能够给出大量唯一的配置参数。在这些场景中,我们的目标是解决一个连续决策的问题。在这篇综述中,我们将介绍强化学习的概念,强化学习是一种很有前景的解决方案和任务分类方法,特别是在驱动策略、预测感知、路径规划以及低层控制器设计等领域。我们还重点回顾了强化学习在自动驾驶领域当中各种现实的应用。最后,我们通过阐述应用当前诸如模仿学习和Q学习等强化学习算法时所面临的算力挑战和风险来激励使用者对强化学习作出改进。

章节目录:

section2: 介绍一个典型的自动驾驶系统及其各个组件。

section3: 对深度强化学习进行介绍,并简要讨论关键概念。

section4: 探讨在强化学习基本框架上对其进行更深层次,更加复杂的扩展。

section5: 对强化学习用于自动驾驶领域的所面临的问题提供一个概述。

section6: 介绍将强化学习部署到真实世界自动驾驶系统中所面临的挑战。

section7: 总结

成为VIP会员查看完整内容
0
80

主题: Meta-Learning: from Few-Shot Learning to Rapid Reinforcement Learning

摘要: 近年来,在数据丰富的领域,诸如深度神经网络等高容量模型已经使机器学习技术变得非常强大。然而,数据稀缺的领域已被证明具有挑战性的这种方法,因为高容量函数逼近严重依赖于大数据集的泛化。这可能对从有监督的医学图像处理到强化学习等领域构成重大挑战,在这些领域,真实世界的数据收集(如机器人)构成重大的后勤挑战。元学习或少镜头学习为这个问题提供了一个潜在的解决方案:通过学习从许多以前的任务中跨数据学习,很少镜头元学习算法能够发现任务之间的结构,从而实现新任务的快速学习。本教程的目的是为元学习提供一个统一的视角:向观众讲授现代方法,描述围绕这些技术的概念和理论原则,介绍这些方法以前的应用领域,并讨论了该地区存在的基本问题和挑战。我们希望本教程对那些在其他领域有专长的机器学习研究人员都有用,同时也为元学习研究人员提供了一个新的视角。总而言之,我们的目标是为受众成员提供将元学习应用到他们自己的应用中的能力,并开发新的元学习算法和理论分析,这些驱动是由现有工作的挑战和局限所驱动的。我们将提供一个统一的视角,说明各种元学习算法如何能够从小数据集中学习,概述元学习能够而且不容易应用的应用,并讨论这一子领域的突出挑战和前沿。

邀请嘉宾: Chelsea Finn是Google Brain的研究科学家,也是加州大学伯克利分校的博士后学者。2019年9月,她将以助理教授的身份加入斯坦福大学计算机科学系。芬恩的研究兴趣在于通过学习和互动,使机器人和其他智能体发展出广泛的智能行为。为此,芬恩开发了深度学习算法,用于同时学习机器人操作技能中的视觉感知和控制,用于可伸缩获取非线性回报函数的逆强化方法,以及能够快速实现的元学习算法,在视觉感知和深度强化学习中,很少有镜头适应。芬恩在麻省理工学院获得了EECS学士学位,在加州大学伯克利分校获得了CS博士学位。她的研究成果已通过NSF研究生奖学金、Facebook奖学金、C.V.Ramamoorthy杰出研究奖和麻省理工35岁以下技术评论奖获得认可,她的研究成果已被包括《纽约时报》、《连线》和彭博社在内的多家媒体报道。

Sergey Levine 2009年获得斯坦福大学计算机科学学士和硕士学位,2014年获得斯坦福大学计算机科学博士学位。他于2016年秋季加入加州大学伯克利分校电气工程与计算机科学系。他的工作重点是决策和控制的机器学习,重点是深度学习和强化学习算法。他的工作包括自主机器人和车辆,以及计算机视觉和图形。他的研究工作包括开发将感知和控制相结合的深度神经网络策略的端到端训练算法、反向强化学习的可扩展算法、深度强化学习算法等。

成为VIP会员查看完整内容
0
31
小贴士
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
12+阅读 · 2020年4月28日
A Survey on Trajectory Data Management, Analytics, and Learning
Sheng Wang,Zhifeng Bao,J. Shane Culpepper,Gao Cong
11+阅读 · 2020年3月25日
Meta-Learning with Implicit Gradients
Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine
7+阅读 · 2019年9月10日
HAQ: Hardware-Aware Automated Quantization
Kuan Wang,Zhijian Liu,Yujun Lin,Ji Lin,Song Han
6+阅读 · 2018年11月21日
Jingkang Wang,Yang Liu,Bo Li
3+阅读 · 2018年10月5日
Physical Primitive Decomposition
Zhijian Liu,William T. Freeman,Joshua B. Tenenbaum,Jiajun Wu
3+阅读 · 2018年9月13日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
5+阅读 · 2018年6月28日
Ignasi Clavera,Anusha Nagabandi,Ronald S. Fearing,Pieter Abbeel,Sergey Levine,Chelsea Finn
7+阅读 · 2018年3月30日
Matthias Plappert,Rein Houthooft,Prafulla Dhariwal,Szymon Sidor,Richard Y. Chen,Xi Chen,Tamim Asfour,Pieter Abbeel,Marcin Andrychowicz
3+阅读 · 2018年1月31日
Ryan Lowe,Yi Wu,Aviv Tamar,Jean Harb,Pieter Abbeel,Igor Mordatch
4+阅读 · 2018年1月16日
Top