导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
55

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

题目: Online Deep Clustering for Unsupervised Representation Learning

摘要:

联合聚类和特征学习方法在无监督表示学习中表现出了显著的效果。但是,特征聚类和网络参数更新训练计划的交替导致视觉表征学习的不稳定。为了克服这个挑战,我们提出在线深度集群(ODC),它可以同时执行集群和网络更新,而不是交替进行。关键见解是,聚类中心应该稳步发展,以保持分类器的稳定更新。具体来说,设计和维护了两个动态内存模块,即样本记忆用于存储样本标签和特征,中心记忆用于中心进化。我们将全局聚类分解为稳定的内存更新和成批的标签重新分配。该过程被集成到网络更新迭代中。通过这种方式,标签和网络齐头并进,而不是交替发展。大量的实验表明,ODC能够稳定训练过程,有效地提高训练性能。

成为VIP会员查看完整内容
0
50

题目: A Game Theoretic Framework for Model Based Reinforcement Learning

摘要: 基于模型的强化学习(MBRL)最近获得了极大的兴趣,因为它具有潜在的样本效率和合并非策略数据的能力。然而,使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。为了从抽象的角度揭示MBRL的实际挑战并简化算法设计,我们开发了一个新的框架,将MBRL描述为:(1)一个策略参与者,它试图在学习模型下最大化回报;(2)一个模型player,它试图与策略player收集的真实数据相匹配。在算法开发方面,我们构造了一个双方参与的Stackelberg博弈,并证明了它可以用近似的双层优化来解决。这就产生了两种自然的MBRL算法,基于这两种算法,玩家被选择为Stackelberg游戏的领导者。它们一起封装、统一和泛化了许多以前的MBRL算法。此外,我们的框架是一致的,并提供了一个明确的基础启发式已知是重要的实践,从以往的工作。最后,通过实验验证了所提出的算法具有较高的样本效率,匹配无模型策略梯度的渐近性能,并能扩展到灵巧手操作等高维任务。

成为VIP会员查看完整内容
0
70

主题: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

摘要: 深度强化学习(DRL)方法在经济学中的应用已成倍增加。 DRL通过从强化学习(RL)和深度学习(DL)的广泛功能来处理复杂的动态业务环境提供了广阔的机遇。 DRL的特点是可伸缩性,它有可能结合经济数据的噪声和非线性模式应用于高维问题。在这项工作中,我们首先考虑对经济学中各种应用中的DL,RL和深层RL方法进行简要回顾,以提供对最新技术水平的深入了解。此外,研究了应用于经济应用的DRL体系结构,以突出其复杂性,鲁棒性,准确性,性能,计算任务,风险约束和获利能力。调查结果表明,与传统算法相比,DRL可以提供更好的性能和更高的精度,同时在存在风险参数和不确定性不断增加的情况下面临实际的经济问题。

成为VIP会员查看完整内容
0
34

题目

深度残差强化学习,Deep Residual Reinforcement Learning

关键字

强化学习,残差算法,机器学习

简介

我们在无模型和基于模型的强化学习设置中重新研究残差算法。 我们建议使用双向目标网络技术来稳定残差算法,从而产生DDPG的残差版本,该版本明显优于DeepMind Control Suite基准测试中的原始DDPG。 此外,我们发现残差算法是解决基于模型的规划中分布不匹配问题的有效方法。 与现有的TD(k)方法相比,我们的基于残差的方法对模型的假设更弱,并且性能提升更大。

作者

Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,来自牛津大学

成为VIP会员查看完整内容
0
49

医疗机器人已经证明了操作经皮器械进入软组织解剖的能力,同时工作超越人类感知和灵活性的极限。机器人技术进一步提供了在资源有限的情况下以最少的监督完成关键任务的自主性。在这里,我们提出了一种便携式机器人设备,能够将针头和导管引入可变形的组织,如血管,以自主地抽血或输送液体。机器人插管是由一系列深度卷积神经网络的预测驱动的,这些神经网络从多模态图像序列中编码时空信息来指导实时伺服。通过对志愿者的成像和机器人跟踪研究,我们证明了该设备在存在解剖变异和运动的情况下,对周围血管进行分割、分类、定位和跟踪的能力。然后,我们评估了机器人在幻肢和动物模型中难以获得血管的性能,并表明,与训练有素的操作员手工插管相比,该设备可以提高成功率和操作时间,特别是在具有挑战性的生理条件下。这些结果表明,自主系统有可能在复杂的视觉运动任务上超越人类,并展示了将这些能力转化为临床应用的一个步骤。

成为VIP会员查看完整内容
0
12

题目: Gradient Surgery for Multi-Task Learning

摘要: 虽然深度学习和深度强化学习(RL)系统在图像分类、游戏和机器人控制等领域取得了令人印象深刻的成果,但数据效率仍然是一个重大挑战。多任务学习是一种很有前途的跨任务共享结构的学习方法。然而,多任务设置带来了许多优化挑战,与独立学习任务相比,很难实现大的效率提升。与单任务学习相比,多任务学习之所以具有如此大的挑战性,其原因还不完全清楚。在这项工作中,我们确定了多任务优化环境中导致有害梯度干扰的三个条件,并开发了一种简单而通用的方法来避免任务梯度之间的这种干扰。我们提出一种梯度手术的形式,将一个任务的梯度投影到任何其他具有冲突梯度的任务的梯度的法平面上。在一系列具有挑战性的多任务监督和多任务RL问题上,该方法在效率和性能上都有显著提高。此外,它与模型无关,可以与先前提出的多任务体系结构相结合以提高性能。

作者简介: Tianhe Yu,加州大学伯克利分校研究助理。官方主页:https://tianheyu927.github.io/

成为VIP会员查看完整内容
0
36

论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

成为VIP会员查看完整内容
0
35

主题: Deep Reinforcement Learning with Applications in Transportation

简介: 交通运输,特别是移动乘车共享领域,存在许多传统上具有挑战性的动态决策问题,这些问题涉及研究文献,而且很容易从人工智能(AI)中受益匪浅。一些核心示例包括在线乘车指令调度,该系统将可用的驾驶员与乘车共享平台上的出行请求乘客实时匹配;路线规划,用于规划行程起点和终点之间的最佳路线;交通信号控制,可动态自适应地调整区域内的交通信号以实现低延迟。所有这些问题都有一个共同的特征,即在我们关注某个范围内的一些累积目标时,要做出一系列决定。强化学习(RL)是一种机器学习范例,可训练代理通过与之交互并获取反馈信号来学习在环境中采取最佳行动(以所获得的总累积奖励衡量)。因此,它是用于解决顺序决策问题的一类优化方法。得益于深度学习研究和计算能力的飞速发展,深度神经网络和RL的集成为解决复杂的大规模学习问题在RL中产生了爆炸性的进展,近年来引起了巨大的兴趣。深度学习和RL的结合甚至被认为是通往真正AI的道路。它具有巨大的潜力,以前所未有的方式解决运输中的一些难题。

目录简介:

  • Part I: 介绍:机器学习与强化学习
  • Part II: 强化学习基础
  • Part III:基于policy的强化学习
  • Part IV:强化学习框架
成为VIP会员查看完整内容
0
38
小贴士
相关VIP内容
专知会员服务
84+阅读 · 2020年2月8日
专知会员服务
36+阅读 · 2020年1月23日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
31+阅读 · 2019年10月13日
TensorFlow 2.0深度强化学习指南
云栖社区
10+阅读 · 2019年2月1日
DeepMind:用PopArt进行多任务深度强化学习
论智
23+阅读 · 2018年9月14日
浅析强化学习及使用Policy Network实现自动化控制
人工智能学家
4+阅读 · 2017年10月2日
强化学习族谱
CreateAMind
11+阅读 · 2017年8月2日
相关论文
Fréderic Godin,Anjishnu Kumar,Arpit Mittal
5+阅读 · 2019年4月3日
Risk-Aware Active Inverse Reinforcement Learning
Daniel S. Brown,Yuchen Cui,Scott Niekum
4+阅读 · 2019年1月8日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
6+阅读 · 2018年12月26日
Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning
Tom Zahavy,Matan Haroush,Nadav Merlis,Daniel J. Mankowitz,Shie Mannor
4+阅读 · 2018年9月6日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+阅读 · 2018年7月12日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
6+阅读 · 2018年6月28日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
10+阅读 · 2018年4月25日
Sham Kakade,Mengdi Wang,Lin F. Yang
3+阅读 · 2018年4月25日
Tabish Rashid,Mikayel Samvelyan,Christian Schroeder de Witt,Gregory Farquhar,Jakob Foerster,Shimon Whiteson
6+阅读 · 2018年3月30日
Wenhan Xiong,Thien Hoang,William Yang Wang
18+阅读 · 2018年1月8日
Top