题目

深度残差强化学习,Deep Residual Reinforcement Learning

关键字

强化学习,残差算法,机器学习

简介

我们在无模型和基于模型的强化学习设置中重新研究残差算法。 我们建议使用双向目标网络技术来稳定残差算法,从而产生DDPG的残差版本,该版本明显优于DeepMind Control Suite基准测试中的原始DDPG。 此外,我们发现残差算法是解决基于模型的规划中分布不匹配问题的有效方法。 与现有的TD(k)方法相比,我们的基于残差的方法对模型的假设更弱,并且性能提升更大。

作者

Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,来自牛津大学

成为VIP会员查看完整内容
0
49

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

导航是移动机器人所需要的最基本的功能之一,允许它们从一个源穿越到一个目的地。传统的办法严重依赖于预先确定的地图的存在,这种地图的取得时间和劳力都很昂贵。另外,地图在获取时是准确的,而且由于环境的变化会随着时间的推移而退化。我们认为,获取高质量地图的严格要求从根本上限制了机器人系统在动态世界中的可实现性。本论文以无地图导航的范例为动力,以深度强化学习(DRL)的最新发展为灵感,探讨如何开发实用的机器人导航。

DRL的主要问题之一是需要具有数百万次重复试验的不同实验设置。这显然是不可行的,从一个真实的机器人通过试验和错误,所以我们反而从一个模拟的环境学习。这就引出了第一个基本问题,即弥合从模拟环境到真实环境的现实差距,该问题将在第3章讨论。我们把重点放在单眼视觉避障的特殊挑战上,把它作为一个低级的导航原语。我们开发了一种DRL方法,它在模拟世界中训练,但可以很好地推广到现实世界。

在现实世界中限制移动机器人采用DRL技术的另一个问题是训练策略的高度差异。这导致了较差的收敛性和较低的整体回报,由于复杂和高维搜索空间。在第4章中,我们利用简单的经典控制器为DRL的局部导航任务提供指导,避免了纯随机的初始探索。我们证明,这种新的加速方法大大减少了样本方差,并显著增加了可实现的平均回报。

我们考虑的最后一个挑战是无上限导航的稀疏视觉制导。在第五章,我们提出了一种创新的方法来导航基于几个路点图像,而不是传统的基于视频的教学和重复。我们证明,在模拟中学习的策略可以直接转移到现实世界,并有能力很好地概括到不可见的场景与环境的最小描述。

我们开发和测试新的方法,以解决障碍规避、局部引导和全球导航等关键问题,实现我们的愿景,实现实际的机器人导航。我们将展示如何将DRL作为一种强大的无模型方法来处理这些问题

成为VIP会员查看完整内容
0
55

第19届智能体及多智能体系统国际会议(International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS-2020)近日在线举行。智能体及多智能体系统国际会议(AAMAS) 是多智能体系统领域最具影响力的会议之一,由非营利组织IFAAMAS主办。今年,AAMAS-2020共收到808篇论文投稿,录用186篇。

我们回顾了在无模型和基于模型的强化学习设置中的残差算法。我们提出了双向目标网络技术来稳定残差算法,生成一个在DeepMind控制套件基准测试中显著优于普通DDPG的DDPG的残差版本。此外,我们发现残差算法是解决基于模型规划中分布不匹配问题的有效方法。与现有的TD(k)方法相比,我们基于残差的方法对模型的假设更弱,并产生了更大的性能提升。

成为VIP会员查看完整内容
0
36

本文综述了元学习在图像分类、自然语言处理和机器人技术等领域的应用。与深度学习不同,元学习使用较少的样本数据集,并考虑进一步改进模型泛化以获得更高的预测精度。我们将元学习模型归纳为三类: 黑箱适应模型、基于相似度的方法模型和元学习过程模型。最近的应用集中在将元学习与贝叶斯深度学习和强化学习相结合,以提供可行的集成问题解决方案。介绍了元学习方法的性能比较,并讨论了今后的研究方向。

成为VIP会员查看完整内容
0
197

为了适应不同领域的时间序列数据集的多样性,已经开发了大量的深度学习体系结构。本文调查了单步和多水平时间序列预测中常用的编码器和解码器设计——描述了时间信息是如何被每个模型纳入预测的。接下来,我们将重点介绍混合深度学习模型的最新发展,该模型将经过充分研究的统计模型与神经网络组件相结合,以改进这两类中的纯方法。最后,我们概述了一些方法,其中,深度学习也可以促进决策支持与时间序列数据。

成为VIP会员查看完整内容
0
109

We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.6x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency and performance of methods that use state-based features.

0
12
下载
预览

主题: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

摘要: 深度强化学习(DRL)方法在经济学中的应用已成倍增加。 DRL通过从强化学习(RL)和深度学习(DL)的广泛功能来处理复杂的动态业务环境提供了广阔的机遇。 DRL的特点是可伸缩性,它有可能结合经济数据的噪声和非线性模式应用于高维问题。在这项工作中,我们首先考虑对经济学中各种应用中的DL,RL和深层RL方法进行简要回顾,以提供对最新技术水平的深入了解。此外,研究了应用于经济应用的DRL体系结构,以突出其复杂性,鲁棒性,准确性,性能,计算任务,风险约束和获利能力。调查结果表明,与传统算法相比,DRL可以提供更好的性能和更高的精度,同时在存在风险参数和不确定性不断增加的情况下面临实际的经济问题。

成为VIP会员查看完整内容
0
34

论文题目

视频游戏中深度强化学习的研究综述,A Survey of Deep Reinforcement Learning in Video

论文摘要

摘要深度强化学习(DRL)自提出以来取得了很大的成就。通常,DRL代理在每个步骤都接收高维输入,并根据基于深度神经网络的策略进行操作。这种学习机制通过端到端的方法更新策略以最大化回报。本文综述了DRL方法的研究进展,包括基于价值的方法、基于策略梯度的方法和基于模型的方法,比较了它们的主要技术和性能,并指出DRL在智能游戏中的重要作用。我们还回顾了DRL在各种电子游戏中的成就,包括经典的街机游戏、第一人称视角游戏和多智能体实时战略游戏,从2D到3D,从单智能体到多智能体,大量带有DRL的电子游戏AIs都取得了超人的性能,在这个领域还有一些挑战。因此,我们还讨论了将DRL方法应用于该领域的一些关键点,包括探索性开发、样本效率、泛化和迁移、多智能体学习、不完全信息和延迟备用研究,以及一些研究方向。

论文作者

Kun Shao, Zhentao Tang, Yuanheng Zhu,IEEE成员。Nannan Li, Dongbin Zhao,IEEE资深会员。

成为VIP会员查看完整内容
0
27

Deep reinforcement learning suggests the promise of fully automated learning of robotic control policies that directly map sensory inputs to low-level actions. However, applying deep reinforcement learning methods on real-world robots is exceptionally difficult, due both to the sample complexity and, just as importantly, the sensitivity of such methods to hyperparameters. While hyperparameter tuning can be performed in parallel in simulated domains, it is usually impractical to tune hyperparameters directly on real-world robotic platforms, especially legged platforms like quadrupedal robots that can be damaged through extensive trial-and-error learning. In this paper, we develop a stable variant of the soft actor-critic deep reinforcement learning algorithm that requires minimal hyperparameter tuning, while also requiring only a modest number of trials to learn multilayer neural network policies. This algorithm is based on the framework of maximum entropy reinforcement learning, and automatically trades off exploration against exploitation by dynamically and automatically tuning a temperature parameter that determines the stochasticity of the policy. We show that this method achieves state-of-the-art performance on four standard benchmark environments. We then demonstrate that it can be used to learn quadrupedal locomotion gaits on a real-world Minitaur robot, learning to walk from scratch directly in the real world in two hours of training.

0
6
下载
预览

We give an overview of recent exciting achievements of deep reinforcement learning (RL). We discuss six core elements, six important mechanisms, and twelve applications. We start with background of machine learning, deep learning and reinforcement learning. Next we discuss core RL elements, including value function, in particular, Deep Q-Network (DQN), policy, reward, model, planning, and exploration. After that, we discuss important mechanisms for RL, including attention and memory, unsupervised learning, transfer learning, multi-agent RL, hierarchical RL, and learning to learn. Then we discuss various applications of RL, including games, in particular, AlphaGo, robotics, natural language processing, including dialogue systems, machine translation, and text generation, computer vision, neural architecture design, business management, finance, healthcare, Industry 4.0, smart grid, intelligent transportation systems, and computer systems. We mention topics not reviewed yet, and list a collection of RL resources. After presenting a brief summary, we close with discussions. Please see Deep Reinforcement Learning, arXiv:1810.06339, for a significant update.

0
12
下载
预览

We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability of conventional approaches through structured perception and relational reasoning. It uses self-attention to iteratively reason about the relations between entities in a scene and to guide a model-free policy. Our results show that in a novel navigation and planning task called Box-World, our agent finds interpretable solutions that improve upon baselines in terms of sample complexity, ability to generalize to more complex scenes than experienced during training, and overall performance. In the StarCraft II Learning Environment, our agent achieves state-of-the-art performance on six mini-games -- surpassing human grandmaster performance on four. By considering architectural inductive biases, our work opens new directions for overcoming important, but stubborn, challenges in deep RL.

0
6
下载
预览
小贴士
相关VIP内容
专知会员服务
197+阅读 · 2020年5月8日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
28+阅读 · 2019年10月17日
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
31+阅读 · 2019年10月13日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
27+阅读 · 2019年7月28日
RL 真经
CreateAMind
4+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
9+阅读 · 2018年4月27日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
5+阅读 · 2017年11月4日
强化学习族谱
CreateAMind
11+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
12+阅读 · 2020年4月28日
Fréderic Godin,Anjishnu Kumar,Arpit Mittal
3+阅读 · 2019年2月26日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
6+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
Mohammadhosein Hasanbeig,Alessandro Abate,Daniel Kroening
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Yuxi Li
12+阅读 · 2018年11月26日
Haoyu Wang,Vivek Kulkarni,William Yang Wang
6+阅读 · 2018年10月31日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
6+阅读 · 2018年6月28日
A Multi-Objective Deep Reinforcement Learning Framework
Thanh Thi Nguyen
9+阅读 · 2018年6月27日
Ju Dai,Pingping Zhang,Huchuan Lu,Hongyu Wang
5+阅读 · 2018年2月22日
Wenhan Xiong,Thien Hoang,William Yang Wang
18+阅读 · 2018年1月8日
Top