【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习 - 专知VIP

会员服务 ·

9

深度强化学习 · 信息瓶颈 · 鲁棒性 · ICML 2022 · DRIBO ·

2022 年 8 月 13 日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

深度强化学习(DRL)智能体通常对其训练环境中看不到的视觉变化敏感。为了解决这个问题，我们利用RL的顺序特性来学习稳健的表示，这种表示只编码来自基于无监督多视图设置的观察的任务相关信息。具体地说，我们为时间数据引入了一个新的多视图信息瓶颈(MIB)目标的对比版本。我们用这个辅助目标从像素训练RL智能体来学习鲁棒的表示，它可以压缩与任务无关的信息，并可以预测与任务相关的动态。这种方法使我们能够训练出高性能的策略，这些策略能够抵御视觉干扰，并能够很好地推广到看不见的环境中。我们证明，当背景被自然视频取代时，我们的方法可以在DeepMind控制套件中不同的视觉控制任务集上实现SOTA性能。此外，我们还展示了在Procgen基准测试中，我们的方法优于已建立的基线，可以泛化到看不见的环境。我们的代码是开源的，可以在https://github上找到。com/BU-DEPEND-Lab/DRIBO。

成为VIP会员查看完整内容

17

相关内容

深度强化学习

深度强化学习

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知

1+阅读 · 2022年5月30日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知

0+阅读 · 2022年1月6日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

元学习(Meta-Learning) 综述及五篇顶会论文推荐

元学习(Meta-Learning) 综述及五篇顶会论文推荐

专知

194+阅读 · 2019年4月14日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于局部不变特征和混合多示例学习的图像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

克服库存不精确的鲁棒集成补货、生产控制及分销策略

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下采用随机化的攻击抑制机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

演化计算原理及其动态多目标优化应用的几个关键问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

公路隧道照明察觉对比设计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向多场景图像自适应的三维人脸建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线判别学习的鲁棒视觉跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于虚拟双源信息融合的车辆跟踪模型及在交通事件检测中的应用

国家自然科学基金

0+阅读 · 2009年12月31日

基于模式源的分类器设计方法与应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

Approximation Algorithms for Min-Distance Problems in DAGs

Arxiv

0+阅读 · 2022年10月4日

OPT-Mimic: Imitation of Optimized Trajectories for Dynamic Quadruped Behaviors

Arxiv

0+阅读 · 2022年10月3日

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient

Arxiv

0+阅读 · 2022年10月3日

Neural Graphical Models

Arxiv

0+阅读 · 2022年10月2日

NTFields: Neural Time Fields for Physics-Informed Robot Motion Planning

Arxiv

0+阅读 · 2022年9月30日

The Role of Time Delay in Sim2real Transfer of Reinforcement Learning for Cyber-Physical Systems

Arxiv

0+阅读 · 2022年9月30日

Contrastive Transformation for Self-supervised Correspondence Learning

Contrastive Transformation for Self-supervised Correspondence Learning

Arxiv

13+阅读 · 2020年12月9日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

已删除

Arxiv

32+阅读 · 2020年3月23日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

VIP会员

相关主题

深度强化学习

相关VIP内容

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

34+阅读 · 2022年7月1日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知

1+阅读 · 2022年5月30日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知

0+阅读 · 2022年1月6日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

元学习(Meta-Learning) 综述及五篇顶会论文推荐

元学习(Meta-Learning) 综述及五篇顶会论文推荐

专知

194+阅读 · 2019年4月14日

相关基金

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于局部不变特征和混合多示例学习的图像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

克服库存不精确的鲁棒集成补货、生产控制及分销策略

国家自然科学基金

0+阅读 · 2012年12月31日

云计算环境下采用随机化的攻击抑制机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

演化计算原理及其动态多目标优化应用的几个关键问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

公路隧道照明察觉对比设计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向多场景图像自适应的三维人脸建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线判别学习的鲁棒视觉跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于虚拟双源信息融合的车辆跟踪模型及在交通事件检测中的应用

国家自然科学基金

0+阅读 · 2009年12月31日

基于模式源的分类器设计方法与应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Approximation Algorithms for Min-Distance Problems in DAGs

Arxiv

0+阅读 · 2022年10月4日

OPT-Mimic: Imitation of Optimized Trajectories for Dynamic Quadruped Behaviors

Arxiv

0+阅读 · 2022年10月3日

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient

Arxiv

0+阅读 · 2022年10月3日

Neural Graphical Models

Arxiv

0+阅读 · 2022年10月2日

NTFields: Neural Time Fields for Physics-Informed Robot Motion Planning

Arxiv

0+阅读 · 2022年9月30日

The Role of Time Delay in Sim2real Transfer of Reinforcement Learning for Cyber-Physical Systems

Arxiv

0+阅读 · 2022年9月30日

Contrastive Transformation for Self-supervised Correspondence Learning

Contrastive Transformation for Self-supervised Correspondence Learning

Arxiv

13+阅读 · 2020年12月9日

Transfer Learning in Deep Reinforcement Learning: A Survey

Transfer Learning in Deep Reinforcement Learning: A Survey

Arxiv

23+阅读 · 2020年9月16日

已删除

Arxiv

32+阅读 · 2020年3月23日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

微信扫码咨询专知VIP会员