【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习 - 专知

会员服务 ·

0

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

2022 年 8 月 13 日 专知

深度强化学习(DRL)智能体通常对其训练环境中看不到的视觉变化敏感。为了解决这个问题，我们利用RL的顺序特性来学习稳健的表示，这种表示只编码来自基于无监督多视图设置的观察的任务相关信息。具体地说，我们为时间数据引入了一个新的多视图信息瓶颈(MIB)目标的对比版本。我们用这个辅助目标从像素训练RL智能体来学习鲁棒的表示，它可以压缩与任务无关的信息，并可以预测与任务相关的动态。这种方法使我们能够训练出高性能的策略，这些策略能够抵御视觉干扰，并能够很好地推广到看不见的环境中。我们证明，当背景被自然视频取代时，我们的方法可以在DeepMind控制套件中不同的视觉控制任务集上实现SOTA性能。此外，我们还展示了在Procgen基准测试中，我们的方法优于已建立的基线，可以泛化到看不见的环境。我们的代码是开源的，可以在https://github上找到。com/BU-DEPEND-Lab/DRIBO。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DRIBO” 就可以获取《【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

多视图

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】基于共享表示的个性化联邦学习

专知会员服务

15+阅读 · 2021年7月21日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知

1+阅读 · 2022年6月10日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知

0+阅读 · 2022年6月4日

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

专知

1+阅读 · 2022年3月30日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

基于图像的燃烧火焰物理参数重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于梯度域计算模型的彩色图像去运动模糊与特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多核一类SVM学习的视频总结算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多Agent的混杂交互传感器网络的群集扩散同步及优势聚集效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

HyperTuning: Toward Adapting Large Language Models without Back-propagation

Arxiv

0+阅读 · 2022年11月22日

Semantic Image Synthesis via Diffusion Models

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月21日

Task Residual for Tuning Vision-Language Models

Arxiv

0+阅读 · 2022年11月18日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Multi-Domain Multi-Task Rehearsal for Lifelong Learning

Multi-Domain Multi-Task Rehearsal for Lifelong Learning

Arxiv

12+阅读 · 2020年12月14日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

相关主题

图信息瓶颈

深度强化学习

相关VIP内容

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】基于共享表示的个性化联邦学习

专知会员服务

15+阅读 · 2021年7月21日

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【NeurIPS2022】分布式自适应元强化学习

【NeurIPS2022】分布式自适应元强化学习

专知

3+阅读 · 2022年10月8日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知

2+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习

专知

1+阅读 · 2022年6月10日

【伯克利博士论文】机器人机械搜索的操作与感知策略

【伯克利博士论文】机器人机械搜索的操作与感知策略

专知

0+阅读 · 2022年6月4日

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

专知

1+阅读 · 2022年3月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

基于图像的燃烧火焰物理参数重建研究

国家自然科学基金

0+阅读 · 2013年12月31日

近似最优径向基函数插值的理论与算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于梯度域计算模型的彩色图像去运动模糊与特征提取方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于多核一类SVM学习的视频总结算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于多Agent的混杂交互传感器网络的群集扩散同步及优势聚集效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

HyperTuning: Toward Adapting Large Language Models without Back-propagation

Arxiv

0+阅读 · 2022年11月22日

Semantic Image Synthesis via Diffusion Models

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月21日

Task Residual for Tuning Vision-Language Models

Arxiv

0+阅读 · 2022年11月18日

K-Net: Towards Unified Image Segmentation

Arxiv

12+阅读 · 2021年11月1日

Temporal Relational Modeling with Self-Supervision for Action Segmentation

Arxiv

13+阅读 · 2020年12月14日

Multi-Domain Multi-Task Rehearsal for Lifelong Learning

Multi-Domain Multi-Task Rehearsal for Lifelong Learning

Arxiv

12+阅读 · 2020年12月14日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Embedding Uncertain Knowledge Graphs

Arxiv

12+阅读 · 2019年2月26日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

大家都在搜

国防科技创新

CMU博士论文

无人机集群

软件无线电

久别重逢话双塔

再见，TD-SCDMA！

微信扫码咨询专知VIP会员