深度强化学习(DRL)智能体通常对其训练环境中看不到的视觉变化敏感。为了解决这个问题,我们利用RL的顺序特性来学习稳健的表示,这种表示只编码来自基于无监督多视图设置的观察的任务相关信息。具体地说,我们为时间数据引入了一个新的多视图信息瓶颈(MIB)目标的对比版本。我们用这个辅助目标从像素训练RL智能体来学习鲁棒的表示,它可以压缩与任务无关的信息,并可以预测与任务相关的动态。这种方法使我们能够训练出高性能的策略,这些策略能够抵御视觉干扰,并能够很好地推广到看不见的环境中。我们证明,当背景被自然视频取代时,我们的方法可以在DeepMind控制套件中不同的视觉控制任务集上实现SOTA性能。此外,我们还展示了在Procgen基准测试中,我们的方法优于已建立的基线,可以泛化到看不见的环境。我们的代码是开源的,可以在https://github上找到。com/BU-DEPEND-Lab/DRIBO。

成为VIP会员查看完整内容
14

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
50+阅读 · 2021年5月19日
基于模型的强化学习综述
专知
17+阅读 · 2022年7月13日
综述| 当图神经网络遇上强化学习
图与推荐
19+阅读 · 2022年7月1日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月2日
已删除
Arxiv
31+阅读 · 2020年3月23日
Arxiv
14+阅读 · 2019年9月11日
VIP会员
相关VIP内容
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】基于树的集合的鲁棒反事实解释
专知会员服务
14+阅读 · 2022年7月7日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
50+阅读 · 2021年5月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员