我们研究离线元强化学习,这是一种实用的强化学习范式,从离线数据中学习以适应新的任务。离线数据的分布由行为策略和任务共同决定。现有的离线元强化学习算法无法区分这些因素,导致任务表示对行为策略的变化不稳定。为了解决这个问题,我们提出了一个任务表示的对比学习框架,该框架对训练和测试中的行为策略分布不匹配具有鲁棒性。我们设计了一个双层编码器结构,使用互信息最大化来形式化任务表示学习,导出了一个对比学习目标,并引入了几种方法来近似负对的真实分布。在各种离线元强化学习基准上的实验表明,我们的方法比以前的方法更有优势,特别是在泛化到非分布行为策略上。代码可以在https://github.com/PKU-AI-Edge/CORRO上找到。

成为VIP会员查看完整内容
16

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】基于元语义正则化的介入性对比学习
专知会员服务
20+阅读 · 2022年7月1日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
专知会员服务
26+阅读 · 2021年5月24日
【KDD2022】自监督超图Transformer推荐系统
专知
1+阅读 · 2022年8月1日
多视图多行为对比学习推荐系统
机器学习与推荐算法
4+阅读 · 2022年3月23日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年8月12日
Max-Margin Contrastive Learning
Arxiv
17+阅读 · 2021年12月21日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关VIP内容
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ICML2022】基于元语义正则化的介入性对比学习
专知会员服务
20+阅读 · 2022年7月1日
【ICML2022】Transformer是元强化学习器
专知会员服务
50+阅读 · 2022年6月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
34+阅读 · 2022年5月21日
【ICML2022】MetAug:通过元特征增强的对比学习
专知会员服务
24+阅读 · 2022年5月20日
专知会员服务
26+阅读 · 2021年5月24日
相关资讯
【KDD2022】自监督超图Transformer推荐系统
专知
1+阅读 · 2022年8月1日
多视图多行为对比学习推荐系统
机器学习与推荐算法
4+阅读 · 2022年3月23日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员