【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示 - 专知VIP

会员服务 ·

8

ICML 2022 · 元强化学习 · 任务表示 · 对比学习 ·

2022 年 6 月 23 日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们研究离线元强化学习，这是一种实用的强化学习范式，从离线数据中学习以适应新的任务。离线数据的分布由行为策略和任务共同决定。现有的离线元强化学习算法无法区分这些因素，导致任务表示对行为策略的变化不稳定。为了解决这个问题，我们提出了一个任务表示的对比学习框架，该框架对训练和测试中的行为策略分布不匹配具有鲁棒性。我们设计了一个双层编码器结构，使用互信息最大化来形式化任务表示学习，导出了一个对比学习目标，并引入了几种方法来近似负对的真实分布。在各种离线元强化学习基准上的实验表明，我们的方法比以前的方法更有优势，特别是在泛化到非分布行为策略上。代码可以在https://github.com/PKU-AI-Edge/CORRO上找到。

成为VIP会员查看完整内容

17

相关内容

ICML 2022

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，也是CCF-A类学术会议。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，录用率为21.94%。

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知会员服务

21+阅读 · 2022年7月1日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知

0+阅读 · 2022年7月1日

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

专知

0+阅读 · 2022年5月28日

多视图多行为对比学习推荐系统

多视图多行为对比学习推荐系统

机器学习与推荐算法

4+阅读 · 2022年3月23日

CODE: 基于对比学习和对抗微调的无监督专家链接框架 | 论文荐读

CODE: 基于对比学习和对抗微调的无监督专家链接框架 | 论文荐读

学术头条

0+阅读 · 2022年3月21日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯模型的鲁棒高光谱解混方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

归纳型安全半监督分类学习及其扩展研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于数据与模型混合驱动的密集人群中特定人脸持续跟踪方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于潜在火环境的森林火险等级遥感评估方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线判别学习的鲁棒视觉跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

非稀疏高维模型的重建和相合统计推断的研究

国家自然科学基金

0+阅读 · 2011年12月31日

A Variational AutoEncoder for Transformers with Nonparametric Variational Information Bottleneck

Arxiv

0+阅读 · 2022年8月12日

Contrastive Learning for OOD in Object detection

Arxiv

0+阅读 · 2022年8月12日

Clustering Optimisation Method for Highly Connected Biological Data

Arxiv

0+阅读 · 2022年8月11日

TSInterpret: A unified framework for time series interpretability

Arxiv

0+阅读 · 2022年8月10日

Semi-Supervised Junction Tree Variational Autoencoder for Molecular Property Prediction

Arxiv

0+阅读 · 2022年8月10日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction

Arxiv

11+阅读 · 2021年9月24日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Explainable Recommender Systems via Resolving Learning Representations

Arxiv

13+阅读 · 2020年8月21日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员

相关主题

元强化学习

相关VIP内容

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知会员服务

21+阅读 · 2022年7月1日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】基于元语义正则化的介入性对比学习

【ICML2022】基于元语义正则化的介入性对比学习

专知

0+阅读 · 2022年7月1日

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

【ICML2022】刻画与克服多模态深度神经网络中的学习贪心特性

专知

0+阅读 · 2022年5月28日

多视图多行为对比学习推荐系统

多视图多行为对比学习推荐系统

机器学习与推荐算法

4+阅读 · 2022年3月23日

CODE: 基于对比学习和对抗微调的无监督专家链接框架 | 论文荐读

CODE: 基于对比学习和对抗微调的无监督专家链接框架 | 论文荐读

学术头条

0+阅读 · 2022年3月21日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

相关基金

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯模型的鲁棒高光谱解混方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

归纳型安全半监督分类学习及其扩展研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于数据与模型混合驱动的密集人群中特定人脸持续跟踪方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于潜在火环境的森林火险等级遥感评估方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

基于在线判别学习的鲁棒视觉跟踪算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

非稀疏高维模型的重建和相合统计推断的研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

A Variational AutoEncoder for Transformers with Nonparametric Variational Information Bottleneck

Arxiv

0+阅读 · 2022年8月12日

Contrastive Learning for OOD in Object detection

Arxiv

0+阅读 · 2022年8月12日

Clustering Optimisation Method for Highly Connected Biological Data

Arxiv

0+阅读 · 2022年8月11日

TSInterpret: A unified framework for time series interpretability

Arxiv

0+阅读 · 2022年8月10日

Semi-Supervised Junction Tree Variational Autoencoder for Molecular Property Prediction

Arxiv

0+阅读 · 2022年8月10日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

GeomGCL: Geometric Graph Contrastive Learning for Molecular Property Prediction

Arxiv

11+阅读 · 2021年9月24日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Explainable Recommender Systems via Resolving Learning Representations

Arxiv

13+阅读 · 2020年8月21日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

微信扫码咨询专知VIP会员