【ICML2023】面向决策Transformer的未来条件无监督预训练 - 专知VIP

会员服务 ·

21

ICML 2023 · Transformer · 无监督预训练 · 强化学习 ·

2023 年 5 月 30 日

【ICML2023】面向决策Transformer的未来条件无监督预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近期在离线强化学习（RL）的研究中，我们发现基于回报的监督学习是解决决策问题的强大范式。然而，尽管有前景，但基于回报的方法仅限于使用标注有奖励的训练数据，因此在从无监督数据中学习时面临挑战。在这项工作中，我们旨在利用泛化的未来条件，以实现从无奖励和次优离线数据中进行有效的无监督预训练。我们提出了预训练决策变换器（PDT），这是一种在概念上简单的无监督RL预训练方法。PDT利用未来轨迹信息作为特权上下文在训练期间预测动作。能够根据当前和未来因素做出决策，增强了PDT的泛化能力。此外，这个特性可以很容易地融入到基于回报的框架中进行在线微调，通过为可能的未来分配回报值并根据各自的值采样未来嵌入。从实证上看，PDT的表现优于或与其监督预训练的对手相当，特别是在处理次优数据时。进一步分析表明，PDT能够从离线数据中提取出多样的行为，并通过在线微调可控地采样高回报行为。代码可在此处获取。

https://arxiv.org/abs/2305.16683

成为VIP会员查看完整内容

44

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

【ICML2023】基于最优多任务插值的多模态基础模型迁移

【ICML2023】基于最优多任务插值的多模态基础模型迁移

专知会员服务

31+阅读 · 2023年4月29日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

17+阅读 · 2021年2月24日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

机器之心

6+阅读 · 2022年11月13日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知

5+阅读 · 2022年11月9日

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

极市平台

2+阅读 · 2022年11月3日

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

机器之心

1+阅读 · 2022年10月28日

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

图与推荐

0+阅读 · 2022年7月28日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

基于回归的视角转换框架下的多视角行人步态识别

国家自然科学基金

2+阅读 · 2014年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

主题模型建模框架下的高分辨率遥感影像半监督分类研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

大数据环境下稀疏主题模型理论及其应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向认知物联网的自主认知与智慧决策机制研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

深空探测器高精度自主导航技术

国家自然科学基金

0+阅读 · 2011年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-training

Arxiv

0+阅读 · 2023年7月17日

Edit Distance based RL for RNNT decoding

Edit Distance based RL for RNNT decoding

Arxiv

0+阅读 · 2023年7月14日

Learn from Incomplete Tactile Data: Tactile Representation Learning with Masked Autoencoders

Arxiv

0+阅读 · 2023年7月14日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

A Survey on Green Deep Learning

Arxiv

10+阅读 · 2021年11月10日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

VIP会员

相关主题

无监督预训练

相关VIP内容

【ICML2023】改善自监督Vision Transformers的视觉提示调优

【ICML2023】改善自监督Vision Transformers的视觉提示调优

专知会员服务

36+阅读 · 2023年6月12日

【ICML2023】基于最优多任务插值的多模态基础模型迁移

【ICML2023】基于最优多任务插值的多模态基础模型迁移

专知会员服务

31+阅读 · 2023年4月29日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【ICLR2021】基于返回的对比表示征学习在强化学习中的应用

专知会员服务

17+阅读 · 2021年2月24日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《小型无人机系统侦测追踪技术：声学、计算机视觉与深度学习融合方案》最新98页

《"牧羊人网格"拦截策略：实现无人机集群可靠拦截的新范式》

光纤无人机：反无人机系统的重大挑战

《作战建模与仿真实证研究》

相关资讯

系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

机器之心

6+阅读 · 2022年11月13日

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知

5+阅读 · 2022年11月9日

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

极市平台

2+阅读 · 2022年11月3日

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

机器之心

1+阅读 · 2022年10月28日

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

图与推荐

0+阅读 · 2022年7月28日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

对比自监督学习

对比自监督学习

深度学习自然语言处理

34+阅读 · 2020年7月15日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

机器之心

12+阅读 · 2019年11月15日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

相关基金

基于回归的视角转换框架下的多视角行人步态识别

国家自然科学基金

2+阅读 · 2014年12月31日

深度属性特征学习及其应用研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

主题模型建模框架下的高分辨率遥感影像半监督分类研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于主题模型的枢轴语言统计机器翻译研究

国家自然科学基金

0+阅读 · 2013年12月31日

大数据环境下稀疏主题模型理论及其应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向认知物联网的自主认知与智慧决策机制研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

深空探测器高精度自主导航技术

国家自然科学基金

0+阅读 · 2011年12月31日

弱监督在线学习方法及其在视觉目标跟踪中的应用

国家自然科学基金

4+阅读 · 2011年12月31日

相关论文

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-training

Arxiv

0+阅读 · 2023年7月17日

Edit Distance based RL for RNNT decoding

Edit Distance based RL for RNNT decoding

Arxiv

0+阅读 · 2023年7月14日

Learn from Incomplete Tactile Data: Tactile Representation Learning with Masked Autoencoders

Arxiv

0+阅读 · 2023年7月14日

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond

Arxiv

10+阅读 · 2022年7月30日

Max-Margin Contrastive Learning

Max-Margin Contrastive Learning

Arxiv

18+阅读 · 2021年12月21日

A Survey on Green Deep Learning

Arxiv

10+阅读 · 2021年11月10日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Deep Face Recognition: A Survey

Deep Face Recognition: A Survey

Arxiv

18+阅读 · 2019年2月12日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

微信扫码咨询专知VIP会员