【ICML2022】在线决策Transformer - 专知

会员服务 ·

0

【ICML2022】在线决策Transformer

2022 年 7 月 27 日 专知

最近的工作表明，离线强化学习(RL)可以被表述为一个序列建模问题(Chen et al., 2021; Janner et al., 2021)，并通过类似于大规模语言建模的方法解决。然而，RL的任何实际实例还涉及到一个在线组件，其中在被动离线数据集上预训练的策略通过与环境的特定任务交互进行微调。我们提出了在线决策Transformers (ODT)，这是一种基于序列建模的RL算法，在一个统一的框架中融合了离线预训练和在线微调。我们的框架使用序列级熵正则化器与自回归建模目标相结合，用于样本高效的探索和微调。根据经验，我们表明，ODT在D4RL基准测试的绝对性能方面可以与最先进的技术相媲美，但在微调过程中获得的收益要显著得多。

https://www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ODTC” 就可以获取《【ICML2022】在线决策Transformer》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

2

相关内容

在线决策

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2021】使用Transformers编码的计算感知神经架构

专知会员服务

18+阅读 · 2021年9月15日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知

4+阅读 · 2022年8月2日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】XAI for Transformers:通过保守传播更好的解释

【ICML2022】XAI for Transformers:通过保守传播更好的解释

专知

0+阅读 · 2022年7月19日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知

0+阅读 · 2022年6月4日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知

1+阅读 · 2022年5月30日

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

专知

0+阅读 · 2022年5月26日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

微透镜阵列出瞳扩展全色激光扫描显示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能在线虚拟参考反馈整定的控制方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经网络随机学习算法的泛化性研究

国家自然科学基金

2+阅读 · 2013年12月31日

钨青铜结构碱土碱金属铌酸盐铁电陶瓷的A位离子设计、结构分析和电性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

多品种小批量生产模式下基于约束规划的生产调度方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向制造物流联动的生产调度与物料配送协同优化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于性能评估的动态过程建模和控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

考虑消费者有限理性行为的网络零售渠道优化选择与设计

国家自然科学基金

0+阅读 · 2012年12月31日

基于链接权重化的链接预测研究

国家自然科学基金

1+阅读 · 2011年12月31日

Domain Adaptation via Bidirectional Cross-Attention Transformer

Arxiv

0+阅读 · 2022年10月3日

Transformers for Object Detection in Large Point Clouds

Arxiv

0+阅读 · 2022年9月30日

Hierarchical Label-wise Attention Transformer Model for Explainable ICD Coding

Arxiv

0+阅读 · 2022年9月30日

Dilated Neighborhood Attention Transformer

Arxiv

0+阅读 · 2022年9月29日

Few-Shot Object Detection with Fully Cross-Transformer

Arxiv

1+阅读 · 2022年9月29日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

决策Transformer

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2021】使用Transformers编码的计算感知神经架构

专知会员服务

18+阅读 · 2021年9月15日

【ICML2021】蛋白质语言模型-MSA Transformer

专知会员服务

34+阅读 · 2021年8月16日

【ICML2021】随机迭代图匹配

专知会员服务

25+阅读 · 2021年6月8日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知

4+阅读 · 2022年8月2日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】XAI for Transformers:通过保守传播更好的解释

【ICML2022】XAI for Transformers:通过保守传播更好的解释

专知

0+阅读 · 2022年7月19日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

【ICML2022】蛋白质适应度预测与自回归transformers和推理时间检索

专知

0+阅读 · 2022年6月4日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知

1+阅读 · 2022年5月30日

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

专知

0+阅读 · 2022年5月26日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

微透镜阵列出瞳扩展全色激光扫描显示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能在线虚拟参考反馈整定的控制方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

神经网络随机学习算法的泛化性研究

国家自然科学基金

2+阅读 · 2013年12月31日

钨青铜结构碱土碱金属铌酸盐铁电陶瓷的A位离子设计、结构分析和电性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

多品种小批量生产模式下基于约束规划的生产调度方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向制造物流联动的生产调度与物料配送协同优化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于性能评估的动态过程建模和控制方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

考虑消费者有限理性行为的网络零售渠道优化选择与设计

国家自然科学基金

0+阅读 · 2012年12月31日

基于链接权重化的链接预测研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

Domain Adaptation via Bidirectional Cross-Attention Transformer

Arxiv

0+阅读 · 2022年10月3日

Transformers for Object Detection in Large Point Clouds

Arxiv

0+阅读 · 2022年9月30日

Hierarchical Label-wise Attention Transformer Model for Explainable ICD Coding

Arxiv

0+阅读 · 2022年9月30日

Dilated Neighborhood Attention Transformer

Arxiv

0+阅读 · 2022年9月29日

Few-Shot Object Detection with Fully Cross-Transformer

Arxiv

1+阅读 · 2022年9月29日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员