【ICML2022】Transformer是元强化学习器 - 专知VIP

会员服务 ·

21

Transformer · ICML 2022 · 元强化学习 ·

2022 年 6 月 15 日

【ICML2022】Transformer是元强化学习器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，Transformer架构和变体在许多机器学习任务中取得了显著的成功。这种成功本质上与处理长序列的能力以及注意力机制中上下文相关的权重的存在有关。我们认为这些能力符合元强化学习算法的核心作用。事实上，元强化学习代理需要从一系列轨迹推断任务。此外，它需要一个快速适应策略来适应新的任务，这可以通过使用自我注意机制来实现。在这项工作中，我们提出了TrMRL(transformer 元强化学习)，一个元强化学习l代理，模仿记忆恢复机制使用transformer 架构。它将最近过去的工作记忆联系起来，递归地通过transformer层建立情景记忆。我们展示了自注意力计算出一种共识表示，在每一层将贝叶斯风险降到最低，并提供了有意义的特征来计算最佳行动。我们在运动和灵巧操作的高维连续控制环境中进行了实验。结果表明，在这些环境中，与基线相比，TrMRL具有可比或更好的渐近性能、样本效率和分布外泛化。

https://www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

成为VIP会员查看完整内容

56

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

【ICML2021】REPAINT:深度强化学习中的知识迁移

专知会员服务

23+阅读 · 2021年9月5日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知

0+阅读 · 2022年7月8日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知

3+阅读 · 2021年12月6日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

替代离线RL？Transformer进军决策领域，「序列建模」成关键

替代离线RL？Transformer进军决策领域，「序列建模」成关键

机器之心

3+阅读 · 2021年8月7日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

褐藻硫酸化甘露葡萄糖醛酸寡糖的构效关系与抗帕金森病机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

AEG-1 siRNA和阿霉素共传递抑制骨肉瘤生长和转移作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于逻辑进程范型的空间随机仿真并行化研究

国家自然科学基金

1+阅读 · 2013年12月31日

顺铂介导的DNA损伤反应在膀胱癌肿瘤干细胞样细胞中耐药的作用机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

最优量子克隆中的信息分配关系研究

国家自然科学基金

1+阅读 · 2012年12月31日

密度泛函和神经网络组合高效热化学方法

国家自然科学基金

0+阅读 · 2012年12月31日

复Bott流形的上同调刚性问题

国家自然科学基金

0+阅读 · 2012年12月31日

化疗药和中药与转铁蛋白纳米载体的设计及逆转白血病耐药的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

多智能体量子进化模型研究

国家自然科学基金

3+阅读 · 2009年12月31日

基于服务效用最大化的ICT管理模型、算法和机制

国家自然科学基金

0+阅读 · 2009年12月31日

DA$^2$ Dataset: Toward Dexterity-Aware Dual-Arm Grasping

Arxiv

0+阅读 · 2022年7月31日

Robust Contact State Estimation in Humanoid Walking Gaits

Arxiv

0+阅读 · 2022年7月30日

A Reinforcement Learning Approach to Sensing Design in Resource-Constrained Wireless Networked Control Systems

Arxiv

0+阅读 · 2022年7月30日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

VIP会员

相关主题

元强化学习

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

【ICML2022】CtrlFormer: 通过Transformer学习视觉控制的可迁移状态表示

专知会员服务

16+阅读 · 2022年6月21日

【CMU博士论文】通过记忆的元强化学习

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

【ICML2021】REPAINT:深度强化学习中的知识迁移

专知会员服务

23+阅读 · 2021年9月5日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知

0+阅读 · 2022年7月8日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知

3+阅读 · 2021年12月6日

【ICML2021】基于观察的跨域模仿学习

【ICML2021】基于观察的跨域模仿学习

专知

2+阅读 · 2021年8月30日

替代离线RL？Transformer进军决策领域，「序列建模」成关键

替代离线RL？Transformer进军决策领域，「序列建模」成关键

机器之心

3+阅读 · 2021年8月7日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

相关基金

褐藻硫酸化甘露葡萄糖醛酸寡糖的构效关系与抗帕金森病机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

AEG-1 siRNA和阿霉素共传递抑制骨肉瘤生长和转移作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于逻辑进程范型的空间随机仿真并行化研究

国家自然科学基金

1+阅读 · 2013年12月31日

顺铂介导的DNA损伤反应在膀胱癌肿瘤干细胞样细胞中耐药的作用机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

最优量子克隆中的信息分配关系研究

国家自然科学基金

1+阅读 · 2012年12月31日

密度泛函和神经网络组合高效热化学方法

国家自然科学基金

0+阅读 · 2012年12月31日

复Bott流形的上同调刚性问题

国家自然科学基金

0+阅读 · 2012年12月31日

化疗药和中药与转铁蛋白纳米载体的设计及逆转白血病耐药的机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

多智能体量子进化模型研究

国家自然科学基金

3+阅读 · 2009年12月31日

基于服务效用最大化的ICT管理模型、算法和机制

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

DA$^2$ Dataset: Toward Dexterity-Aware Dual-Arm Grasping

Arxiv

0+阅读 · 2022年7月31日

Robust Contact State Estimation in Humanoid Walking Gaits

Arxiv

0+阅读 · 2022年7月30日

A Reinforcement Learning Approach to Sensing Design in Resource-Constrained Wireless Networked Control Systems

Arxiv

0+阅读 · 2022年7月30日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

微信扫码咨询专知VIP会员