近年来,Transformer架构和变体在许多机器学习任务中取得了显著的成功。这种成功本质上与处理长序列的能力以及注意力机制中上下文相关的权重的存在有关。我们认为这些能力符合元强化学习算法的核心作用。事实上,元强化学习代理需要从一系列轨迹推断任务。此外,它需要一个快速适应策略来适应新的任务,这可以通过使用自我注意机制来实现。在这项工作中,我们提出了TrMRL(transformer 元强化学习),一个元强化学习l代理,模仿记忆恢复机制使用transformer 架构。它将最近过去的工作记忆联系起来,递归地通过transformer层建立情景记忆。我们展示了自注意力计算出一种共识表示,在每一层将贝叶斯风险降到最低,并提供了有意义的特征来计算最佳行动。我们在运动和灵巧操作的高维连续控制环境中进行了实验。结果表明,在这些环境中,与基线相比,TrMRL具有可比或更好的渐近性能、样本效率和分布外泛化。

https://www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

成为VIP会员查看完整内容
54

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2022】时序自监督视频transformer
专知会员服务
31+阅读 · 2022年7月28日
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
48+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
54+阅读 · 2021年10月16日
专知会员服务
23+阅读 · 2021年9月5日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
28+阅读 · 2021年5月24日
【ICML2022】时序自监督视频transformer
专知
1+阅读 · 2022年7月28日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
【ICML2022】时序自监督视频transformer
专知会员服务
31+阅读 · 2022年7月28日
【ICML2022】在线决策Transformer
专知会员服务
34+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
37+阅读 · 2022年7月11日
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
20+阅读 · 2022年7月9日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
48+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
54+阅读 · 2021年10月16日
专知会员服务
23+阅读 · 2021年9月5日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
28+阅读 · 2021年5月24日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
15+阅读 · 2022年6月14日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
微信扫码咨询专知VIP会员