深度强化学习(RL)方法的扩展提出了一个显著的挑战。随着生成模型的发展,基于模型的RL成为一个有力的竞争者。最近在序列建模方面的进展带来了有效的基于Transformer的世界模型,尽管这些模型由于需要长序列的标记来准确模拟环境而导致计算量巨大。在这项工作中,我们提出了∆-IRIS,这是一种具有世界模型架构的新型智能体,该架构由一个离散自动编码器组成,该编码器对时间步之间的随机变化进行编码,以及一个自回归Transformer,该Transformer通过用连续标记总结当前世界状态来预测未来的变化。在Crafter基准测试中,∆-IRIS在多个帧预算中设立了新的状态标准,同时其训练速度比之前的基于注意力的方法快一个数量级。我们在https://github.com/vmicheli/delta-iris上发布了我们的代码和模型。

成为VIP会员查看完整内容
13

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
28+阅读 · 2月17日
【NeurIPS2023】大型预训练模型的等变自适应
专知会员服务
30+阅读 · 2023年10月4日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
33+阅读 · 2022年8月1日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
21+阅读 · 2021年9月27日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
专知会员服务
34+阅读 · 2020年11月29日
时空数据挖掘:综述
专知
22+阅读 · 2022年6月30日
最新《图嵌入组合优化》综述论文,40页pdf
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
144+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
353+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
28+阅读 · 2月17日
【NeurIPS2023】大型预训练模型的等变自适应
专知会员服务
30+阅读 · 2023年10月4日
【KDD2022】自监督超图Transformer推荐系统
专知会员服务
33+阅读 · 2022年8月1日
【CVPR2022】多视图聚合的大规模三维语义分割
专知会员服务
20+阅读 · 2022年4月20日
专知会员服务
21+阅读 · 2021年9月27日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
60+阅读 · 2021年4月21日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
专知会员服务
34+阅读 · 2020年11月29日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员