持续强化学习(CRL)指的是在一个自然的环境中,智能体需要通过不断地试错来解决顺序呈现的多个任务。CRL 面临的最大挑战之一是,当智能体学习新任务时,可能会忘记如何解决先前的任务,这种现象被称为灾难性遗忘。本文提出通过在线世界模型进行规划来应对这一挑战。具体而言,我们在线学习一个“跟随领导者”(Follow-The-Leader,FTL)浅层模型,以捕捉世界动态,在此基础上使用模型预测控制(MPC)进行规划,解决由任何奖励函数指定的一组任务。在线世界模型通过结构上的设计来防止遗忘,在温和假设下,具有 O(√K²D log(T)) 的已证明遗憾界限。该规划器仅根据最新的在线模型搜索动作,从而形成一个增量更新的 FTL 在线智能体(OA)。为了评估 OA,我们进一步设计了一个名为“持续基准”(Continual Bench)的环境专门用于 CRL,并在相同的模型规划算法框架下与几种强大的基准方法进行了比较。实验证明,OA 能够持续学习并解决新任务,同时不忘记旧技能,且优于基于深度世界模型和各种持续学习技术构建的智能体。

成为VIP会员查看完整内容
1

相关内容

【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
【CVPR2023】基于多标签证据学习的开放集行为识别
专知会员服务
27+阅读 · 2023年3月24日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【NeurIPS2022】持续强化学习中的解纠缠迁移
专知会员服务
27+阅读 · 2022年10月3日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
基于模型的强化学习综述
专知
41+阅读 · 2022年7月13日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
171+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
【CVPR2023】基于多标签证据学习的开放集行为识别
专知会员服务
27+阅读 · 2023年3月24日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【NeurIPS2022】持续强化学习中的解纠缠迁移
专知会员服务
27+阅读 · 2022年10月3日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
23+阅读 · 2022年7月29日
相关资讯
基于模型的强化学习综述
专知
41+阅读 · 2022年7月13日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
AAAI 2019 | 基于分层强化学习的关系抽取
PaperWeekly
20+阅读 · 2019年3月27日
相关基金
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员