持续强化学习(CRL)指的是在一个自然的环境中,智能体需要通过不断地试错来解决顺序呈现的多个任务。CRL 面临的最大挑战之一是,当智能体学习新任务时,可能会忘记如何解决先前的任务,这种现象被称为灾难性遗忘。本文提出通过在线世界模型进行规划来应对这一挑战。具体而言,我们在线学习一个“跟随领导者”(Follow-The-Leader,FTL)浅层模型,以捕捉世界动态,在此基础上使用模型预测控制(MPC)进行规划,解决由任何奖励函数指定的一组任务。在线世界模型通过结构上的设计来防止遗忘,在温和假设下,具有 O(√K²D log(T)) 的已证明遗憾界限。该规划器仅根据最新的在线模型搜索动作,从而形成一个增量更新的 FTL 在线智能体(OA)。为了评估 OA,我们进一步设计了一个名为“持续基准”(Continual Bench)的环境专门用于 CRL,并在相同的模型规划算法框架下与几种强大的基准方法进行了比较。实验证明,OA 能够持续学习并解决新任务,同时不忘记旧技能,且优于基于深度世界模型和各种持续学习技术构建的智能体。

成为VIP会员查看完整内容
19

相关内容

【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
【CVPR2023】基于多标签证据学习的开放集行为识别
专知会员服务
27+阅读 · 2023年3月24日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
Arxiv
180+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
【CVPR2023】基于多标签证据学习的开放集行为识别
专知会员服务
27+阅读 · 2023年3月24日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
相关论文
微信扫码咨询专知VIP会员