在任务不可知的大型数据集上进行预训练是提高强化学习(RL)在解决复杂任务时样本效率的一种有前景的方法。我们提出了一种名为PTGM的新方法,该方法通过预训练基于目标的模型来增强RL,提供时间抽象和行为规范化。PTGM包括预训练一个低级别、以目标为条件的策略,并训练一个高级别策略为后续RL任务生成目标。为了应对高维目标空间所带来的挑战,同时保持智能体完成各种技能的能力,我们提出了在数据集中对目标进行聚类,形成一个离散的高级别动作空间。此外,我们引入了一个预训练的目标先验模型,以规范化RL中高级别策略的行为,提高样本效率和学习稳定性。在机器人仿真环境和具有挑战性的Minecraft开放世界环境中的实验结果表明,与基线相比,PTGM在样本效率和任务性能方面具有优势。此外,PTGM在获取的低级技能的可解释性和泛化性方面展示了增强的效果。

成为VIP会员查看完整内容
30

相关内容

【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
19+阅读 · 2月28日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
31+阅读 · 2023年10月19日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
24+阅读 · 2022年1月11日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
44+阅读 · 2020年3月6日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
130+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
322+阅读 · 2023年3月31日
Arxiv
67+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
19+阅读 · 2月28日
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
31+阅读 · 2023年10月19日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
24+阅读 · 2022年1月11日
专知会员服务
26+阅读 · 2021年5月24日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
专知会员服务
44+阅读 · 2020年3月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员