Supervised imitation-based approaches are often favored over off-policy reinforcement learning approaches for learning policies offline, since their straightforward optimization objective makes them computationally efficient and stable to train. However, their performance is fundamentally limited by the behavior policy that collected the dataset. Off-policy reinforcement learning provides a promising approach for improving on the behavior policy, but training is often computationally inefficient and unstable due to temporal-difference bootstrapping. In this paper, we propose a best-of-both approach by pre-training with supervised learning before improving performance with off-policy reinforcement learning. Specifically, we demonstrate improved efficiency by pre-training an actor with behavior cloning and a critic with a supervised Monte-Carlo value error. We find that we are able to substantially improve the training time of popular off-policy algorithms on standard benchmarks, and also achieve greater stability. Code is available at: https://github.com/AdamJelley/EfficientOfflineRL


翻译:基于监督模仿的方法在学习离线策略时通常比离策略强化学习方法更受青睐,因为其直接的优化目标使其训练计算高效且稳定。然而,其性能从根本上受到数据收集行为策略的限制。离策略强化学习为改进行为策略提供了一种有前景的途径,但由于时序差分自举,其训练往往计算效率低下且不稳定。本文提出一种结合两者优势的方法:先通过监督学习进行预训练,再利用离策略强化学习提升性能。具体而言,我们通过行为克隆预训练行动者,并通过监督蒙特卡洛价值误差预训练评论家,从而证明了效率的提升。我们发现,该方法能显著缩短主流离策略算法在标准基准测试上的训练时间,并实现更高的稳定性。代码发布于:https://github.com/AdamJelley/EfficientOfflineRL

0
下载
关闭预览

相关内容

【NeurIPS 2023】基于时间注意力的多任务强化学习对比模块
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2025年12月29日
Arxiv
0+阅读 · 2025年12月25日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员