离线策略学习旨在使用现有的轨迹数据集来学习决策策略,而无需收集额外的数据。使用强化学习(RL)而不是监督学习技术(如行为克隆)的主要动机是找到一个策略,该策略的平均回报高于构成数据集的轨迹。然而,我们经验性地发现,当一个数据集被次优轨迹所支配时,最先进的离线RL算法并没有在数据集中的轨迹平均回报上获得实质性的改进。我们认为这是因为当前的离线RL算法假设要接近数据集中的轨迹。如果数据集主要由次优轨迹组成,这个假设会迫使策略模仿次优动作。我们通过提出一个采样策略来克服这个问题,该策略使策略只受到"好数据"的约束,而不是数据集中的所有动作(即均匀采样)。我们呈现了采样策略的实现和一个算法,该算法可以用作标准离线RL算法中的即插即用模块。我们的评估在72个不平衡数据集、D4RL数据集和三种不同的离线RL算法中显示出显著的性能提升。代码可在https://github.com/Improbable-AI/dw-offline-rl 获取。

成为VIP会员查看完整内容
31

相关内容

【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
15+阅读 · 2022年12月16日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
46+阅读 · 2022年8月17日
专知会员服务
14+阅读 · 2021年9月25日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
24+阅读 · 2021年7月8日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
146+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【AAAI2023】基于Dirichlet元模型的事后不确定性学习
专知会员服务
15+阅读 · 2022年12月16日
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
46+阅读 · 2022年8月17日
专知会员服务
14+阅读 · 2021年9月25日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
24+阅读 · 2021年7月8日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员