最近,基于奖励条件的强化学习(RCRL)因其简单性、灵活性和离策略的特性而受到欢迎。然而,我们将展示当前的RCRL方法在根本上存在局限性,并且未能解决RCRL的两个关键挑战——提高对高奖励目标(RTG)输入的泛化能力,并在测试时避免超出分布的RTG查询。为了解决这些挑战,在训练传统的RCRL架构时,我们提出了贝叶斯重参数化RCRL(BR-RCRL),这是一种受贝叶斯定理启发的RCRL归纳偏好的新方法。BR-RCRL消除了阻碍传统RCRL在高RTG输入上泛化的核心障碍——模型将不同的RTG输入视为独立值的倾向,我们将其称为“RTG独立性”。BR-RCRL还允许我们设计一种伴随的自适应推理方法,该方法在避免产生不可预测行为的超出分布查询的同时,最大化总回报。我们展示了BR-RCRL在Gym-Mujoco和Atari离线强化学习基准测试中达到了最先进的性能,相比传统RCRL提高了最多11%。

https://www.zhuanzhi.ai/paper/2b82e5bac3175c985ebe32e778d02808

成为VIP会员查看完整内容
21

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。
【ICML2023】表示驱动强化学习
专知会员服务
37+阅读 · 2023年6月2日
【NeurIPS2022】主动贝叶斯因果推理
专知会员服务
55+阅读 · 2022年11月14日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
119+阅读 · 2022年1月16日
专知会员服务
35+阅读 · 2021年8月17日
专知会员服务
24+阅读 · 2021年6月15日
【NeurIPS2022】主动贝叶斯因果推理
专知
3+阅读 · 2022年11月14日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2022】序列决策的效用理论
专知
1+阅读 · 2022年6月30日
国家自然科学基金
35+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年7月6日
Heckerthoughts
Arxiv
0+阅读 · 2023年7月5日
Arxiv
0+阅读 · 2023年7月5日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
10+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【ICML2023】表示驱动强化学习
专知会员服务
37+阅读 · 2023年6月2日
【NeurIPS2022】主动贝叶斯因果推理
专知会员服务
55+阅读 · 2022年11月14日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知会员服务
119+阅读 · 2022年1月16日
专知会员服务
35+阅读 · 2021年8月17日
专知会员服务
24+阅读 · 2021年6月15日
相关基金
国家自然科学基金
35+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员