在强化学习(RL)中的一个流行观点将问题视为在马尔可夫决策过程(MDP)的图形模型上进行概率推理。研究的核心对象是在最优策略下访问每个状态-动作对的概率。以前对这一数量的近似方法可能会相当差,导致算法没有实现真正的统计推理,因此在挑战性问题中表现不佳。在这项工作中,我们对状态-动作最优性的后验概率进行了严格的贝叶斯处理,并阐明了它如何在MDP中流动。我们首先揭示了这一数量确实可以用来生成有效探索的策略,以遗憾为度量。不幸的是,计算它是不可行的,因此我们推导出一个新的变分贝叶斯近似,得出一个可行的凸优化问题,并证明由此产生的策略也能有效探索。我们称我们的方法为VAPOR,并展示它与汤普森采样、K学习和最大熵探索有着紧密的联系。我们以一些实验作为结尾,展示了VAPOR的深度强化学习版本的性能优势。

成为VIP会员查看完整内容
27

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
29+阅读 · 2022年10月17日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月14日
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【CIKM2023】利用知识和强化学习提升语言模型的可靠性
专知会员服务
46+阅读 · 2023年9月20日
【COLING2022教程】自然语言处理的不确定性估计教程
专知会员服务
29+阅读 · 2022年10月17日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
38+阅读 · 2021年5月16日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 1月14日
Arxiv
153+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员