【NeurIPS2023】强化学习中的概率推理：正确的方法 - 专知VIP

会员服务 ·

12

NeurIPS 2023 · 强化学习 · 概率推理 ·

2023 年 11 月 25 日

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在强化学习（RL）中的一个流行观点将问题视为在马尔可夫决策过程（MDP）的图形模型上进行概率推理。研究的核心对象是在最优策略下访问每个状态-动作对的概率。以前对这一数量的近似方法可能会相当差，导致算法没有实现真正的统计推理，因此在挑战性问题中表现不佳。在这项工作中，我们对状态-动作最优性的后验概率进行了严格的贝叶斯处理，并阐明了它如何在MDP中流动。我们首先揭示了这一数量确实可以用来生成有效探索的策略，以遗憾为度量。不幸的是，计算它是不可行的，因此我们推导出一个新的变分贝叶斯近似，得出一个可行的凸优化问题，并证明由此产生的策略也能有效探索。我们称我们的方法为VAPOR，并展示它与汤普森采样、K学习和最大熵探索有着紧密的联系。我们以一些实验作为结尾，展示了VAPOR的深度强化学习版本的性能优势。

成为VIP会员查看完整内容

28

相关内容

NeurIPS 2023

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

处理效应差异中位数的有效估计

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Sequential permutation testing by betting

Arxiv

0+阅读 · 2024年1月14日

Grounded learning for compositional vector semantics

Arxiv

0+阅读 · 2024年1月10日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

VIP会员

相关主题

相关VIP内容

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

【CIKM2023】利用知识和强化学习提升语言模型的可靠性

专知会员服务

47+阅读 · 2023年9月20日

【COLING2022教程】自然语言处理的不确定性估计教程

【COLING2022教程】自然语言处理的不确定性估计教程

专知会员服务

31+阅读 · 2022年10月17日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知会员服务

17+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【ACMMM2021】密集对比视觉语言预训练

专知会员服务

13+阅读 · 2021年10月11日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【ICLR2021】通过多种自监督方式提升GAT中注意力

【ICLR2021】通过多种自监督方式提升GAT中注意力

专知

18+阅读 · 2021年2月27日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

相关基金

处理效应差异中位数的有效估计

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

求解一类大规模稀疏线性矩阵方程的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

5+阅读 · 2014年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下含指标项半参数模型结构的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Sequential permutation testing by betting

Arxiv

0+阅读 · 2024年1月14日

Grounded learning for compositional vector semantics

Arxiv

0+阅读 · 2024年1月10日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

101+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员