【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化 - 专知VIP

会员服务 ·

14

ICML 2023 · 强化学习 ·

2023 年 5 月 23 日

【ICML2023】基于能量模型的奖励条件强化学习的贝叶斯重参数化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近，基于奖励条件的强化学习（RCRL）因其简单性、灵活性和离策略的特性而受到欢迎。然而，我们将展示当前的RCRL方法在根本上存在局限性，并且未能解决RCRL的两个关键挑战——提高对高奖励目标（RTG）输入的泛化能力，并在测试时避免超出分布的RTG查询。为了解决这些挑战，在训练传统的RCRL架构时，我们提出了贝叶斯重参数化RCRL（BR-RCRL），这是一种受贝叶斯定理启发的RCRL归纳偏好的新方法。BR-RCRL消除了阻碍传统RCRL在高RTG输入上泛化的核心障碍——模型将不同的RTG输入视为独立值的倾向，我们将其称为“RTG独立性”。BR-RCRL还允许我们设计一种伴随的自适应推理方法，该方法在避免产生不可预测行为的超出分布查询的同时，最大化总回报。我们展示了BR-RCRL在Gym-Mujoco和Atari离线强化学习基准测试中达到了最先进的性能，相比传统RCRL提高了最多11%。

https://www.zhuanzhi.ai/paper/2b82e5bac3175c985ebe32e778d02808

成为VIP会员查看完整内容

24

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

39+阅读 · 2023年6月2日

【NeurIPS2022】主动贝叶斯因果推理

【NeurIPS2022】主动贝叶斯因果推理

专知会员服务

59+阅读 · 2022年11月14日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

130+阅读 · 2022年1月16日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【ICML2021】基于子网络推理的贝叶斯深度学习

专知会员服务

36+阅读 · 2021年8月17日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【NeurIPS2022】主动贝叶斯因果推理

【NeurIPS2022】主动贝叶斯因果推理

专知

3+阅读 · 2022年11月14日

NeurIPS 2022 Oral | 离线强化学习新范式！京东科技&清华提出解耦式学习算法

NeurIPS 2022 Oral | 离线强化学习新范式！京东科技&清华提出解耦式学习算法

机器之心

1+阅读 · 2022年11月3日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知

1+阅读 · 2022年6月30日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

22+阅读 · 2015年12月31日

高浓度CO2和H2O条件下煤焦氧化机理及模型建立

国家自然科学基金

0+阅读 · 2014年12月31日

基于燃料选择性分布的铁矿烧结NOx减排研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于不均衡支持向量机的小企业信用风险评价理论与模型

国家自然科学基金

0+阅读 · 2012年12月31日

冷等离子体制备高效催化剂用于合成气制乙醇的研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

复杂运动条件下动作表象的神经心理机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

多尺度高斯过程模型及其学习曲线研究

国家自然科学基金

2+阅读 · 2009年12月31日

Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions

Arxiv

0+阅读 · 2023年7月10日

The Benefits of Model-Based Generalization in Reinforcement Learning

Arxiv

0+阅读 · 2023年7月10日

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

Arxiv

0+阅读 · 2023年7月10日

On discrete symmetries of robotics systems: A group-theoretic and data-driven analysis

Arxiv

0+阅读 · 2023年7月7日

Transformed Protoform Reconstruction

Arxiv

0+阅读 · 2023年7月6日

Heckerthoughts

Arxiv

0+阅读 · 2023年7月5日

Proxy Selection in Transitive Proxy Voting

Arxiv

0+阅读 · 2023年7月5日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

相关VIP内容

【ICML2023】表示驱动强化学习

【ICML2023】表示驱动强化学习

专知会员服务

39+阅读 · 2023年6月2日

【NeurIPS2022】主动贝叶斯因果推理

【NeurIPS2022】主动贝叶斯因果推理

专知会员服务

59+阅读 · 2022年11月14日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知会员服务

37+阅读 · 2022年7月11日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ETH博士论文】贝叶斯深度学习，241页pdf

【ETH博士论文】贝叶斯深度学习，241页pdf

专知会员服务

130+阅读 · 2022年1月16日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【ICML2021】基于子网络推理的贝叶斯深度学习

专知会员服务

36+阅读 · 2021年8月17日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

数据驱动死亡：以色列AI战争机器如何锁定目标

【普林斯顿博士论文】通过以人为本的评估推动负责任的人工智能

ICML 2025 | BiAssemble: 双臂机器人几何拼合问题的协同可供性学习

ICML 2025杰出论文出炉：8篇获奖，南大研究者榜上有名

相关资讯

【NeurIPS2022】主动贝叶斯因果推理

【NeurIPS2022】主动贝叶斯因果推理

专知

3+阅读 · 2022年11月14日

NeurIPS 2022 Oral | 离线强化学习新范式！京东科技&清华提出解耦式学习算法

NeurIPS 2022 Oral | 离线强化学习新范式！京东科技&清华提出解耦式学习算法

机器之心

1+阅读 · 2022年11月3日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ICML2022】基于少样本策略泛化的决策Transformer

【ICML2022】基于少样本策略泛化的决策Transformer

专知

3+阅读 · 2022年7月11日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知

1+阅读 · 2022年6月30日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

22+阅读 · 2015年12月31日

高浓度CO2和H2O条件下煤焦氧化机理及模型建立

国家自然科学基金

0+阅读 · 2014年12月31日

基于燃料选择性分布的铁矿烧结NOx减排研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于不均衡支持向量机的小企业信用风险评价理论与模型

国家自然科学基金

0+阅读 · 2012年12月31日

冷等离子体制备高效催化剂用于合成气制乙醇的研究

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

复杂运动条件下动作表象的神经心理机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

多尺度高斯过程模型及其学习曲线研究

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions

Arxiv

0+阅读 · 2023年7月10日

The Benefits of Model-Based Generalization in Reinforcement Learning

Arxiv

0+阅读 · 2023年7月10日

A Comparative Study of Self-Supervised Speech Representations in Read and Spontaneous TTS

Arxiv

0+阅读 · 2023年7月10日

On discrete symmetries of robotics systems: A group-theoretic and data-driven analysis

Arxiv

0+阅读 · 2023年7月7日

Transformed Protoform Reconstruction

Arxiv

0+阅读 · 2023年7月6日

Heckerthoughts

Arxiv

0+阅读 · 2023年7月5日

Proxy Selection in Transitive Proxy Voting

Arxiv

0+阅读 · 2023年7月5日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

微信扫码咨询专知VIP会员