【ICML2023】表示驱动强化学习 - 专知VIP

会员服务 ·

23

强化学习 · ICML 2023 ·

2023 年 6 月 2 日

【ICML2023】表示驱动强化学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们提出了一个由表示驱动的强化学习框架。通过将策略表示为它们预期值的估计，我们利用来自情境赌博机的技术来引导探索和利用。特别地，将策略网络嵌入到线性特征空间中，使我们能够将探索-利用问题重塑为表示-利用问题，其中良好的策略表示能够实现最优探索。我们通过将这个框架应用于进化和策略梯度方法来证明其有效性，这导致了与传统方法相比的显著性能提升。我们的框架为强化学习提供了新的视角，强调了策略表示在确定最优探索-利用策略中的重要性。

成为VIP会员查看完整内容

39

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【AAAI2023】基于序图的因果结构强化学习

【AAAI2023】基于序图的因果结构强化学习

专知

5+阅读 · 2022年11月25日

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

专知

2+阅读 · 2022年10月1日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知

1+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【硬核书】多智能体协调:强化学习方法，315页pdf

【硬核书】多智能体协调:强化学习方法，315页pdf

专知

4+阅读 · 2022年9月17日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

海量数据驱动的高维材质外观建模方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

多元函数的稀疏逼近与随机逼近

国家自然科学基金

1+阅读 · 2012年12月31日

基于图感知学习的多流形分析方法及实证研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于事件逻辑的安全协议形式化分析及验证

国家自然科学基金

0+阅读 · 2011年12月31日

基于分支定界的全局优化确定性方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

鲁棒的目标跟踪和识别新方法及在羽绒识别中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

An Approximation Theory for Metric Space-Valued Functions With A View Towards Deep Learning

An Approximation Theory for Metric Space-Valued Functions With A View Towards Deep Learning

Arxiv

0+阅读 · 2023年7月24日

Predicting Ordinary Differential Equations with Transformers

Arxiv

0+阅读 · 2023年7月24日

DIP-RL: Demonstration-Inferred Preference Learning in Minecraft

Arxiv

1+阅读 · 2023年7月22日

DeepMartNet -- A Martingale based Deep Neural Network learning algorithm for Eigenvalue Problems in High Dimensions

Arxiv

0+阅读 · 2023年7月21日

Editable User Profiles for Controllable Text Recommendation

Arxiv

0+阅读 · 2023年7月21日

A direct optimization algorithm for input-constrained MPC

Arxiv

0+阅读 · 2023年7月20日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

已删除

Arxiv

32+阅读 · 2020年3月23日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

【ICML2021】从相关数据中学习的解纠缠表示

专知会员服务

19+阅读 · 2021年9月19日

【ICML2021】基于观察的跨域模仿学习

专知会员服务

20+阅读 · 2021年8月30日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【AAAI2023】基于序图的因果结构强化学习

【AAAI2023】基于序图的因果结构强化学习

专知

5+阅读 · 2022年11月25日

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

【MIT博士论文】高维贝叶斯线性建模:层次建模、推理和评价的进展，250页pdf

专知

2+阅读 · 2022年10月1日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知

1+阅读 · 2022年9月22日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【硬核书】多智能体协调:强化学习方法，315页pdf

【硬核书】多智能体协调:强化学习方法，315页pdf

专知

4+阅读 · 2022年9月17日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

【斯坦福博士论文】具有学习约束的深度表示，239页pdf

专知

0+阅读 · 2022年9月13日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知

0+阅读 · 2022年8月13日

腊月廿八 | 强化学习-TRPO和PPO背后的数学

腊月廿八 | 强化学习-TRPO和PPO背后的数学

AI研习社

18+阅读 · 2019年2月2日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

相关基金

海量数据驱动的高维材质外观建模方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

多元函数的稀疏逼近与随机逼近

国家自然科学基金

1+阅读 · 2012年12月31日

基于图感知学习的多流形分析方法及实证研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于事件逻辑的安全协议形式化分析及验证

国家自然科学基金

0+阅读 · 2011年12月31日

基于分支定界的全局优化确定性方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

鲁棒的目标跟踪和识别新方法及在羽绒识别中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

An Approximation Theory for Metric Space-Valued Functions With A View Towards Deep Learning

An Approximation Theory for Metric Space-Valued Functions With A View Towards Deep Learning

Arxiv

0+阅读 · 2023年7月24日

Predicting Ordinary Differential Equations with Transformers

Arxiv

0+阅读 · 2023年7月24日

DIP-RL: Demonstration-Inferred Preference Learning in Minecraft

Arxiv

1+阅读 · 2023年7月22日

DeepMartNet -- A Martingale based Deep Neural Network learning algorithm for Eigenvalue Problems in High Dimensions

Arxiv

0+阅读 · 2023年7月21日

Editable User Profiles for Controllable Text Recommendation

Arxiv

0+阅读 · 2023年7月21日

A direct optimization algorithm for input-constrained MPC

Arxiv

0+阅读 · 2023年7月20日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

已删除

Arxiv

32+阅读 · 2020年3月23日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员