【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf - 专知VIP

会员服务 ·

31

CMU · 博士论文 · 强化学习 ·

2023 年 1 月 4 日

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

现代强化学习(RL)方法在各种应用中取得了巨大的成功。然而，由于过度的样本复杂性负担，具有大状态空间和长规划时界的强化学习问题仍然具有挑战性，而我们目前对这类问题的理解相当有限。此外，RL中还有一些经典框架无法解决的重要问题。本文研究了上述问题，以建立对现代RL方法的更好理解。本文主要分为以下三个部分:

**第一部分:具有长期规划时界的RL。**学习为长期时界做计划是强化学习的一个核心挑战，而一个基本问题是了解强化学习的难度如何随着时界的增加而增加。在本文的第一部分中，我们证明了表格式强化学习是可能的，其样本复杂度完全独立于规划周期，因此，长周期强化学习并不比短周期强化学习更难，至少在极大极小意义上是这样。

**第二部分:具有大状态空间的RL。**在现代RL方法中，函数逼近方案被部署来处理大型状态空间。根据经验，将RL算法与神经网络相结合进行特征提取，在各种任务上取得了巨大的成功。然而，这些方法通常需要大量的样本来学习一个好的策略，并且不清楚此类方法是否有基本的统计限制。在本文的第二部分，通过理论分析和实验，研究了允许样本有效强化学习的特征表示能力的充要条件。

**第三部分:其他环境下的强化学习。**经典的强化学习范式旨在最大化智能体获得奖励值时的累积奖励。尽管能够形式化一个庞大的序列决策问题族，但仍有一些重要的应用无法归入经典框架。在本文的第三部分，我们研究了两种新的设置，即无奖励探索设置和具有一般目标函数的规划，它们泛化了经典的框架。

成为VIP会员查看完整内容

54

相关内容

CMU

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

41+阅读 · 2023年2月25日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

132+阅读 · 2020年8月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知

3+阅读 · 2022年9月6日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

α混合样本下的经验Bayes推断

国家自然科学基金

0+阅读 · 2012年12月31日

非负二次函数锥规划研究

国家自然科学基金

0+阅读 · 2011年12月31日

增广拉格朗日问题的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

装箱问题的理论与算法

国家自然科学基金

0+阅读 · 2009年12月31日

线性系统的多目标参数不敏感控制器设计

国家自然科学基金

0+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Kernel Neural Optimal Transport

Arxiv

0+阅读 · 2023年3月1日

CRC-RL: A Novel Visual Feature Representation Architecture for Unsupervised Reinforcement Learning

Arxiv

0+阅读 · 2023年3月1日

BP-NTT: Fast and Compact in-SRAM Number Theoretic Transform with Bit-Parallel Modular Multiplication

Arxiv

0+阅读 · 2023年3月1日

Deep Learning for Mean Field Optimal Transport

Arxiv

0+阅读 · 2023年2月28日

STIR$^2$: Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks

Arxiv

0+阅读 · 2023年2月28日

The In-Sample Softmax for Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年2月28日

Behavior Prior Representation learning for Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年2月28日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

41+阅读 · 2023年2月25日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【伯克利博士论文】可信赖机器学习，227页pdf

【伯克利博士论文】可信赖机器学习，227页pdf

专知会员服务

89+阅读 · 2022年12月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

132+阅读 · 2020年8月27日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【干货书】强化学习Python真实数据与实例应用，110页pdf

【干货书】强化学习Python真实数据与实例应用，110页pdf

专知

9+阅读 · 2022年10月13日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

强化学习如何可信可靠？CMU最新《可信赖强化学习》综述，36页pdf阐述可信强化学习的鲁棒性、安全性和泛化性

专知

7+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

【CMU 博士论文】《提高多目标概率规划的透明度和可理解性》2022最新论文

专知

3+阅读 · 2022年9月6日

【CMU硬核书】现代自适应控制与强化学习，166页pdf

【CMU硬核书】现代自适应控制与强化学习，166页pdf

专知

4+阅读 · 2022年8月30日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

干货｜浅谈强化学习的方法及学习路线

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

相关基金

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

平面N+M体问题和空间N+3体问题周期解的变分方法

国家自然科学基金

0+阅读 · 2015年12月31日

带稀疏约束不适定问题的算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

α混合样本下的经验Bayes推断

国家自然科学基金

0+阅读 · 2012年12月31日

非负二次函数锥规划研究

国家自然科学基金

0+阅读 · 2011年12月31日

增广拉格朗日问题的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

装箱问题的理论与算法

国家自然科学基金

0+阅读 · 2009年12月31日

线性系统的多目标参数不敏感控制器设计

国家自然科学基金

0+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

Kernel Neural Optimal Transport

Arxiv

0+阅读 · 2023年3月1日

CRC-RL: A Novel Visual Feature Representation Architecture for Unsupervised Reinforcement Learning

Arxiv

0+阅读 · 2023年3月1日

BP-NTT: Fast and Compact in-SRAM Number Theoretic Transform with Bit-Parallel Modular Multiplication

Arxiv

0+阅读 · 2023年3月1日

Deep Learning for Mean Field Optimal Transport

Arxiv

0+阅读 · 2023年2月28日

STIR$^2$: Reward Relabelling for combined Reinforcement and Imitation Learning on sparse-reward tasks

Arxiv

0+阅读 · 2023年2月28日

The In-Sample Softmax for Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年2月28日

Behavior Prior Representation learning for Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年2月28日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员