【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习， - 专知VIP

会员服务 ·

24

普林斯顿大学 (Princeton University) · 博士论文 · 强化学习 ·

2023 年 2 月 25 日

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

https://dataspace.princeton.edu/handle/88435/dsp01v979v6238 强化学习在过去几年里获得了极大的兴趣，主要是由于实际成功和在各个领域的新应用。然而，我们对这些强化学习技术的理论理解与其经验上的成功之间仍然存在差距。本文从主要的理论角度研究强化学习，并为1)带约束的强化学习和2)带函数逼近的强化学习这两个具有挑战性的情况设计了可证明有效的算法，从而加深了我们的理解。 1)在标准强化学习中，学习智能体寻求优化整体奖励。然而，期望行为的许多关键方面更自然地表示为约束。提出了一种算法方案，可以处理具有一般凸约束的强化学习任务，改进了之前局限于线性约束或缺乏理论保证的工作。其次，专注于样本高效的探索，开发了第一个可证明有效的表格式偶发约束强化学习算法，具有处理凸约束和背包设置的能力。最后，在无奖励强化学习最新进展的激励下，本文提出了一种简单的元算法，在给定任何无奖励强化学习oracle的情况下，约束强化学习问题可以直接解决，而样本复杂度的开销可以忽略不计。 2)寻找能够支持样本高效学习的最小结构假设是强化学习最重要的研究方向之一。本文通过引入一种新的复杂性度量——bellman Eluder (BE)维度，推进了对这一基本问题的理解。低BE维的强化学习问题家族非常丰富，包含了绝大多数现有的可处理的强化学习问题。本文进一步设计了一个新的基于优化的算法——GOLF，并针对几个著名的低BE维问题子类提供了匹配或改进现有最佳结果的遗憾和样本复杂度结果。为了实现更具挑战性的部分可观察强化学习，研究了部分可观察马尔可夫决策过程(POMDPs)的一个新的子类，其潜状态可以用短长度m的最近历史来解码。结果表明，短期记忆对这些环境中的强化学习足够了。

成为VIP会员查看完整内容

41

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

52+阅读 · 2023年4月18日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

54+阅读 · 2023年1月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

88+阅读 · 2020年12月17日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

论强化学习的根本缺陷

论强化学习的根本缺陷

AI科技评论

11+阅读 · 2018年7月24日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

非线性偏微分方程的非线性微分约束

国家自然科学基金

1+阅读 · 2013年12月31日

二维FIR数字滤波器优化设计的二维优化算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元函数的稀疏逼近与随机逼近

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

非凸二次约束二次优化问题的理论与全局数值方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

委托代理问题的一类优化方法和算法设计研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

非线性不连续系统的稳定与镇定

国家自然科学基金

0+阅读 · 2008年12月31日

Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic Approach

Arxiv

0+阅读 · 2023年4月17日

Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes

Arxiv

0+阅读 · 2023年4月17日

Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年4月17日

Theoretical Analyses of Multiobjective Evolutionary Algorithms on Multimodal Objectives

Arxiv

0+阅读 · 2023年4月16日

Linear lambda-calculus is linear

Arxiv

0+阅读 · 2023年4月15日

Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning

Arxiv

0+阅读 · 2023年4月14日

A Tale of Sampling and Estimation in Discounted Reinforcement Learning

Arxiv

0+阅读 · 2023年4月14日

A Learnheuristic Approach to A Constrained Multi-Objective Portfolio Optimisation Problem

Arxiv

1+阅读 · 2023年4月13日

Language Instructed Reinforcement Learning for Human-AI Coordination

Arxiv

0+阅读 · 2023年4月13日

Continual Learning from Demonstration of Robotics Skills

Arxiv

0+阅读 · 2023年4月12日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

相关VIP内容

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

52+阅读 · 2023年4月18日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

【普林斯顿博士论文】克服深度强化学习中的采样和探索挑战，135页pdf

专知会员服务

59+阅读 · 2023年1月31日

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

【普林斯顿博士论文】基于深度模型的高效强化学习，186页pdf

专知会员服务

83+阅读 · 2023年1月30日

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

【CMU博士论文】解决现代强化学习中的挑战: 长规划时界，大状态空间，175页pdf

专知会员服务

54+阅读 · 2023年1月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

118+阅读 · 2022年5月7日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

【布朗大学David Abel博士论文】强化学习抽象理论，297页pdf

专知会员服务

88+阅读 · 2020年12月17日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

9+阅读 · 2022年10月29日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

论强化学习的根本缺陷

论强化学习的根本缺陷

AI科技评论

11+阅读 · 2018年7月24日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

非线性偏微分方程的非线性微分约束

国家自然科学基金

1+阅读 · 2013年12月31日

二维FIR数字滤波器优化设计的二维优化算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元函数的稀疏逼近与随机逼近

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

非凸二次约束二次优化问题的理论与全局数值方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

委托代理问题的一类优化方法和算法设计研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

非线性不连续系统的稳定与镇定

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic Approach

Arxiv

0+阅读 · 2023年4月17日

Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes

Arxiv

0+阅读 · 2023年4月17日

Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

Arxiv

0+阅读 · 2023年4月17日

Theoretical Analyses of Multiobjective Evolutionary Algorithms on Multimodal Objectives

Arxiv

0+阅读 · 2023年4月16日

Linear lambda-calculus is linear

Arxiv

0+阅读 · 2023年4月15日

Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning

Arxiv

0+阅读 · 2023年4月14日

A Tale of Sampling and Estimation in Discounted Reinforcement Learning

Arxiv

0+阅读 · 2023年4月14日

A Learnheuristic Approach to A Constrained Multi-Objective Portfolio Optimisation Problem

Arxiv

1+阅读 · 2023年4月13日

Language Instructed Reinforcement Learning for Human-AI Coordination

Arxiv

0+阅读 · 2023年4月13日

Continual Learning from Demonstration of Robotics Skills

Arxiv

0+阅读 · 2023年4月12日

微信扫码咨询专知VIP会员