现代强化学习(RL)方法在各种应用中取得了巨大的成功。然而,由于过度的样本复杂性负担,具有大状态空间和长规划时界的强化学习问题仍然具有挑战性,而我们目前对这类问题的理解相当有限。此外,RL中还有一些经典框架无法解决的重要问题。本文研究了上述问题,以建立对现代RL方法的更好理解。本文主要分为以下三个部分:

**第一部分:具有长期规划时界的RL。**学习为长期时界做计划是强化学习的一个核心挑战,而一个基本问题是了解强化学习的难度如何随着时界的增加而增加。在本文的第一部分中,我们证明了表格式强化学习是可能的,其样本复杂度完全独立于规划周期,因此,长周期强化学习并不比短周期强化学习更难,至少在极大极小意义上是这样。

**第二部分:具有大状态空间的RL。**在现代RL方法中,函数逼近方案被部署来处理大型状态空间。根据经验,将RL算法与神经网络相结合进行特征提取,在各种任务上取得了巨大的成功。然而,这些方法通常需要大量的样本来学习一个好的策略,并且不清楚此类方法是否有基本的统计限制。在本文的第二部分,通过理论分析和实验,研究了允许样本有效强化学习的特征表示能力的充要条件。

**第三部分:其他环境下的强化学习。**经典的强化学习范式旨在最大化智能体获得奖励值时的累积奖励。尽管能够形式化一个庞大的序列决策问题族,但仍有一些重要的应用无法归入经典框架。在本文的第三部分,我们研究了两种新的设置,即无奖励探索设置和具有一般目标函数的规划,它们泛化了经典的框架。

成为VIP会员查看完整内容
54

相关内容

【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
71+阅读 · 2023年2月23日
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
89+阅读 · 2022年12月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
专知会员服务
127+阅读 · 2021年8月25日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
92+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
130+阅读 · 2020年8月27日
【MIT博士论文】数据高效强化学习,176页pdf
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年3月1日
Arxiv
0+阅读 · 2023年2月28日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
71+阅读 · 2023年2月23日
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
89+阅读 · 2022年12月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
100+阅读 · 2022年9月19日
专知会员服务
127+阅读 · 2021年8月25日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
92+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
130+阅读 · 2020年8月27日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员