强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案,为游戏和机器人等多个领域的近期成功提供了关键的基础。然而,许多最先进的算法需要大量的数据,计算成本很高,需要大量的数据才能成功。虽然这在某些情况下是可能的,例如在可用数据稀少的社会科学和医疗健康应用程序中,这自然会昂贵或不可行的。随着人们对将RL应用到更广泛的领域的兴趣的激增,对其算法设计中涉及的数据的使用形成一种明智的观点是势在必行的。

因此,本文主要从结构的角度研究RL的数据效率。沿着这个方向发展自然需要我们理解算法何时以及为什么会成功;并在此基础上进一步提高数据挖掘的数据效率。为此,本文首先从实证成功案例中汲取启示。我们考虑了基于模拟的蒙特卡洛树搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就为例,并探讨了纳入这一关键成分的数据效率。具体来说,我们研究了使用这种树结构来估计值和描述相应数据复杂性的正确形式。这些结果进一步使我们能够分析将MCTS与监督学习相结合的RL算法的数据复杂性,就像在AlphaGo Zero中所做的那样。

有了更好的理解之后,下一步,我们改进了基于模拟的数据高效RL算法的算法设计,这些算法可以访问生成模型。我们为有界空间和无界空间都提供了这样的改进。我们的第一个贡献是通过一个新颖的低秩表示Q函数的结构框架。提出的数据高效的RL算法利用低秩结构,通过一种新的矩阵估计技术,只查询/模拟状态-动作对的一个子集来执行伪探索。值得注意的是,这导致了数据复杂度的显著(指数级)提高。说到我们对无界空间的努力,我们必须首先解决无界域引起的独特的概念挑战。受经典排队系统的启发,我们提出了一个适当的稳定性概念来量化策略的“好”。随后,通过利用底层系统的稳定性结构,我们设计了高效、自适应的算法,采用改进的、高效的蒙特卡洛oracle,以良好的数据复杂度(对感兴趣的参数是多项式)保证了所需的稳定性。总之,通过新的分析工具和结构框架,本文有助于数据高效的RL算法的设计和分析。

https://dspace.mit.edu/handle/1721.1/138930

成为VIP会员查看完整内容
83

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT博士论文】优化理论与机器学习实践
专知会员服务
88+阅读 · 2022年6月30日
专知会员服务
103+阅读 · 2021年7月17日
【斯坦福干货书】强化学习基金融领域应用,312页pdf
专知会员服务
132+阅读 · 2020年12月22日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
90+阅读 · 2020年9月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
126+阅读 · 2020年8月27日
综述| 当图神经网络遇上强化学习
图与推荐
25+阅读 · 2022年7月1日
【MIT博士论文】优化理论与机器学习实践
专知
2+阅读 · 2022年6月30日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年8月31日
Arxiv
0+阅读 · 2022年8月26日
Arxiv
13+阅读 · 2021年7月20日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
9+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员