【MIT博士论文】数据高效强化学习，176页pdf

2022 年 7 月 11 日 专知

强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案，为游戏和机器人等多个领域的近期成功提供了关键的基础。然而，许多最先进的算法需要大量的数据，计算成本很高，需要大量的数据才能成功。虽然这在某些情况下是可能的，例如在可用数据稀少的社会科学和医疗健康应用程序中，这自然会昂贵或不可行的。随着人们对将RL应用到更广泛的领域的兴趣的激增，对其算法设计中涉及的数据的使用形成一种明智的观点是势在必行的。

因此，本文主要从结构的角度研究RL的数据效率。沿着这个方向发展自然需要我们理解算法何时以及为什么会成功;并在此基础上进一步提高数据挖掘的数据效率。为此，本文首先从实证成功案例中汲取启示。我们考虑了基于模拟的蒙特卡洛树搜索(MCTS)在RL中的流行，以AlphaGo Zero的卓越成就为例，并探讨了纳入这一关键成分的数据效率。具体来说，我们研究了使用这种树结构来估计值和描述相应数据复杂性的正确形式。这些结果进一步使我们能够分析将MCTS与监督学习相结合的RL算法的数据复杂性，就像在AlphaGo Zero中所做的那样。

有了更好的理解之后，下一步，我们改进了基于模拟的数据高效RL算法的算法设计，这些算法可以访问生成模型。我们为有界空间和无界空间都提供了这样的改进。我们的第一个贡献是通过一个新颖的低秩表示Q函数的结构框架。提出的数据高效的RL算法利用低秩结构，通过一种新的矩阵估计技术，只查询/模拟状态-动作对的一个子集来执行伪探索。值得注意的是，这导致了数据复杂度的显著(指数级)提高。说到我们对无界空间的努力，我们必须首先解决无界域引起的独特的概念挑战。受经典排队系统的启发，我们提出了一个适当的稳定性概念来量化策略的“好”。随后，通过利用底层系统的稳定性结构，我们设计了高效、自适应的算法，采用改进的、高效的蒙特卡洛oracle，以良好的数据复杂度(对感兴趣的参数是多项式)保证了所需的稳定性。总之，通过新的分析工具和结构框架，本文有助于数据高效的RL算法的设计和分析。

https://dspace.mit.edu/handle/1721.1/138930

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“R176” 就可以获取《【MIT博士论文】数据高效强化学习，176页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

博士论文

关注 0

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】控制神经语言生成，147页pdf

专知会员服务

22+阅读 · 2022年9月2日

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

53+阅读 · 2022年8月31日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知会员服务

61+阅读 · 2022年4月3日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

80+阅读 · 2021年5月23日