【博士论文】利用通用问题结构提高强化学习效率，177页pdf

利用通用问题结构提高强化学习效率

在本论文中，我研究了如何利用通用问题结构来提高强化学习算法的效率。通用问题结构是指存在于广泛问题中的基本结构（例如，当前采取的行动不会影响过去），而不是特定问题的特定结构（例如，关于某个游戏中哪些动作更优的启发式或定理）。我的研究分为三个主要贡献。

**第一项贡献

首先，我从经验和理论上证明了在已有世界结构知识的情况下，学习世界模型的强化学习方法在利用这些知识从经验中学习方面，比直接从经验中学习价值函数的无模型方法更有效。这验证了模型驱动的强化学习通过合成超越数据的想象经验来提高样本效率的观点。虽然这一观点被广泛接受，但模型泛化并不足以解释这一现象，因为学习到的价值函数也会泛化。我通过理论和实验结果说明，世界模型泛化在某种意义上比价值函数泛化更强大。

**第二项贡献

第二个贡献是提出了一种利用网络结构知识改进离散随机神经元网络中的信用分配的算法，在这种网络中，每个神经元被视为一个强化学习代理。训练具有离散随机单元的神经网络具有挑战性，因为反向传播不直接适用，常用于连续随机变量网络的重新参数化技巧也不适用。我提出了一种名为Hindsight Network Credit Assignment（HNCA）的梯度估计方法，用于离散随机神经元网络。HNCA可以看作是反向传播（对于非平凡的随机网络不可行）和REINFORCE（方差较大）之间的中间地带。HNCA生成无偏的梯度估计，且方差显著低于REINFORCE。HNCA的计算成本与网络的前向传递相当，因此学习不是一个显著的瓶颈。实验结果表明，HNCA显著减少了梯度估计中的方差，从而显著提高了性能。

**第三项贡献

第三个贡献是提出了一种选项发现的方法，该方法的动机是，由于世界的时空局部性结构，时间上连续状态中的最优动作往往是强相关的。基于这一想法，我提出了一种称为选项迭代（Option Iteration, OptIt）的方法，该方法从计算成本高昂的搜索程序的结果中提炼出一组选项。直观上，OptIt旨在发现一组选项，使得对于某长度的每个轨迹段，这组选项中的至少一个与在该段中的每个状态运行搜索程序所得到的改进策略相匹配。这导致了捕捉时间上连续状态中最佳动作之间关系的选项，同时允许在给定情况下哪个选项最佳存在不确定性。生成的选项集指导搜索程序，通过迭代改进过程，使得更好的选项导致更好的搜索，从而促进更好的选项发现。可以合理地认为，先验的结构知识对于实现有意义的学习是必要的。然而，过去几十年的研究表明，将特定的人类专业知识编码到系统中，长期来看往往不如那些能够随着计算和数据扩展的方法。承认这一点，我们应将精力集中在开发利用尽可能通用的结构的方法上，使代理能够从经验和计算中学习到更具体的世界知识。由于具有广泛适用性，通用结构可以更好地修剪解决方案的搜索空间，并在应用更多计算和数据时仍然相关。另一方面，尽管特定结构可能在早期提高性能，但随着学习和通用结构的结合推导出这些结构，它可能很快变得无关紧要。虽然并不总是清楚通用与特定结构之间的界限在哪里，但承认存在这种权衡提供了一个有用的指导方针，指明了哪些研究方向值得追求。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】非参数高维模型：稀疏性、效率、可解释性，296页pdf

专知会员服务

31+阅读 · 2024年8月24日

【纽约大学博士论文】从奖励中学习在文本生成中的应用，197页pdf

专知会员服务

17+阅读 · 2024年7月13日

【博士论文】基于信息论的泛化理论方法，274页pdf

专知会员服务

54+阅读 · 2024年6月3日

【NTU博士论文】视觉神经模型的资源高效学习，155页pdf

专知会员服务

25+阅读 · 2024年5月18日