在这篇论文中,我们研究了稳定性的两个不同方面:神经网络动态模型的稳定性以及强化学习算法的稳定性。在第一章中,我们提出了一种新的方法,用于学习李雅普诺夫稳定的动态模型,这些模型在随机初始化时甚至也是稳定的。我们在阻尼多链接摆上展示了这种方法的有效性,并展示了如何将其用于生成高保真度的视频纹理。在第二和第三章中,我们关注强化学习的稳定性。在第二章中,我们证明了正则化作为解决不稳定性的常见方法在强化学习环境中的行为是违反直觉的。它不仅有时无效,还可能导致不稳定性。我们在线性和神经网络环境中展示了这一现象。此外,标准的重要性抽样方法也容易受到这种影响。在第三章中,我们提出了一种通过重新采样来稳定离策略强化学习的机制。称为“投影离策略时序差分(POP-TD)”,它重新采样TD更新,使其来自“安全”分布的凸子集,而不是(如其他重新采样方法中的情况)重新采样到在策略分布上。我们展示了这种方法如何在一个旨在最大化分布偏移的任务中缓解离线强化学习中的分布偏移问题。总体而言,这篇论文在动态模型稳定性和强化学习训练稳定性方面提出了新颖的方法,对领域内现有的假设提出了质疑,并指出了模型和强化学习稳定性的有希望的发展方向。

在这篇论文中,我们研究了两种稳定性概念:神经网络动态模型的稳定性和强化学习算法的训练稳定性。从第一个稳定性概念自然地过渡到第二个稳定性概念:稳定训练模型的参数在参数空间中限定了一个稳定轨迹。这种稳定性之间的关系在时序差分(Temporal Difference,TD)学习理论的基础工作中有重要的先例[54]。

在第一章中,我们提出了一种全新的方法,以完全端到端的方式学习李雅普诺夫稳定的动力学模型和认证的李雅普诺夫函数。与通过某种损失函数强制稳定性不同,我们通过构造确保在任何地方都能保证稳定性。这通过精心构建一个神经网络作为李雅普诺夫函数,学习一个单独的、无约束的动力学模型,然后将这两个模型与一种新颖的重新投影层结合起来实现。这样可以在状态空间的任何地方通过构造保证模型稳定,即使没有任何训练。我们展示了这种学习系统能够模拟简单的动态系统,如摆,还可以与额外的深度生成模型结合,以完全端到端的方式学习复杂的动态,例如视频纹理。

在现代强化学习中,时序差分(Temporal Difference,TD)与函数逼近(即神经网络)和离策略学习相结合。然而,这三者被称为“致命三重奏”[48,第264页],因为它们可能在学习过程中引发严重的不稳定性(Tsitsiklis和Van Roy [54])。尽管许多TD的变体在训练不稳定性的情况下可以证明收敛,但在收敛时解的质量通常会非常差[24]。在文献中,人们普遍认为正则化可以缓解这种不稳定性,这在对三个标准示例的基本分析中得到了支持。

然而,这并不正确!在第二章中,我们引入了一系列对正则化不敏感的新的反例。我们展示了存在“虚无”示例,无论正则化的数量如何,这些示例都不会比极限情况表现得更好。这个问题在大多数基于TD的算法中仍然存在,而这涵盖了广泛的强化学习文献;我们通过展示这个例子如何迫使张、姚和Whiteson [63]得出的误差界在实际中变得极其宽松来使我们的分析更具体。我们进一步证明,在TD环境中,正则化并不是单调的,而且正则化可能会在某些临界值附近增加错误(或导致发散)。我们将这些例子扩展到神经网络情况,表明这些影响并不局限于线性情况,并为在实际强化学习应用中更加谨慎地进行正则化提出了理由。最后,从Emphatic-TD开始,有一系列旨在通过重新采样TD更新以使其出现在策略上来稳定离策略训练的工作。当代的Emphatic算法通常使用反向版本的TD来估计重新采样函数,这使它们容易受到与原始TD相同来源的不稳定性的影响。我们展示了这些技术同样容易受到攻击。我们表明,正则化并不是解决TD学习中稳定性问题的万应草。

在第三章中,我们探讨了对离策略发散有抵抗力的稳定TD学习的新方法。从Kolter [24]提出的一个想法出发,我们推导出了投影离策略时序差分(Projected Off-Policy TD,POP-TD),它将TD更新重新加权为最接近的分布,该分布在其训练的固定点处是非扩张的。我们在训练循环中使用随机梯度下降学习重新加权因子(即时间和空间复杂度与学习值函数相当),然后将这些重新加权因子应用于每个TD更新。关键的是,与文献中的现代工作不同,POP-TD不会重新采样为在策略分布,而是寻找一个接近数据分布的“安全”分布。将其应用于新颖的离线强化学习示例中,我们可以清楚地演示POP-TD如何在尽量少重新采样的情况下缓解数据集和学习策略之间的分布偏移问题[30]。

成为VIP会员查看完整内容
29

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】稳定模型与时间差分学习,97页pdf
专知会员服务
23+阅读 · 2023年6月17日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
82+阅读 · 2022年9月20日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
57+阅读 · 2022年9月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员