【MIT博士论文】在真实世界环境中的强化学习系统的鲁棒性，292页pdf

强化学习（RL）被认为是一个有前景的范式，用以改进现实世界中的众多决策过程，潜在地构成许多未来自主系统的核心。然而，尽管在多个领域内非常流行，文献中的概念验证数量显著大于已报道的部署数量。这主要可以归因于现实世界环境与实验性RL设置之间的差异。一方面，从领域特定的角度来看，完全表征现实世界中的具体任务和环境是具有挑战性的，而且在物理环境中进行训练可能并不总是可行的。另一方面，现实世界呈现出几个领域无关的挑战，使学习更加困难，例如高维度、非平稳性或泛化能力。尽管RL代理在实际应用中已展现出有效的性能，但它们对这些现实世界现象的鲁棒性仍然是一个挑战。为了向着更好的RL可部署性迈进一步，本论文研究了RL系统设计的不同方面，专注于在现实世界环境中增强鲁棒性。

它由三个主要的研究领域组成：首先，为了全面表征现实世界鲁棒性的问题，我提出了一个RL路线图。这确定了影响RL系统与现实世界环境交互的关键因素，并提供了一个解决整体问题的结构化方法。我进一步深入研究了这个路线图的一个具体元素——状态空间，并呈现了在策略学习期间状态特征与奖励之间的互信息（MI）变化的一组数学界限。通过观察学习过程中MI的演变，我展示了如何识别更有效的特征集，通过研究一个实际用例——交通信号控制问题来证明。其次，我介绍了MetaPG，一种以鲁棒性和性能为优先的领域无关的RL设计方法。MetaPG是一种AutoRL方法，自动化设计新的演员-评论家损失函数，这些函数以计算图的形式表示，用于优化多个独立目标。通过进化搜索，MetaPG生成了最大化和平衡所有考虑目标的新算法的帕累托前沿。当应用于旨在优化单任务性能、零次泛化能力和在五个不同环境上的稳定性的用例时，相比作为热启动的SAC算法，进化出的算法在这些指标上平均分别增加了4.2%、13.4%和67%。此外，MetaPG还提供了对进化算法结构的见解，允许更好地理解它们的功能。

最后，本论文聚焦于将概念框架和设计原则应用于具体的现实世界问题，这些问题中的鲁棒性已被系统性忽视。我介绍了一个新的RL系统，用于解决多波束卫星星座的频率分配问题。通过对六个主要设计决策进行全面搜索，我识别出一个设计变体，在100波束场景中达到了99.8%的成功率。然而，这种变体在处理高维度和非平稳性方面表现不佳。本论文证明，通过不同的设计变体可以获得对这些挑战的鲁棒性，这些变体在2000波束案例中达到了87.3%的成功率。此外，我还研究了另一个现实世界应用——分子优化中的设计权衡，并显示当前方法与鲁棒性不完全对齐。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】探索半监督学习的概率模型，127页pdf

专知会员服务

40+阅读 · 2024年4月8日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

71+阅读 · 2024年1月13日

【NTU博士论文】开放世界中机器学习的自然鲁棒性，175页pdf

专知会员服务

33+阅读 · 2023年12月24日

【牛津大学博士论文】在大状态行动空间中的强化学习, 288页pdf

专知会员服务

53+阅读 · 2023年6月10日