强化学习(RL)被认为是一个有前景的范式,用以改进现实世界中的众多决策过程,潜在地构成许多未来自主系统的核心。然而,尽管在多个领域内非常流行,文献中的概念验证数量显著大于已报道的部署数量。这主要可以归因于现实世界环境与实验性RL设置之间的差异。一方面,从领域特定的角度来看,完全表征现实世界中的具体任务和环境是具有挑战性的,而且在物理环境中进行训练可能并不总是可行的。另一方面,现实世界呈现出几个领域无关的挑战,使学习更加困难,例如高维度、非平稳性或泛化能力。尽管RL代理在实际应用中已展现出有效的性能,但它们对这些现实世界现象的鲁棒性仍然是一个挑战。 为了向着更好的RL可部署性迈进一步,本论文研究了RL系统设计的不同方面,专注于在现实世界环境中增强鲁棒性。
它由三个主要的研究领域组成: 首先,为了全面表征现实世界鲁棒性的问题,我提出了一个RL路线图。这确定了影响RL系统与现实世界环境交互的关键因素,并提供了一个解决整体问题的结构化方法。我进一步深入研究了这个路线图的一个具体元素——状态空间,并呈现了在策略学习期间状态特征与奖励之间的互信息(MI)变化的一组数学界限。通过观察学习过程中MI的演变,我展示了如何识别更有效的特征集,通过研究一个实际用例——交通信号控制问题来证明。 其次,我介绍了MetaPG,一种以鲁棒性和性能为优先的领域无关的RL设计方法。MetaPG是一种AutoRL方法,自动化设计新的演员-评论家损失函数,这些函数以计算图的形式表示,用于优化多个独立目标。通过进化搜索,MetaPG生成了最大化和平衡所有考虑目标的新算法的帕累托前沿。当应用于旨在优化单任务性能、零次泛化能力和在五个不同环境上的稳定性的用例时,相比作为热启动的SAC算法,进化出的算法在这些指标上平均分别增加了4.2%、13.4%和67%。此外,MetaPG还提供了对进化算法结构的见解,允许更好地理解它们的功能。
最后,本论文聚焦于将概念框架和设计原则应用于具体的现实世界问题,这些问题中的鲁棒性已被系统性忽视。我介绍了一个新的RL系统,用于解决多波束卫星星座的频率分配问题。通过对六个主要设计决策进行全面搜索,我识别出一个设计变体,在100波束场景中达到了99.8%的成功率。然而,这种变体在处理高维度和非平稳性方面表现不佳。本论文证明,通过不同的设计变体可以获得对这些挑战的鲁棒性,这些变体在2000波束案例中达到了87.3%的成功率。此外,我还研究了另一个现实世界应用——分子优化中的设计权衡,并显示当前方法与鲁棒性不完全对齐。