强化学习(RL)被认为是一个有前景的范式,用以改进现实世界中的众多决策过程,潜在地构成许多未来自主系统的核心。然而,尽管在多个领域内非常流行,文献中的概念验证数量显著大于已报道的部署数量。这主要可以归因于现实世界环境与实验性RL设置之间的差异。一方面,从领域特定的角度来看,完全表征现实世界中的具体任务和环境是具有挑战性的,而且在物理环境中进行训练可能并不总是可行的。另一方面,现实世界呈现出几个领域无关的挑战,使学习更加困难,例如高维度、非平稳性或泛化能力。尽管RL代理在实际应用中已展现出有效的性能,但它们对这些现实世界现象的鲁棒性仍然是一个挑战。 为了向着更好的RL可部署性迈进一步,本论文研究了RL系统设计的不同方面,专注于在现实世界环境中增强鲁棒性。

它由三个主要的研究领域组成: 首先,为了全面表征现实世界鲁棒性的问题,我提出了一个RL路线图。这确定了影响RL系统与现实世界环境交互的关键因素,并提供了一个解决整体问题的结构化方法。我进一步深入研究了这个路线图的一个具体元素——状态空间,并呈现了在策略学习期间状态特征与奖励之间的互信息(MI)变化的一组数学界限。通过观察学习过程中MI的演变,我展示了如何识别更有效的特征集,通过研究一个实际用例——交通信号控制问题来证明。 其次,我介绍了MetaPG,一种以鲁棒性和性能为优先的领域无关的RL设计方法。MetaPG是一种AutoRL方法,自动化设计新的演员-评论家损失函数,这些函数以计算图的形式表示,用于优化多个独立目标。通过进化搜索,MetaPG生成了最大化和平衡所有考虑目标的新算法的帕累托前沿。当应用于旨在优化单任务性能、零次泛化能力和在五个不同环境上的稳定性的用例时,相比作为热启动的SAC算法,进化出的算法在这些指标上平均分别增加了4.2%、13.4%和67%。此外,MetaPG还提供了对进化算法结构的见解,允许更好地理解它们的功能。

最后,本论文聚焦于将概念框架和设计原则应用于具体的现实世界问题,这些问题中的鲁棒性已被系统性忽视。我介绍了一个新的RL系统,用于解决多波束卫星星座的频率分配问题。通过对六个主要设计决策进行全面搜索,我识别出一个设计变体,在100波束场景中达到了99.8%的成功率。然而,这种变体在处理高维度和非平稳性方面表现不佳。本论文证明,通过不同的设计变体可以获得对这些挑战的鲁棒性,这些变体在2000波束案例中达到了87.3%的成功率。此外,我还研究了另一个现实世界应用——分子优化中的设计权衡,并显示当前方法与鲁棒性不完全对齐。

成为VIP会员查看完整内容
39

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】可解释机器学习方法与应用,127页pdf
专知会员服务
75+阅读 · 2023年6月6日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
36+阅读 · 2023年4月17日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
56+阅读 · 2022年9月7日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
85+阅读 · 2022年7月11日
【MIT博士论文】数据高效强化学习,176页pdf
最新《图嵌入组合优化》综述论文,40页pdf
【KDD2020】图神经网络:基础与应用,322页ppt
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
41+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员