近年来,在控制和强化学习中出现了新的方法,这些方法结合了遗憾(regret )最小化和在线凸优化技术。由此产生的理论为控制和强化学习中一些长期存在的问题提供了可证明的保证:对数后悔和快速速率,没有系统知识的端到端LQG-LQR,带有对抗噪声的卡尔曼滤波,具有可证明的有限时间保证的黑盒控制,系统识别的紧下界,等等。
这些结果的主要创新之处在于在线控制模型将随机扰动替换为对抗性扰动,并以后悔最小为最优控制目标。我们将描述设置,以及基于梯度和依赖于新的凸松弛的新方法。
https://icml.cc/media/icml-2021/Slides/10838_XuEBWTU.pdf