This paper considers online optimal control with affine constraints on the states and actions under linear dynamics with bounded random disturbances. The system dynamics and constraints are assumed to be known and time-invariant but the convex stage cost functions change adversarially. To solve this problem, we propose Online Gradient Descent with Buffer Zones (OGD-BZ). Theoretically, we show that OGD-BZ with proper parameters can guarantee the system to satisfy all the constraints despite any admissible disturbances. Further, we investigate the policy regret of OGD-BZ, which compares OGD-BZ's performance with the performance of the optimal linear policy in hindsight. We show that OGD-BZ can achieve a policy regret upper bound that is the square root of the horizon length multiplied by some logarithmic terms of the horizon length under proper algorithm parameters.


翻译:本文考虑在线最佳控制,在线性动态下对州和行动的限制与受约束随机扰动的线性动态进行线性控制。 系统动态和限制假定为已知且时间变化性,但锥形阶段成本功能会发生对抗性变化。 为了解决这一问题,我们提议使用缓冲区在线梯层(OGD-BZ)来解决这个问题。 从理论上讲,我们表明,具有适当参数的OGD-BZ可以保证系统满足所有限制,尽管存在任何可允许的干扰。 此外,我们调查OGD-BZ的政策遗憾,它将OGD-BZ的性能与后视最佳线性政策的性能进行比较。 我们显示,OGD-BZ可以实现政策上的遗憾上限,即地平线长的平方根乘以适当算参数下的地平线长度的对数条件。

0
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2021年5月2日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
专知会员服务
41+阅读 · 2021年1月18日
专知会员服务
50+阅读 · 2020年12月14日
【ICML2020】多视角对比图表示学习,Contrastive Multi-View GRL
专知会员服务
78+阅读 · 2020年6月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
BAT机器学习面试1000题(771~775题)
七月在线实验室
3+阅读 · 2018年12月28日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年9月13日
Arxiv
6+阅读 · 2021年6月24日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
BAT机器学习面试1000题(771~775题)
七月在线实验室
3+阅读 · 2018年12月28日
论文笔记之Meta-Tracker(ECCV2018)
统计学习与视觉计算组
16+阅读 · 2018年8月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员