Learning how to effectively control unknown dynamical systems is crucial for intelligent autonomous systems. This task becomes a significant challenge when the underlying dynamics are changing with time. Motivated by this challenge, this paper considers the problem of controlling an unknown Markov jump linear system (MJS) to optimize a quadratic objective. By taking a model-based perspective, we consider identification-based adaptive control for MJSs. We first provide a system identification algorithm for MJS to learn the dynamics in each mode as well as the Markov transition matrix, underlying the evolution of the mode switches, from a single trajectory of the system states, inputs, and modes. Through mixing-time arguments, sample complexity of this algorithm is shown to be $\mathcal{O}(1/\sqrt{T})$. We then propose an adaptive control scheme that performs system identification together with certainty equivalent control to adapt the controllers in an episodic fashion. Combining our sample complexity results with recent perturbation results for certainty equivalent control, we prove that when the episode lengths are appropriately chosen, the proposed adaptive control scheme achieves $\mathcal{O}(\sqrt{T})$ regret, which can be improved to $\mathcal{O}(polylog(T))$ with partial knowledge of the system. Our proof strategy introduces innovations to handle Markovian jumps and a weaker notion of stability common in MJSs. Our analysis provides insights into system theoretic quantities that affect learning accuracy and control performance. Numerical simulations are presented to further reinforce these insights.


翻译:学习如何有效控制未知动态系统对于智能自主系统至关重要。 当基本动态随时间变化时, 此任务将成为一个重大挑战。 受此挑战的驱使, 本文会考虑控制未知的Markov 跳线系统( MJS) 的问题, 以优化二次目标。 我们从基于模型的角度, 考虑对MJS 进行基于识别的适应控制。 我们首先为MJS提供一个系统识别算法, 以学习每个模式的动态以及Markov 过渡矩阵, 从而了解模式开关的演变过程, 从系统状态、 投入和模式的单一轨迹变化中。 通过混合时间参数参数, 此算法的样本精度复杂性被显示为 $\ mathcal{ O} (1/\ sqrt{T} 优化系统, 将系统识别和确定等量控制来调整控制器的适应。 我们的样本复杂度结果与最近对确定性控制结果相结合, 我们证明当选择了插段长度时, 拟议的调控算方案将达到$\macal{ 和我们较弱的系统 解释策略。

0
下载
关闭预览

相关内容

【AAAI2022】基于渐进式增强学习的人脸伪造图像检测
专知会员服务
21+阅读 · 2022年1月19日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
20+阅读 · 2021年10月24日
专知会员服务
37+阅读 · 2020年10月15日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月14日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员