This work proposes a unified control architecture that couples a Reinforcement Learning (RL)-driven controller with a disturbance-rejection Extended State Observer (ESO), complemented by an Event-Triggered Mechanism (ETM) to limit unnecessary computations. The ESO is utilized to estimate the system states and the lumped disturbance in real time, forming the foundation for effective disturbance compensation. To obtain near-optimal behavior without an accurate system description, a value-iteration-based Adaptive Dynamic Programming (ADP) method is adopted for policy approximation. The inclusion of the ETM ensures that parameter updates of the learning module are executed only when the state deviation surpasses a predefined bound, thereby preventing excessive learning activity and substantially reducing computational load. A Lyapunov-oriented analysis is used to characterize the stability properties of the resulting closed-loop system. Numerical experiments further confirm that the developed approach maintains strong control performance and disturbance tolerance, while achieving a significant reduction in sampling and processing effort compared with standard time-triggered ADP schemes.


翻译:本研究提出了一种统一控制架构,该架构将强化学习驱动的控制器与抗扰扩展状态观测器相结合,并辅以事件触发机制以限制不必要的计算。扩展状态观测器用于实时估计系统状态及集总扰动,为有效扰动补偿奠定基础。为在缺乏精确系统描述的情况下获得近似最优行为,采用基于值迭代的自适应动态规划方法进行策略逼近。事件触发机制的引入确保学习模块的参数更新仅在状态偏差超过预设边界时执行,从而避免过度学习活动并显著降低计算负荷。通过李雅普诺夫稳定性分析表征了所得闭环系统的稳定性特性。数值实验进一步证实,所提方法在保持强大控制性能和扰动容忍度的同时,相比标准时间触发自适应动态规划方案,显著降低了采样与处理开销。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关资讯
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员