To solve the coupling problem of control loops and the adaptive parameter tuning problem in the multi-input multi-output (MIMO) PID control system, a self-adaptive LSAC-PID algorithm is proposed based on deep reinforcement learning (RL) and Lyapunov-based reward shaping in this paper. For complex and unknown mobile robot control environment, an RL-based MIMO PID hybrid control strategy is firstly presented. According to the dynamic information and environmental feedback of the mobile robot, the RL agent can output the optimal MIMO PID parameters in real time, without knowing mathematical model and decoupling multiple control loops. Then, to improve the convergence speed of RL and the stability of mobile robots, a Lyapunov-based reward shaping soft actor-critic (LSAC) algorithm is proposed based on Lyapunov theory and potential-based reward shaping method. The convergence and optimality of the algorithm are proved in terms of the policy evaluation and improvement step of soft policy iteration. In addition, for line-following robots, the region growing method is improved to adapt to the influence of forks and environmental interference. Through comparison, test and cross-validation, the simulation and real-environment experimental results all show good performance of the proposed LSAC-PID tuning algorithm.


翻译:为解决多投入多输出(MIMO)PID控制系统中控制循环和适应参数调控问题的混合问题,本文件根据深强化学习(RL)和基于Lyapunov的奖励制成,提出了自我调整的LSAC-PID算法。对于复杂和未知的移动机器人控制环境,首先提出了基于RL的MSIMPID混合控制战略。根据移动机器人的动态信息和环境反馈,RL代理商可以实时输出最佳的MIMO PID参数,而不熟悉数学模型和分离多个控制圈。然后,为了提高RL的趋同速度和移动机器人的稳定性,提出了基于Lyapunov的奖励制成软动作-crict(LSAC)的计算法。根据流动机器人的动态信息和环境反馈,RLIMOP混合控制战略的趋同和优化体现在政策评价和改进软政策转换步骤上。此外,对于跟踪线机器人而言,该区域正在不断增长的方法正在改进,以适应实际环境的模拟和测试结果。

1
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
16+阅读 · 2020年9月1日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
3+阅读 · 2018年4月9日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
16+阅读 · 2020年9月1日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员