在未知和不确定的环境中开辟安全路径是领导者-追随者编队控制的一项挑战。在这种结构中,领导者通过采取最佳行动向目标前进,追随者也应在保持理想队形的同时避开障碍物。该领域的大多数研究都将编队控制和障碍物规避分开考察。本研究提出了一种基于深度强化学习(DRL)的新方法,用于欠驱动自主水下航行器(AUV)的端到端运动规划和控制。其目的是为 AUV 的编队运动规划设计基于行动者批判结构的最优自适应分布式控制器。这是通过控制 AUV 的速度和航向来实现的。在避障方面,采用了两种方法。第一种方法的目标是为领导者和跟随者设计控制策略,使每个领导者和跟随者都能学习自己的无碰撞路径。此外,跟随者遵守整体编队维护策略。在第二种方法中,领跑者只学习控制策略,并安全地带领整个团队向目标前进。在这里,跟随者的控制策略是保持预定的距离和角度。在存在洋流、通信延迟和传感误差的情况下,展示了所提出方法在现实扰动环境下的鲁棒性。通过大量基于计算机的模拟,对算法的效率进行了评估和认可。