在本文中,我们考虑了多目标强化学习,这在具有多个优化目标的许多实际问题中出现。我们采用最大-最小框架来解决这一问题,重点关注多个目标之间的公平性,并在最大-最小框架下开发了相关理论和实用的无模型算法。所开发的理论在多目标强化学习方面提供了理论上的进步,而提出的算法在性能上显著优于现有的基准方法。