本文提出了一种具有全局最优保证和复杂度分析的策略梯度法,用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度,它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全局最优。我们进一步开发了一种平滑鲁棒的策略梯度方法,并表明要实现-全局最优,复杂度为O(e−3)。然后我们将我们的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和价值函数的鲁棒行为-评论方法。我们进一步刻画了它在表格设置下的渐近收敛性和样本复杂性。最后,我们提供了仿真结果,以证明我们的方法的鲁棒性。