作为人类,我们的目标和环境在我们的一生中不断变化,这是基于我们的经验、行动以及内在和外在的驱动力。相反,典型的强化学习问题设置考虑的决策过程是跨情景的静态过程。我们能不能开发一种强化学习算法来应对前者中更现实的问题设置的持续变化?虽然策略上的算法(如策略梯度)原则上可以扩展到非平稳设置,但更有效的非策略算法(在学习时回放过去的经验)却不能这么说。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,得出了一个非策略RL算法,可以推理和处理这种终身非平稳性。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几个显示终生非平稳性的模拟环境,并根据经验发现,我们的方法大大优于那些不考虑环境变化的方法。