我们研究了智能体在面临一系列强化学习任务时的知识转移问题。在马尔可夫决策过程之间引入了一种新的度量方法,证明了封闭式多目标决策具有封闭式最优值函数。形式上,最优值函数是关于任务空间的Lipschitz连续函数。根据这些理论结果,我们提出了一种终身RL的值转移方法,并利用该方法建立了一种收敛速度较好的PAC-MDP算法。我们在终身RL实验中说明了该方法的好处。