我们首先在非稳态强化学习(RL)中提出并解决了代理与环境之间的“时间同步”问题,这是阻碍其实际应用的关键因素。在现实中,环境变化是基于墙钟时间(t)而不是集数(k)发生的,其中墙钟时间表示在固定持续时间t∈[0, T]内实际流逝的时间。在现有的工作中,在集数k,代理执行一条轨迹并训练策略,然后转到集数k+1。然而,在时间不同步的环境中,代理在时间tk分配∆t用于轨迹生成和训练,随后在tk+1 = tk + ∆t时转到下一集数。尽管集数总数(K)固定,代理根据交互时间(t1,t2,…,tK)的选择积累了不同的轨迹,这对策略的次优性差距产生了重大影响。我们提出了一个主动同步节奏(ProST)框架,该框架计算最优的{t1,t2,…,tK}(= {t}1∶K)。我们的主要贡献是,我们展示了最优的{t}1∶K在策略训练时间(代理节奏)与环境变化速度(环境节奏)之间进行权衡。从理论上讲,这项工作将最优的{t}1∶K建立为环境非稳态度的函数,同时还实现了亚线性动态遗憾。我们对各种高维非稳态环境进行的实验评估表明,ProST框架在最优的{t}1∶K下比现有方法实现了更高的在线回报。 https://www.zhuanzhi.ai/paper/dc534b1550d2e0d15202c1dd6cfab8d8