反事实风险最小化(CRM)是一个用于处理日志bandit反馈问题的框架,其目标是使用离线数据改进日志策略。本文探讨了可能多次部署学习到的策略并获得新数据的情况。我们将CRM原则及其理论扩展到这种场景,我们称之为“序列反事实风险最小化(SCRM)”。本文提出一种新的反事实估计器,并通过使用类似于加速优化方法中的重启策略的分析,确定可以在超额风险和遗憾率方面提高CRM性能的条件。还在离散和连续行动设置中对所提出方法进行了实证评估,并证明了CRM多次部署的好处。