在马尔可夫决策过程(Markov Decision Processes, MDPs)中,在线规划(Online Planning)使智能体能够通过从当前状态出发模拟未来轨迹来进行序列决策,从而非常适用于大规模或动态环境。诸如稀疏采样(Sparse Sampling)和蒙特卡罗树搜索(Monte Carlo Tree Search, MCTS)等基于采样的方法被广泛采用,因为它们能够利用生成模型近似最优动作。 然而,在实际应用中,生成模型通常是由有限数据学习得到的,这会引入逼近误差,从而导致性能下降甚至出现不安全行为。为应对这一挑战,**鲁棒马尔可夫决策过程(Robust MDPs, RMDPs)**提供了一种在模型不确定性下进行规划的系统化框架,但现有方法往往计算开销巨大,不适合实时应用。
为此,本文提出了鲁棒稀疏采样(Robust Sparse Sampling, RSS),这是首个具有有限样本理论性能保证的RMDP在线规划算法。与传统稀疏采样只估计名义价值函数(nominal value function)不同,RSS利用样本平均近似(Sample Average Approximation, SAA)的高效性与理论性质,计算鲁棒价值函数(robust value function),从而在在线环境下实现可处理的鲁棒策略求解。 RSS适用于无限或连续状态空间,其样本复杂度和计算复杂度不依赖于状态空间规模。理论分析表明,RSS具有可靠的性能保证;实验结果进一步证明,在存在动态不确定性的环境中,RSS优于标准稀疏采样方法。