策略评估在强化学习(Reinforcement Learning,RL)的许多科学和工程应用中起着至关重要的作用,应用领域从临床试验到移动健康、机器人技术和自动驾驶等广泛覆盖。在众多用于策略评估的RL算法中,时序差分(Temporal Difference,TD)学习及其变体无疑是最为流行的。尽管通过TD学习进行策略评估的使用非常广泛且具有实际意义,但目前实践者缺乏支持其决策所需的统计工具。本文旨在解决这一问题,开发针对使用TD学习估计器进行策略评估的统计推断理论和方法。 论文的第一部分,我们推导出了基于线性函数近似的TD学习过程的估计误差的全新且精确的非渐近界。在假设独立样本的前提下,我们为平均TD学习和带梯度修正的两时间尺度TD学习提出了精确的样本复杂度界。在on-policy的设置下,我们的平均TD学习结果比之前的最先进界显著提升,其改进可以随着状态空间维度线性扩展。在off-policy的场景中,我们的上界首次在与容差水平相关的最小最大缩放下达到最优,同时表现出对所有问题相关参数的显式依赖。 论文的第二部分,我们聚焦于on-policy设置,开发了针对基于TD学习估计器的有效统计推断方法。我们利用在不同步长选择下TD估计器的有限样本分布逼近,并处理独立同分布样本和马尔可夫样本。我们取得了最先进的Berry-Esseen界,控制了TD估计误差收敛至其相应渐近分布的速率,并基于这些结果提出了一种在线算法来构建置信区间。我们验证了该置信区间在独立样本和马尔可夫轨迹下的有效性。