策略评估在强化学习(Reinforcement Learning,RL)的许多科学和工程应用中起着至关重要的作用,应用领域从临床试验到移动健康、机器人技术和自动驾驶等广泛覆盖。在众多用于策略评估的RL算法中,时序差分(Temporal Difference,TD)学习及其变体无疑是最为流行的。尽管通过TD学习进行策略评估的使用非常广泛且具有实际意义,但目前实践者缺乏支持其决策所需的统计工具。本文旨在解决这一问题,开发针对使用TD学习估计器进行策略评估的统计推断理论和方法。 论文的第一部分,我们推导出了基于线性函数近似的TD学习过程的估计误差的全新且精确的非渐近界。在假设独立样本的前提下,我们为平均TD学习和带梯度修正的两时间尺度TD学习提出了精确的样本复杂度界。在on-policy的设置下,我们的平均TD学习结果比之前的最先进界显著提升,其改进可以随着状态空间维度线性扩展。在off-policy的场景中,我们的上界首次在与容差水平相关的最小最大缩放下达到最优,同时表现出对所有问题相关参数的显式依赖。 论文的第二部分,我们聚焦于on-policy设置,开发了针对基于TD学习估计器的有效统计推断方法。我们利用在不同步长选择下TD估计器的有限样本分布逼近,并处理独立同分布样本和马尔可夫样本。我们取得了最先进的Berry-Esseen界,控制了TD估计误差收敛至其相应渐近分布的速率,并基于这些结果提出了一种在线算法来构建置信区间。我们验证了该置信区间在独立样本和马尔可夫轨迹下的有效性。

成为VIP会员查看完整内容
25

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【NTU博士论文】图结构数据的深度学习
专知会员服务
29+阅读 · 9月18日
多智能体深度强化学习研究进展
专知会员服务
51+阅读 · 7月17日
【CMU博士论文】最优传输的统计推断
专知会员服务
24+阅读 · 5月29日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
51+阅读 · 2022年11月24日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
【MIT博士论文】数据高效强化学习,176页pdf
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
【NTU博士论文】图结构数据的深度学习
专知会员服务
29+阅读 · 9月18日
多智能体深度强化学习研究进展
专知会员服务
51+阅读 · 7月17日
【CMU博士论文】最优传输的统计推断
专知会员服务
24+阅读 · 5月29日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
34+阅读 · 2023年8月31日
【CMU博士论文】黑盒和多目标优化策略,151页pdf
专知会员服务
51+阅读 · 2022年11月24日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
47+阅读 · 2022年6月28日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
相关资讯
【MIT博士论文】数据高效强化学习,176页pdf
论文浅尝 | 基于开放世界的知识图谱补全
开放知识图谱
11+阅读 · 2018年7月3日
现代情感分析方法
算法与数学之美
14+阅读 · 2018年1月12日
回归预测&时间序列预测
GBASE数据工程部数据团队
43+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员