【CMU博士论文】强化学习中策略评估的统计推断 - 专知VIP

会员服务 ·

15

强化学习 · 策略评估 · 博士论文 ·

2024 年 9 月 15 日

【CMU博士论文】强化学习中策略评估的统计推断

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

策略评估在强化学习（Reinforcement Learning，RL）的许多科学和工程应用中起着至关重要的作用，应用领域从临床试验到移动健康、机器人技术和自动驾驶等广泛覆盖。在众多用于策略评估的RL算法中，时序差分（Temporal Difference，TD）学习及其变体无疑是最为流行的。尽管通过TD学习进行策略评估的使用非常广泛且具有实际意义，但目前实践者缺乏支持其决策所需的统计工具。本文旨在解决这一问题，开发针对使用TD学习估计器进行策略评估的统计推断理论和方法。论文的第一部分，我们推导出了基于线性函数近似的TD学习过程的估计误差的全新且精确的非渐近界。在假设独立样本的前提下，我们为平均TD学习和带梯度修正的两时间尺度TD学习提出了精确的样本复杂度界。在on-policy的设置下，我们的平均TD学习结果比之前的最先进界显著提升，其改进可以随着状态空间维度线性扩展。在off-policy的场景中，我们的上界首次在与容差水平相关的最小最大缩放下达到最优，同时表现出对所有问题相关参数的显式依赖。论文的第二部分，我们聚焦于on-policy设置，开发了针对基于TD学习估计器的有效统计推断方法。我们利用在不同步长选择下TD估计器的有限样本分布逼近，并处理独立同分布样本和马尔可夫样本。我们取得了最先进的Berry-Esseen界，控制了TD估计误差收敛至其相应渐近分布的速率，并基于这些结果提出了一种在线算法来构建置信区间。我们验证了该置信区间在独立样本和马尔可夫轨迹下的有效性。

成为VIP会员查看完整内容

26

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【NTU博士论文】图结构数据的深度学习

【NTU博士论文】图结构数据的深度学习

专知会员服务

33+阅读 · 2024年9月18日

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

专知会员服务

26+阅读 · 2024年8月18日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

72+阅读 · 2024年7月17日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

26+阅读 · 2024年5月29日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

73+阅读 · 2024年4月16日

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

36+阅读 · 2023年8月31日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

133+阅读 · 2019年12月7日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【2022新书】数据科学的实用线性代数，328页pdf

【2022新书】数据科学的实用线性代数，328页pdf

专知

21+阅读 · 2022年9月18日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

论文浅尝 | 基于开放世界的知识图谱补全

论文浅尝 | 基于开放世界的知识图谱补全

开放知识图谱

11+阅读 · 2018年7月3日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

经验小波变换理论及其在机械故障诊断中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

Detecting dependence structure: visualization and inference

Arxiv

0+阅读 · 2024年10月8日

Exact sensitivity analysis of Markov reward processes via algebraic geometry

Arxiv

0+阅读 · 2024年10月7日

Complete representation by partial functions for signatures containing antidomain restriction

Arxiv

0+阅读 · 2024年10月7日

A mobile digital device proficiency performance test for cognitive clinical research

Arxiv

0+阅读 · 2024年10月6日

Improving curriculum learning for target speaker extraction with synthetic speakers

Arxiv

0+阅读 · 2024年10月5日

Linear combinations of Gaussian latents in generative models: interpolation and beyond

Arxiv

0+阅读 · 2024年10月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

VIP会员

相关主题

相关VIP内容

【NTU博士论文】图结构数据的深度学习

【NTU博士论文】图结构数据的深度学习

专知会员服务

33+阅读 · 2024年9月18日

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

【CMU博士论文】关于通过终任务感知训练实现资源高效的迁移学习

专知会员服务

26+阅读 · 2024年8月18日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

72+阅读 · 2024年7月17日

【CMU博士论文】最优传输的统计推断

【CMU博士论文】最优传输的统计推断

专知会员服务

26+阅读 · 2024年5月29日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

73+阅读 · 2024年4月16日

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

【MIT博士论文】序列博弈中的近似最优学习, 338页pdf

专知会员服务

36+阅读 · 2023年8月31日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知会员服务

52+阅读 · 2022年11月24日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

133+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《毁灭算法：解析以色列在加沙的AI军事行动》

【COLT 2025最新教程】语言生成

以机器速度锁定目标：人工智能的能力与局限

【ICML2025】通过在线世界模型规划的持续强化学习

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【2022新书】数据科学的实用线性代数，328页pdf

【2022新书】数据科学的实用线性代数，328页pdf

专知

21+阅读 · 2022年9月18日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

17+阅读 · 2022年7月11日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

论文浅尝 | 基于开放世界的知识图谱补全

论文浅尝 | 基于开放世界的知识图谱补全

开放知识图谱

11+阅读 · 2018年7月3日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

现代情感分析方法

现代情感分析方法

算法与数学之美

14+阅读 · 2018年1月12日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关基金

抑郁症患者及一级亲属奖励与惩罚处理神经机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息系统直接使用与间接使用—探索基于社会权力视角的前因及其对工作绩效的影响

国家自然科学基金

1+阅读 · 2015年12月31日

协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

经验小波变换理论及其在机械故障诊断中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

纵向数据的动态半参数建模及其统计推断

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Detecting dependence structure: visualization and inference

Arxiv

0+阅读 · 2024年10月8日

Exact sensitivity analysis of Markov reward processes via algebraic geometry

Arxiv

0+阅读 · 2024年10月7日

Complete representation by partial functions for signatures containing antidomain restriction

Arxiv

0+阅读 · 2024年10月7日

A mobile digital device proficiency performance test for cognitive clinical research

Arxiv

0+阅读 · 2024年10月6日

Improving curriculum learning for target speaker extraction with synthetic speakers

Arxiv

0+阅读 · 2024年10月5日

Linear combinations of Gaussian latents in generative models: interpolation and beyond

Arxiv

0+阅读 · 2024年10月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

472+阅读 · 2023年3月31日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

微信扫码咨询专知VIP会员