在马尔可夫决策过程(Markov Decision Processes, MDPs)中,在线规划(Online Planning)使智能体能够通过从当前状态出发模拟未来轨迹来进行序列决策,从而非常适用于大规模或动态环境。诸如稀疏采样(Sparse Sampling)蒙特卡罗树搜索(Monte Carlo Tree Search, MCTS)等基于采样的方法被广泛采用,因为它们能够利用生成模型近似最优动作。 然而,在实际应用中,生成模型通常是由有限数据学习得到的,这会引入逼近误差,从而导致性能下降甚至出现不安全行为。为应对这一挑战,**鲁棒马尔可夫决策过程(Robust MDPs, RMDPs)**提供了一种在模型不确定性下进行规划的系统化框架,但现有方法往往计算开销巨大,不适合实时应用。

为此,本文提出了鲁棒稀疏采样(Robust Sparse Sampling, RSS),这是首个具有有限样本理论性能保证的RMDP在线规划算法。与传统稀疏采样只估计名义价值函数(nominal value function)不同,RSS利用样本平均近似(Sample Average Approximation, SAA)的高效性与理论性质,计算鲁棒价值函数(robust value function),从而在在线环境下实现可处理的鲁棒策略求解。 RSS适用于无限或连续状态空间,其样本复杂度和计算复杂度不依赖于状态空间规模。理论分析表明,RSS具有可靠的性能保证;实验结果进一步证明,在存在动态不确定性的环境中,RSS优于标准稀疏采样方法。

成为VIP会员查看完整内容
0

相关内容

【ACMMM2024】处理医疗图像分类中类增量学习的失衡问题
专知会员服务
18+阅读 · 2024年7月21日
【CVPR2024】平衡之道:扩散模型中的分布指导去偏差
专知会员服务
22+阅读 · 2024年3月2日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
13+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员