强健的Phi-Di-Di-Diverence MDPs (Robust Phi-Divergence MDPs) - 专知论文

会员服务 ·

0

稳健性 · 转移核 · 单纯形 · Processing（编程语言） · 核化 ·

2023 年 1 月 12 日

Robust Phi-Divergence MDPs

翻译：强健的Phi-Di-Di-Diverence MDPs

Chin Pang Ho,Marek Petrik,Wolfram Wiesemann

In recent years, robust Markov decision processes (MDPs) have emerged as a prominent modeling framework for dynamic decision problems affected by uncertainty. In contrast to classical MDPs, which only account for stochasticity by modeling the dynamics through a stochastic process with a known transition kernel, robust MDPs additionally account for ambiguity by optimizing in view of the most adverse transition kernel from a prescribed ambiguity set. In this paper, we develop a novel solution framework for robust MDPs with s-rectangular ambiguity sets that decomposes the problem into a sequence of robust Bellman updates and simplex projections. Exploiting the rich structure present in the simplex projections corresponding to phi-divergence ambiguity sets, we show that the associated s-rectangular robust MDPs can be solved substantially faster than with state-of-the-art commercial solvers as well as a recent first-order solution scheme, thus rendering them attractive alternatives to classical MDPs in practical applications.

翻译：近年来,稳健的马尔科夫决策流程(MDPs)已成为受不确定性影响的动态决策问题的重要模型框架。与传统的MDPs形成鲜明的模型框架相反,传统的MDPs通过一个已知的过渡内核的随机过程模拟动态,这只能说明随机性,而强健的MDPs又通过一个已知的过渡内核的模拟过程,通过优化从规定的模棱两可中最不利的过渡内核来解释模糊性。在本文件中,我们为强健的MDPs制定了一个新的解决方案框架,带有立方形模糊性,将问题分解成一个稳健的贝尔曼更新和简单预测的序列。我们利用简单预测中的丰富结构,与视视网点的模糊性各组相匹配,我们表明,相关的长方形强的MDPs能够大大快于最先进的商业解决方案以及最近的一级解决方案,从而在实际应用中为典型的MDP提供具有吸引力的替代方案。

0

相关内容

稳健性

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知会员服务

142+阅读 · 2022年11月5日

【图机器学习进展与趋势@ICML2022】Graph Machine Learning @ ICML 2022

【图机器学习进展与趋势@ICML2022】Graph Machine Learning @ ICML 2022

专知会员服务

40+阅读 · 2022年7月25日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【经典书】线性代数，436页pdf

专知会员服务

78+阅读 · 2021年3月16日

【2020新书】概率机器学习，附212页pdf与slides

【2020新书】概率机器学习，附212页pdf与slides

专知会员服务

112+阅读 · 2020年11月12日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

空间分数阶质量守恒型Allen-Cahn方程的高效数值算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

IIB族元素同核二聚物的电子基态和低激发态势能曲线的高精度计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性离散系统的周期解和同宿解

国家自然科学基金

0+阅读 · 2015年12月31日

强相互作用量子点的非平衡输运性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

振荡型积分的有界性质及其在色散方程中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

Partial Spread Bent函数与Bent-Negabent函数的构造及密码学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

一些q-特殊函数的研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑绝缘体量子点表面激子特性及调控

国家自然科学基金

0+阅读 · 2012年12月31日

miR-206调控子宫内膜癌ERα的体内治疗实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

遍历哈密顿系统的谱理论

国家自然科学基金

0+阅读 · 2009年12月31日

Formally Verified Solution Methods for Infinite-Horizon Markov Decision Processes

Arxiv

0+阅读 · 2023年3月8日

Inference and FDR Control for Simulated Markov Random Fields in High-dimension

Arxiv

0+阅读 · 2023年3月8日

Arxiv

0+阅读 · 2023年3月7日

New Perspectives on Regularization and Computation in Optimal Transport-Based Distributionally Robust Optimization

Arxiv

0+阅读 · 2023年3月7日

Rate-Optimal Contextual Online Matching Bandit

Arxiv

0+阅读 · 2023年3月7日

Accelerated Rates between Stochastic and Adversarial Online Convex Optimization

Arxiv

0+阅读 · 2023年3月6日

An Online Algorithm for Chance Constrained Resource Allocation

Arxiv

0+阅读 · 2023年3月6日

Switchable Representation Learning Framework with Self-compatibility

Arxiv

0+阅读 · 2023年3月6日

Assigning Agents to Increase Network-Based Neighborhood Diversity

Arxiv

0+阅读 · 2023年3月3日

A Finite Sample Complexity Bound for Distributionally Robust Q-learning

Arxiv

0+阅读 · 2023年3月3日

VIP会员

文章信息

相关主题

Processing（编程语言）

相关VIP内容

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知会员服务

142+阅读 · 2022年11月5日

【图机器学习进展与趋势@ICML2022】Graph Machine Learning @ ICML 2022

【图机器学习进展与趋势@ICML2022】Graph Machine Learning @ ICML 2022

专知会员服务

40+阅读 · 2022年7月25日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【经典书】线性代数，436页pdf

专知会员服务

78+阅读 · 2021年3月16日

【2020新书】概率机器学习，附212页pdf与slides

【2020新书】概率机器学习，附212页pdf与slides

专知会员服务

112+阅读 · 2020年11月12日

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

【新书】数字图像(影像)处理手第二版，2176pdf，Mathematical Methods in Imaging

专知会员服务

93+阅读 · 2020年2月12日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

网络科学赋能人工智能: 现状与展望

【NeurIPS2025教程】解释人工智能模型：可解释人工智能、数据中心人工智能与机制可解释性的方法与机遇

人工智能赋能作战行动：以俄乌战争为例

【ETHZ博士论文】表征学习在推进深度学习中的作用：效率、可扩展性与推理

相关资讯

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

ACM TOMM Call for Papers

ACM TOMM Call for Papers

CCF多媒体专委会

2+阅读 · 2022年3月23日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

相关论文

Formally Verified Solution Methods for Infinite-Horizon Markov Decision Processes

Arxiv

0+阅读 · 2023年3月8日

Inference and FDR Control for Simulated Markov Random Fields in High-dimension

Arxiv

0+阅读 · 2023年3月8日

Arxiv

0+阅读 · 2023年3月7日

New Perspectives on Regularization and Computation in Optimal Transport-Based Distributionally Robust Optimization

Arxiv

0+阅读 · 2023年3月7日

Rate-Optimal Contextual Online Matching Bandit

Arxiv

0+阅读 · 2023年3月7日

Accelerated Rates between Stochastic and Adversarial Online Convex Optimization

Arxiv

0+阅读 · 2023年3月6日

An Online Algorithm for Chance Constrained Resource Allocation

Arxiv

0+阅读 · 2023年3月6日

Switchable Representation Learning Framework with Self-compatibility

Arxiv

0+阅读 · 2023年3月6日

Assigning Agents to Increase Network-Based Neighborhood Diversity

Arxiv

0+阅读 · 2023年3月3日

A Finite Sample Complexity Bound for Distributionally Robust Q-learning

Arxiv

0+阅读 · 2023年3月3日

相关基金

空间分数阶质量守恒型Allen-Cahn方程的高效数值算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

IIB族元素同核二聚物的电子基态和低激发态势能曲线的高精度计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性离散系统的周期解和同宿解

国家自然科学基金

0+阅读 · 2015年12月31日

强相互作用量子点的非平衡输运性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

振荡型积分的有界性质及其在色散方程中的应用

国家自然科学基金

0+阅读 · 2013年12月31日

Partial Spread Bent函数与Bent-Negabent函数的构造及密码学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

一些q-特殊函数的研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑绝缘体量子点表面激子特性及调控

国家自然科学基金

0+阅读 · 2012年12月31日

miR-206调控子宫内膜癌ERα的体内治疗实验研究

国家自然科学基金

0+阅读 · 2011年12月31日

遍历哈密顿系统的谱理论

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员