最坏情况控制和学习在部分观测下的无限时间轴上 (Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon) - 专知论文

会员服务 ·

0

最坏情况 · 控制策略 · 无限 · 扰动 · 损失 ·

2023 年 3 月 28 日

Worst-Case Control and Learning Using Partial Observations Over an Infinite Time-Horizon

翻译：最坏情况控制和学习在部分观测下的无限时间轴上

Aditya Dave,Ioannis Faros,Nishanth Venkatesh,Andreas A. Malikopoulos

Safety-critical cyber-physical systems require control strategies whose worst-case performance is robust against adversarial disturbances and modeling uncertainties. In this paper, we present a framework for approximate control and learning in partially observed systems to minimize the worst-case discounted cost over an infinite time-horizon. We model disturbances to the system as finite-valued uncertain variables with unknown probability distributions. For problems with known system dynamics, we construct a dynamic programming (DP) decomposition to compute the optimal control strategy. Our first contribution is to define information states that improve the computational tractability of this DP without loss of optimality. Then, we describe a simplification for a class of problems where the incurred cost is observable at each time-instance. Our second contribution is a definition of approximate information states that can be constructed or learned directly from observed data for problems with observable costs. We derive bounds on the performance loss of the resulting approximate control strategy.

翻译：关键性安全物理系统需要控制策略，其最坏情况表现对抗扰动和建模不确定性具有鲁棒性。在本文中，我们提出了一个框架，用于部分观测系统中的近似控制和学习，以最小化无限时间轴上的最坏情况折扣成本。我们将系统对扰动建模为未知概率分布的有限值不确定变量。对于已知系统动力学的问题，我们构造了一个动态规划（DP）分解，以计算最优的控制策略。我们的第一个贡献是定义信息状态，以提高DP的计算可处理性，而不会损失最优性。然后，我们描述了一种简化适用于在每个时间区间内可观察到已发生损失的问题的类别。我们的第二个贡献是定义了大致信息状态，适用于具有可观测代价的问题，可以直接从观察到的数据中构造或学习。我们推导出了由此产生的近似控制策略的性能损失的界限。

0

相关内容

最坏情况

干货书！基于单调算子的大规模凸优化，348页pdf

干货书！基于单调算子的大规模凸优化，348页pdf

专知会员服务

50+阅读 · 2022年7月24日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

专知会员服务

58+阅读 · 2020年5月21日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

专知会员服务

16+阅读 · 2019年12月10日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

超声波电机高效率非线性Hammerstein控制方法

国家自然科学基金

0+阅读 · 2013年12月31日

压缩感知LIDAR三维成像原理与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

框架的冗余度

国家自然科学基金

0+阅读 · 2012年12月31日

基于运动模式在线学习的移动机器人对运动目标的主动观测与最优跟踪

国家自然科学基金

0+阅读 · 2011年12月31日

质子交换膜燃料电池发电系统的最优控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

广义Fermat猜想与相关的丢番图方程

国家自然科学基金

1+阅读 · 2009年12月31日

大规模风电接入情况下互联电网有功/频率控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

Off-policy evaluation beyond overlap: partial identification through smoothness

Arxiv

0+阅读 · 2023年5月19日

Improved and Partially-Tight Lower Bounds for Message-Passing Implementations of Multiplicity Queues

Arxiv

0+阅读 · 2023年5月18日

Uniform approximation of common Gaussian process kernels using equispaced Fourier grids

Arxiv

0+阅读 · 2023年5月18日

Algorithms for Boolean Matrix Factorization using Integer Programming

Arxiv

0+阅读 · 2023年5月17日

An efficient solver for ASP(Q)

Arxiv

0+阅读 · 2023年5月17日

Robust Power Allocation for Integrated Visible Light Positioning and Communication Networks

Arxiv

0+阅读 · 2023年5月17日

Reinforcement Learning for Safe Robot Control using Control Lyapunov Barrier Functions

Arxiv

0+阅读 · 2023年5月16日

A Survey on Heterogeneous Federated Learning

Arxiv

20+阅读 · 2022年10月10日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

VIP会员

文章信息

相关主题

相关VIP内容

干货书！基于单调算子的大规模凸优化，348页pdf

干货书！基于单调算子的大规模凸优化，348页pdf

专知会员服务

50+阅读 · 2022年7月24日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

53+阅读 · 2020年9月7日

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

【MIT】从视频物理系统进行因果发现，Causal Discovery in Physical Systems from Videos

专知会员服务

26+阅读 · 2020年7月4日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

专知会员服务

58+阅读 · 2020年5月21日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

【Facebook|AAAI2020】在合作的部分可观察博弈中通过搜索改进策略（Improving Policies via Search in Cooperative Partially Observable Games）

专知会员服务

16+阅读 · 2019年12月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《人与智能体在系统工程建模语言V2任务中的性能表现：基于用户中心化的评估方法》308页

《数据安全国家标准体系（2025版）》征求意见稿

AlphaMosaic：人工智能赋能的作战管理系统

《军事行动中通信平台的战略价值：提升战术效能与作战优势》

相关资讯

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

灾难性遗忘问题新视角：迁移-干扰平衡

灾难性遗忘问题新视角：迁移-干扰平衡

CreateAMind

17+阅读 · 2019年7月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

相关论文

Off-policy evaluation beyond overlap: partial identification through smoothness

Arxiv

0+阅读 · 2023年5月19日

Improved and Partially-Tight Lower Bounds for Message-Passing Implementations of Multiplicity Queues

Arxiv

0+阅读 · 2023年5月18日

Uniform approximation of common Gaussian process kernels using equispaced Fourier grids

Arxiv

0+阅读 · 2023年5月18日

Algorithms for Boolean Matrix Factorization using Integer Programming

Arxiv

0+阅读 · 2023年5月17日

An efficient solver for ASP(Q)

Arxiv

0+阅读 · 2023年5月17日

Robust Power Allocation for Integrated Visible Light Positioning and Communication Networks

Arxiv

0+阅读 · 2023年5月17日

Reinforcement Learning for Safe Robot Control using Control Lyapunov Barrier Functions

Arxiv

0+阅读 · 2023年5月16日

A Survey on Heterogeneous Federated Learning

Arxiv

20+阅读 · 2022年10月10日

On Neural Differential Equations

Arxiv

23+阅读 · 2022年2月4日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

相关基金

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

全空间中临界Surface Quasi-geostrophic方程的全局吸引子及其分形维数

国家自然科学基金

0+阅读 · 2014年12月31日

超声波电机高效率非线性Hammerstein控制方法

国家自然科学基金

0+阅读 · 2013年12月31日

压缩感知LIDAR三维成像原理与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Kronheimer-Nakajima quiver 模空间与有理曲面

国家自然科学基金

1+阅读 · 2013年12月31日

框架的冗余度

国家自然科学基金

0+阅读 · 2012年12月31日

基于运动模式在线学习的移动机器人对运动目标的主动观测与最优跟踪

国家自然科学基金

0+阅读 · 2011年12月31日

质子交换膜燃料电池发电系统的最优控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

广义Fermat猜想与相关的丢番图方程

国家自然科学基金

1+阅读 · 2009年12月31日

大规模风电接入情况下互联电网有功/频率控制研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员