In control theory, to solve a finite-horizon sequential decision problem (SDP) commonly means to find a list of decision rules that result in an optimal expected total reward (or cost) when taking a given number of decision steps. SDPs are routinely solved using Bellman's backward induction. Textbook authors (e.g. Bertsekas or Puterman) typically give more or less formal proofs to show that the backward induction algorithm is correct as solution method for deterministic and stochastic SDPs. Botta, Jansson and Ionescu propose a generic framework for finite horizon, monadic SDPs together with a monadic version of backward induction for solving such SDPs. In monadic SDPs, the monad captures a generic notion of uncertainty, while a generic measure function aggregates rewards. In the present paper we define a notion of correctness for monadic SDPs and identify three conditions that allow us to prove a correctness result for monadic backward induction that is comparable to textbook correctness proofs for ordinary backward induction. The conditions that we impose are fairly general and can be cast in category-theoretical terms using the notion of Eilenberg-Moore-algebra. They hold in familiar settings like those of deterministic or stochastic SDPs but we also give examples in which they fail. Our results show that backward induction can safely be employed for a broader class of SDPs than usually treated in textbooks. However, they also rule out certain instances that were considered admissible in the context of Botta et al.'s generic framework. Our development is formalised in Idris as an extension of the Botta et al. framework and the sources are available as supplementary material.


翻译:在控制理论中,解决一个有限和偏差顺序决定问题(SDP)通常意味着寻找一个决定规则清单,在采取一定数量的决定步骤时,能够产生最佳的预期总报酬(或成本)。SDP通常使用Bellman的后向诱导来解决。教科书作者(如Bertsekas或Puterman)通常提供或多或少的正式证明,以表明后向上岗算法作为确定性和随机 SDP 的解决方案是正确的。Botta、Jansson和Ionescu共同提出一个决定规则的清单,在采取一定数量的决定步骤时,可以产生最佳的预期总报酬(或成本 成本 ) 。 在Moadic SDP 中,modic modic 通常会捕捉到一种一般的不确定性概念, 而通用的衡量功能则综合奖励。在本文中,我们定义一个概念的正确性概念概念,即:后向后向上岗人介绍的三种条件,让我们证明一个正确性结果,这可以比教科书的后向后向上层介绍。他们也认为,我们通常采用后向后向后向后进的版本。他们采用后向后向后向后向。他们通常采用后向后向后向后向后向后向后向后向后向后向。他们提供后向后向后向后向后向后向后向后向后向框架。他们使用。他们使用后向后向后向后向后向后向后向后向后向框架。他们使用的方法。他们使用的方法。他们使用的方法,通常使用后向后向。他们使用后向后向后向后向。他们使用后向后向后向后向。他们使用后向。他们使用的方法,通常使用后向后向后向后向后向后向后向后向后向后向后向。他们通常使用的方法,通常使用的方法,通常使用后向。他们使用的方法,通常使用的方法,通常使用后向。他们通常使用后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向后向

0
下载
关闭预览

相关内容

【Google-Marco Cuturi】最优传输,339页ppt,Optimal Transport
专知会员服务
47+阅读 · 2021年10月26日
专知会员服务
20+阅读 · 2021年8月31日
专知会员服务
47+阅读 · 2021年4月24日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
39+阅读 · 2020年9月6日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月31日
Share-a-ride problems: Models and Solution Algorithms
Arxiv
0+阅读 · 2021年10月28日
Arxiv
11+阅读 · 2021年3月25日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【推荐】免费书(草稿):数据科学的数学基础
机器学习研究会
20+阅读 · 2017年10月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员