在随机控制问题中,代理选择最优策略以最大化或最小化性能准则。性能准则可以是标准控制问题的奖励函数的期望,也可以是鲁棒控制问题的非线性期望。在参数化的随机控制问题中,代理需要知道随机系统中模型参数的值,以正确指定最优策略。然而,代理知道模型参数值的情况几乎是不存在的。
在本论文中,我们的目标是研究一个鲁棒的随机控制问题,其中代理不知道基础过程的参数值。因此,我们构建了一个随机控制问题,假设代理不知道模型参数的值。然而,代理使用可观察的过程来估计模型参数的值,同时在一个鲁棒的框架内解决随机控制问题。
这个新的随机控制问题有两个关键组成部分。第一个组件是参数估计部分,代理使用基础过程的实现来估计随机系统中的未知参数。我们特别关注在线参数估计。在线估计器是我们的随机控制问题的一个重要成分,因为这种类型的估计器允许代理以反馈形式获得最优策略。第二个组件是随机控制部分,问题是如何设计一个时间一致的随机控制问题,使代理也能同时估计参数并优化其策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件,然后仔细研究在此框架下的效用最大化问题。
在本论文中,我们研究了随机控制问题,其中代理没有对模型中参数值的充分了解,并且随着时间的推移,使用新的观察来估计参数,并同时更新最优策略。这个问题从理论和实践的角度都很有趣。标准的随机控制问题通常假设代理知道模型参数的值,这是一个很强的假设,在实践中并不成立。通过放宽对参数知识的假设,我们可以将新的随机控制框架应用于许多经典的随机控制问题,比如效用最大化,其中代理没有对随机系统中模型参数值的充分了解。这些随机控制问题中有两个关键组件。首先,随着时间的推移和更多信息的可用性,估计参数的值。在本论文中,我们关注在线参数估计。在线估计器是我们研究的随机控制问题的一个重要成分,因为在线估计器允许代理获得反馈形式的策略(马尔可夫)。其次,设计一个时间一致的随机控制问题,允许代理在线估计参数,同时推导出最优策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件。