【牛津大学博士论文】结合统计学习的自适应鲁棒控制, 164页pdf

在随机控制问题中，代理选择最优策略以最大化或最小化性能准则。性能准则可以是标准控制问题的奖励函数的期望，也可以是鲁棒控制问题的非线性期望。在参数化的随机控制问题中，代理需要知道随机系统中模型参数的值，以正确指定最优策略。然而，代理知道模型参数值的情况几乎是不存在的。

在本论文中，我们的目标是研究一个鲁棒的随机控制问题，其中代理不知道基础过程的参数值。因此，我们构建了一个随机控制问题，假设代理不知道模型参数的值。然而，代理使用可观察的过程来估计模型参数的值，同时在一个鲁棒的框架内解决随机控制问题。

这个新的随机控制问题有两个关键组成部分。第一个组件是参数估计部分，代理使用基础过程的实现来估计随机系统中的未知参数。我们特别关注在线参数估计。在线估计器是我们的随机控制问题的一个重要成分，因为这种类型的估计器允许代理以反馈形式获得最优策略。第二个组件是随机控制部分，问题是如何设计一个时间一致的随机控制问题，使代理也能同时估计参数并优化其策略。在本论文中，我们在连续时间设置中解决上述问题的每个组件，然后仔细研究在此框架下的效用最大化问题。

在本论文中，我们研究了随机控制问题，其中代理没有对模型中参数值的充分了解，并且随着时间的推移，使用新的观察来估计参数，并同时更新最优策略。这个问题从理论和实践的角度都很有趣。标准的随机控制问题通常假设代理知道模型参数的值，这是一个很强的假设，在实践中并不成立。通过放宽对参数知识的假设，我们可以将新的随机控制框架应用于许多经典的随机控制问题，比如效用最大化，其中代理没有对随机系统中模型参数值的充分了解。这些随机控制问题中有两个关键组件。首先，随着时间的推移和更多信息的可用性，估计参数的值。在本论文中，我们关注在线参数估计。在线估计器是我们研究的随机控制问题的一个重要成分，因为在线估计器允许代理获得反馈形式的策略（马尔可夫）。其次，设计一个时间一致的随机控制问题，允许代理在线估计参数，同时推导出最优策略。在本论文中，我们在连续时间设置中解决上述问题的每个组件。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津大学博士论文】基于评分规则的生成模型统计推断, 274页pdf

专知会员服务

39+阅读 · 2023年7月5日

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

【伯克利博士论文】不确定性序列决策:最优性保证，组合学习，以及在机器人技术和生态学中的应用，256页pdf

专知会员服务

37+阅读 · 2023年5月17日

【牛津大学博士论文】基于变分自编码改进表示学习,170页pdf

专知会员服务

39+阅读 · 2023年5月7日