在随机控制问题中,代理选择最优策略以最大化或最小化性能准则。性能准则可以是标准控制问题的奖励函数的期望,也可以是鲁棒控制问题的非线性期望。在参数化的随机控制问题中,代理需要知道随机系统中模型参数的值,以正确指定最优策略。然而,代理知道模型参数值的情况几乎是不存在的。

在本论文中,我们的目标是研究一个鲁棒的随机控制问题,其中代理不知道基础过程的参数值。因此,我们构建了一个随机控制问题,假设代理不知道模型参数的值。然而,代理使用可观察的过程来估计模型参数的值,同时在一个鲁棒的框架内解决随机控制问题。

这个新的随机控制问题有两个关键组成部分。第一个组件是参数估计部分,代理使用基础过程的实现来估计随机系统中的未知参数。我们特别关注在线参数估计。在线估计器是我们的随机控制问题的一个重要成分,因为这种类型的估计器允许代理以反馈形式获得最优策略。第二个组件是随机控制部分,问题是如何设计一个时间一致的随机控制问题,使代理也能同时估计参数并优化其策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件,然后仔细研究在此框架下的效用最大化问题。

在本论文中,我们研究了随机控制问题,其中代理没有对模型中参数值的充分了解,并且随着时间的推移,使用新的观察来估计参数,并同时更新最优策略。这个问题从理论和实践的角度都很有趣。标准的随机控制问题通常假设代理知道模型参数的值,这是一个很强的假设,在实践中并不成立。通过放宽对参数知识的假设,我们可以将新的随机控制框架应用于许多经典的随机控制问题,比如效用最大化,其中代理没有对随机系统中模型参数值的充分了解。这些随机控制问题中有两个关键组件。首先,随着时间的推移和更多信息的可用性,估计参数的值。在本论文中,我们关注在线参数估计。在线估计器是我们研究的随机控制问题的一个重要成分,因为在线估计器允许代理获得反馈形式的策略(马尔可夫)。其次,设计一个时间一致的随机控制问题,允许代理在线估计参数,同时推导出最优策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件。

成为VIP会员查看完整内容
20

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【宾夕法尼亚博士论文】大规模图机器学习,179页pdf
专知会员服务
39+阅读 · 2022年11月20日
【UCLA】基于深度神经网络的工业大模型预测控制,36页ppt
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员